关键词:
数据质量
数据清洗
缺失数据
不完整记录
分类
摘要:
缺失数据的处理是数据清洗的重要内容。提出了一种基于位运算的不完整记录分类检测方法。对不完整记录进行了界定,将记录分为完整、不完整合格、不完整修正和不完整删除四类,并给出了其层次分类流程。定义了记录的二进制表示,根据不完整记录样本生成各类记录的标准二进制表示集,按在样本中出现的次数确定标准二进制表示的优先级,并对不完整删除标准二进制表示集中的二制表示进行了表达式合并。通过位运算实现记录的分类检测,并通过处理未检出二进制表示逐步完善二进制表示集。根据不完整记录二进制表示确定记录的进一步处理。应用实例验证了方法的有效性。