关键词:
数据质量
数据质量评价
数据质量模型
数据质量框架体系
关系代数
质量传递
正确性
完整性
上下文
摘要:
目前,信息系统已从单一应用、单一组织逐步扩展到不同组织、行业和国家,数据的产生方式、来源和模式多种多样,数据量急剧增大。由于数据来源复杂、质量参差不齐,由此带来决策失误和经济损失造成的影响越来越大,数据质量已经成为一个日益突出的问题。
本文从质量具有的主观和客观两个方面对数据质量的测度和评价问题进行了深入研究。客观方面,从质量传递的角度研究了选择、投影和笛卡尔积三个基本关系代数运算对数据质量的传递影响,完成了数据质量传递的理论研究,证明了若干定理;主观方面,针对上下文因素对质量评价的影响,提出了一个数据质量评价方法。本文所完成的工作和创新总结如下:
(1)提出了基于数据项粒度的数据质量评价模型
在Parssian元组粒度的质量评价模型基础上,作者提出了一个数据项粒度的数据质量评价模型。该模型从数据项粒度对元组质量类型进行了更为深入的分析,形式化描述了元组的质量特征,并分别从键属性和非键属性出发定义了正确性和完整性指标的测度,本文提出的数据项粒度的质量评价模型较Parssian模型更深入一步。
(2)证明了选择运算对正确性、完整性评价指标的数据质量传递若干定理通过在数据项粒度对关系的质量量化分析,由于存在属性量化前后错误(空值)率分别对应数据质量分布和数据质量评价的事实,在基本假设的前提下(假设3.1~3.6),证明了属性量化前后错误(空值)率的定量关系(定理3.2、3.4),表明了数据质量分布和数据质量评价之间存在数量关系。
在数据项粒度下,对于键属性选择情况,证明了选择前后量化错误(空值)率之间的定量关系(定理3.5、3.7);证明了正确性和完整性选择前后不变的结论(定理3.6、3.8)。对非键属性选择的三种情况,证明了属性错误(空值)率选择前后变化关系(定理3.9、3.13、3.18);证明了选择属性对其它非选择属性的定量影响关系(定理3.10、3.14、3.19);证明了正确性和完整性的定量传递关系(定理3.9、3.11、3.12、3.15、3.16、3.17、3.20)。
(3)证明了投影运算对正确性、完整性评价指标的数据质量传递若干定理就投影运算的三种不同情况:对于投影含所有键属性和投影含候选键属性的情况,分别证明了属性量化前后错误(空值)率的变化关系(定理4.1、4.3、4.4);证明了正确性和完整性指标的数据质量传递定理(定理4.2、4.5);对于投影含部分键属性的情况,分析了可能采取的处理方法和存在的问题,提出了可行的建议。
(4)证明了笛卡尔积运算对正确性、完整性评价指标的数据质量传递若干定理研究了笛卡尔积运算对正确性和完整性指标的质量传递影响。证明了量化后属性错误率和空值率变化的定量关系(定理5.1、5.2);证明了正确性和完整性数据质量传递关系(定理5.3、5.4)。
(5)本文模型和结论与Parssian模型和结论的比较
通过比较分析,Parssian模型是元组粒度的模型,可以看作是对量化向量中正确元组形成的分量在关系代数运算下质量传递关系的模型。本文模型是数据项粒度的模型,涵盖了键属性和非键属性两部分,同时考虑了正确性和完整性指标之间的相互作用和影响。本文还证明了两种模型评价指标之间的定量关系(定理3.21、定理3.22),当全部属性均是键属性时,Parssian指标与本文指标相同,说明在这种情况下,Parssian指标是本文指标的特例。
对于选择运算:在选择条件作用在键属性条件下,Parssian结论与本文结论相同。对于笛卡尔积运算:在两个只有键属性的关系的情况下,本文正确性和完整性质量传递关系结论与Parssian结论相同,说明Parssian笛卡尔积运算结论是本文结论的特例。
(6)基于上下文的数据质量评价方法
研究了上下文因素对质量评价中的影响,通过偏好关系和偏好结构来反映上下文因素对质量评价的主观倾向,经过量化处理和评价算法计算得出不同上下文因素对质量的评价结果。
通过本文的研究表明:对数据项粒度的数据质量定量传递关系的研究是有理论意义和价值的。由于本文是基于数据项粒度的研究,较Parssian在元组粒度的研究更深入细致,从而本文得到的结论更全面。