质量数据维度信息(维度数据质量完整性定义)「数据质量纬度」

第二章 数据质量维度引用Batini C , Scannapieco M . [Data-Centric Systems and Applications] Data and Information Quality[J]. Data-Centric Systems and Applications, 2016, 10.1007/978-3-319-24106-7.摘要本章是《数据和信息质量》的第二章,侧重于介绍数据质量的具体维度
在数据质量研究领域,每个维度都捕获了数据某些方面的特征
数据质量和模式质量都很重要,低质量的数据深刻地影响业务过程的质量,而低质量的模式(例如,关系模型中的非标准化模式)导致了数据生命周期期间的冗余和异常
因此,可以认为数据维度比模式维度更加与应用相关
本文后面内容用DQ(Data Quality)代表术语“数据质量”
更具体地说,质量维度可以指数据的扩展,即数据值,或者指的是它们的内涵,即它们的模式
数据维度和模式维度通常以定性方式定义,参考数据和模式的一般属性,相关定义不提供任何为维度本身赋值的工具
具体而言,定义不提供定量度量,并且一个或多个度量与维度相关联,作为单独的不同属性
对于每个度量,将提供一种或多种测量方法
对于模式质量,概念模式和逻辑模式的质量在数据库设计和使用中非常重要
概念模式通常在信息系统(IS)开发的第一阶段内生成
错误的概念架构设计强烈影响系统开发,必须尽快检测
逻辑模式是任何数据库应用程序实现的基础
尽管模式质量也很重要,但对DQ维度定义的研究一直集中在数据值方面,这些数据值在业务和管理过程中比模式更广泛地使用
因此,在本章中偏向于讨论数据值的维度,简要介绍模式的质量维度
数据和信息质量维度的分类框架本章介绍的数据质量维度可以通过一个通用的分类框架来表征,该框架允许我们比较不同信息类型的维度特征
该框架基于[1]中提出的维度分类理论,质量维度根据它们的相似性包含在同一类中
质量维度类的定义如下所示:Accuracy:准确性、正确性、有效性和精确性是衡量表达现实的真值的能力
Completeness:完整性、针对性和相关性是表达事物被关注方面完备程度的能力
Consistency:一致性和内聚性是指信息与现实一致的程度
例如完整性约束,业务规则和其他形式上的规定的内容
Redundancy:冗余性、简约性、紧凑性和简洁性是指通过最少的信息资源表示现实的能力
Readability:可读性,可理解性,清晰度和简洁性是信息易于理解和实现的程度
Accessibility:可访问性和可用性与用户基于自己的文化水平,物理状态和可用技术去访问信息的能力有关
Trust:可信度,可靠性和声誉,重点关注从权威来源获得的信息量
Usefulness:可用性与用户从使用信息中获得的可用信息量有关
准确性类准确性被定义为数据值v与真值v0之间的接近程度,指数据值v是否能“正确表示现实生活中的现象”
例如,如果人的名字是John,则值v0 = John是正确的,而值v = Jhn是不正确的
生活中的一切都是在不断变化的,所以有一种特殊的准确性称作时效准确性(temporal accuracy),与结构准确性(structural accuracy)相对应,其表示在特定时间范围内观察到的数据准确性,其中数据值可被视为稳定且不变
下面将分别介绍两种准确性的概念
结构准确性结构准确性又可分为句法准确性和语义准确性
句法准确性是值v与相应定义域D的元素的接近程度
在句法准确性方面,不关注值v是否与真值相同; 相反,关注的是检查v是否在定义域D中
因此,如果v = Jack,即使v0 = John,v在语法上也是正确的,因为Jack在人名域中
为了度量句法准确度,需要定义距离函数,该函数评估值v与定义域D之间的距离
语义准确性是值v与真值v0的接近程度
例如在下图中,元组1和2中的导演姓名如果交换的话,在语义准确性上是错误的,但是句法上是正确的,因为Curtiz和Weir同属于导演
图1 电影数据示例表上面的例子清楚地表明了句法准确性和语义准确性之间的区别
请注意,虽然使用距离函数测量句法准确度是合理的,但使用<yes,no>或<correct,not correct>域可以更好地衡量语义准确性
因此,语义准确性与正确性的概念一致
与语法准确性发生的情况相反,为了测量值v的语义准确性,必须知道相应的真值
时效准确性数据拥有随时间变化和更新的特点
按照数据的变化情况,分为稳定型数据,缓慢变化和频繁变化三种类型
为表征上述三类数据而提出的主要时间相关维度是及时性,波动性和时效性
及时性是表达数据是否根据现实世界中发生的变化而及时更新了
作为图1中的示例,电影4的属性#Remakes具有低时效性,因为电影4已经完成了重制,但是该信息没有增加重制项的值
类似地,如果该值及时更新了,则它的时效性很高
波动率表征数据随时间变化的频率
例如,出生日期等稳定数据的波动率等于0,因为它们根本不变
相反,股票报价是一种频繁变化的数据,由于它们仅在非常短的时间间隔内保持有效,因此具有高度的波动性
时效性表示当前数据对手头任务有效的程度
时效性维度表达的是,如果数据对于手头的任务是姗姗来迟的,那么它就具有低时效性
例如,大学课程的时间表需要在上课前更新,但如果只在课程开始后才可以获得,那么它具有低时效性
类似的,对于上述三种度量指标可以给出其数学定义:及时性定义为:其中Age测量时的时间,DeliveryTime是信息产品交付给客户的时间,InputTime是获取数据单元的时间
波动率定义为数据保持有效时长
时效性定义为:时效性范围是从0到1,其中0表示时效性低,1表示时效性高
完整性类完整性通常可以定义为“数据在多大程度上具有足够的广度,深度和胜任手头任务的程度”[2]
在[3]中,确定了三种类型的完整性
模式完整性定义为模式中概念及其属性完整的程度
列完整性定义为表中特定属性或列的缺失程度
值完整性评估度量值与真值的距离
如果专注于特定的数据模型,可以给出更精确的完整性表征
关系型数据的完整性直观地说,表的完整性表征了表代表相应现实世界的程度
关系模型的完整性可以表征为(1)空值的存在/不存在,(2)开放世界假设(OWA)和闭合世界假设(CWA)的两个假设之一的有效性
我们现在分别介绍这两个问题
让我们考虑具有Name,Surname,BirthDate和Email属性的Person关系
关系如图2所示
对于Id等于2,3和4的元组,Email值为NULL
让我们假设由元组2表示的人没有电子邮件:没有不完整的情况发生
如果由元组3表示的人有电子邮件,但其值未知,则元组3表示不完整
最后,如果不知道由元组4表示的人是否有电子邮件,则不完整性可能不同
图2 Person关系表在数据库的逻辑模型中,例如关系模型,对关系实例r中表示的数据的完整性有两种不同的假设
CWA声明只有实际存在于关系表r中的值才表示事实
在OWA中,我们既不能说明r的元组中没有表示的事实的真实性,也不能表示虚假性
Web型数据的完整性在Web上发布的数据拥有随时间变化的特征
在传统的纸质媒体中,信息被一劳永逸地发布,网络信息系统的特点是不断发布信息
以一所大学的网站为例,其中公布了本年课程表
在某一特定时刻,该列表可以被认为是完整的,因为它包含了所有经过官方批准的课程
尽管如此,在获得批准之前,该列表还将添加更多课程
因此,有必要了解清单在各个时刻的完整性
传统的完整性维度仅提供完整性的静态表征
为了考虑Web信息系统中所需的完整性的时间动态,本文引入了可完成性的概念
其中t_curr是评估完成性的时间,t_curr <t_max
图3 可完成性的图形化表示如图3所示,可完成性可以图形描绘为函数的区域Cb,其表示在观察的瞬时t_curr和t_max之间的完整性
对应于t_curr的值表示为c_curr; c_max是针对t_max估计的完整性的值
值c_max是实际可达的最大值,可以为一系列元素指定完整性的最大值;如果不存在该最大值,则c_max等于1
在图3中,还给出了参考区域A,定义为:与Cb相比,我们可以使用[High, Medium, Low],来实现可完成性的定义
可访问性类在网站上发布大量数据并不是每个人都可以使用它的充分条件
为了访问它,用户需要访问网络,理解用于导航和查询Web的语言,并用他的感官来感知所提供的信息
可访问性衡量用户利用他自己的文化,物理状态/功能和可用技术访问数据的能力
我们主要考虑可能降低物理或感知能力的因素,这些因素降低了数据的可访问性,我们将简要概述相应的指导方针以定义可访问性
其中,万维网联盟[4]将残疾人定义为受试者:可能无法轻易地看到,听到,移动或处理某些类型的信息;可能难以阅读或理解文本;可能没有或无法使用键盘或鼠标;可能有纯文本屏幕,小屏幕或慢速Internet连接;不会说话或无法理解自然语言;国际机构提供了若干准则来管理数据,应用程序,服务和网站,以确保可访问性
一些国家制定了具体的法律,以强制公共和私人网站以及公民和雇员使用应用程序的可访问性,以便为他们提供有效访问并减少数字鸿沟
一致性类一致性维度捕获违反语义规则的数据项,其中数据项可以是关系表中的元组或文件中的记录
参考关系理论,完整性约束(Integrity Constraints)就是一种语义规则
在数据统计中,数据编辑(Data Edits)是另一种可以用于检查完整性的语义规则
完整性约束是由数据库模式定义,数据库中的所有实例必须满足这些属性
但是,如果数据不是关系数据,仍然可以定义一致性规则
例如,在统计领域,来自人口普查问卷的数据具有与问卷调查方案相对应的结构
因此,语义规则以非常类似于关系约束的方式定义在这样的结构上
这样的规则称为编辑规则
原文深入介绍了这些规则,感兴趣的读者请查阅原文
定义数据质量维度的方法本文描述了一些维度定义方法
主要采用三种方法来提出数据质量维度的定义
这三种方法分为,理论法,经验法和直观法
理论方法采用形式模型来定义或证明维度
经验方法从实验,访谈和问卷调查开始构建一组维度
直观的方法根据常识和实践经验简单地定义维度
原文对这三种方法进行了深入剖析,本文不多赘述
模式的质量维度在前面的部分中,我们提供了数据质量维度的深入表征
在本节中,重点是架构质量维度
但是,模式的质量和数据质量之间存在关系,这二者并不等同
许多数据质量的维度,在模式质量中有了新的定义
原文对该节进行了深入剖析
本文主要贡献本文我们看到了各种维度和指标,这些维度和指标表征了结构化数据的信息质量概念
这些维度为那些对数据质量感兴趣的组织提供了参考框架,使他们能够在一定程度上表征并衡量数据集的质量,并且质量维度是任何测量和改进数据质量的基础
此外,本文给出了众多维度的一般建议,然而,还存在与特定域相关的提议,在特定的领域需要使用特定维度以捕获该领域的数据特性
参考文献[1] Batini C, Palmonari M, Viscusi G (2012) The many faces of information and their impact on information quality. In: Proceedings of the 17th International Conference on Information Quality (IQ 2012), pp 212–228[2] Wang RY, Strong DM (1996) Beyond accuracy: what data quality means to data consumers. Journal of Management Information Systems 12(4):5–33[3] Pipino LL, Lee YW, Wang RY (2002) Data quality assessment. Communications of the ACM 45(4)[4] W3C (accessed 2014) http://www.w3.org/WAI/致谢此文由南京大学软件学院2017级硕士廉昊翻译转述
质量数据维度信息(维度数据质量完整性定义)
(图片来源网络,侵删)

联系我们

在线咨询:点击这里给我发消息