GB/T36344-2018

信息技术数据质量评价指标

Informationtechnology—Evaluationindicatorsfordataquality

本文分享国家标准信息技术数据质量评价指标的全文阅读和高清PDF的下载,信息技术数据质量评价指标的编号:GB/T36344-2018。信息技术数据质量评价指标共有10页,发布于2019-01-01
  • 中国标准分类号(CCS)L70
  • 国际标准分类号(ICS)35.240.01
  • 实施日期2019-01-01
  • 文件格式PDF
  • 文本页数10页
  • 文件大小561.17KB

信息技术数据质量评价指标


国家标准 GB/T36344一2018 信息技术数据质量评价指标 Informationtechnology一Evaluationindicatorsfordataquality 2018-06-07发布 2019-01-01实施 国家市场监督管理总局 发布 国家标准化管理委员会国家标准
GB/T36344一2018 目 次 前言 范围 2 术语和定 3 指标框架 概述 4 指标说明 5.1评价表中表头信息说明 5.2规范性 5.3完整性 5.4准确性 5.5 -致性 5.时效性 5.7可访问性 附录A(资料性附录》数据质量评价过醒 参考文献
GB/36344一2018 前 言 本标准按照GB/T1.1一2009给出的规则起草 请注意本文件的某些内容可能涉及专利 本文件的发布机构不承担识别这些专利的责任 本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口 本标准起草单位:电子技术标准化研究院、御数坊(北京)科技咨询有限公司、上海市信息投资 股份有限公司、科学院计算机网络信息中心、深圳市华傲数据技术有限公司、贵阳信息技术研究院 中科院软件所贵阳分部),国网浙江省电力有限公司 本标准主要起草人:卫风林、宾军志、甘似禹胡良霖、于文渊、黎俊茂、陈峰、杨达、王静、董建、张群、 张展新、赵菁华、李冰、李易昂、秦俊宁、陈利跃
GB/36344一2018 信息技术数据质量评价指标 范围 本标准规定了数据质量评价指标的框架和说明 本标准适用于数据生存周期各个阶段的数据质量评价 2 术语和定义 下列术语和定义适用于本文件 2.1 数据data 信息的可再解释的形式化表示,以适用于通信、解释或处理 注可以通过人工或自动手段处理数据 [GB/T5271.1一2000,定义01.01.02] 2.2 元数据metadata 关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数 据易变性的数据 [GB/T5271.17一2010,定义17.06,05 2.3 数据质量dataquality 在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度 2.4 原始数据 rawdata 终端用户所存储使用的各种未经过处理或简化的数据 注原始数据有多种存在形式,如文本数据,图像数据,音频数据或者几种数据混合存在 2.5 数据生存周期datalifeeyele 将原始数据转化为可用于行动的知识的一组过程 2.6 数据集dataset 具有一定主题,可以标识并可以被计算机化处理的数据集合 2.7 数据模型 datamodel 对分析的图像和文本表述,该分析识别了组织为完成其使命、功能、目标、目的和战略,以及管理和 评价组织所需要的数据 注1在从高到低的不同抽象层次表示数据时,通常会区分概念模型(与某些努力相关的慨念组成的模型),逻辑模 型和物理模型 注2;所使用数据模型的使用周境的边界的正规描述称为上下文模式 注3;数据模型标识实体,域(属性)以及与其他数据的关系(关联),提供数据和数据间关系的概念视图
GB/T36344一2018 示例1:由框图组成的语义数据模型,这种框代表对业务有意义的事务集,如“人”或“行动”,以及描述这类实体对之 间关系的线条 示例2;应用特定数据管理技术的关系表或可扩展标记语言xM.等是逻辑数据模型 2.8 数据标准 datastandard 数据的命名、定义、结构和取值规范方面的规则和基准 指标框架 数据质量评价指标框架见图1 数据质量评价指标框架 说明: 规范性 数据符合数据标准、数据模型,业务规则,元数据或权威参考数据的程度 完整性 按照数据规则要求,数据元素被赋予数值的程度 准确性数据准确表示其所描述的真实实体(实际对象)真实值的程度 致性 数据与其他特定上下文中使用的数据无矛盾的程度 时效性 -数据在时间变化中的正确程度 可访问性 数据能被访问的程度 图1数据质量评价指标框架 概述 第5章规定的六大类评价指标,是实施数据质量评价的最小集,数据质量评价过程参见附录A 指标说明 5 5.1评价表中表头信息说明 评价表中的表头说明如下 指标编号及编码规则指标编号是评价指标的唯一性编号,由一级指标和二级指标共4位数字 a 组成 编码规则见图2 XX 二级指标,2位数字 -级指标2位数字 编码规则 1 -级指标;由2位数字组成,01代表规范性,02代表完整性、,03代表准确性,04代表一致
GB/36344一2018 性,05代表时效性、06代表可访问性 二级指标:由2位数字组成的顺序码,范围为0199 b 指标名称:评价指标的名称 指标描述:评价指标的解释 c d)计算方法:评价指标的计算方法 5.2规范性 规范性评价指标定义见表1 表1规范性评价指标 指标编号指标名称 指标描述 计算方法 数据符合数据标准的度量 注1:评价数据质量时需要收集数据在命名、创建、定义、X=A/B 更新和归档时遵循的标准,包括国际标准、国家标式中 0101 数据标准 准、行业标准、地方标准或相关规定等 A=满足数据标准要求的数据集中 注2和数据归档一样甚至更重要,在一个完整的数据规元素的个数; 则中旧数据的销毁一般也有一个比较详细且具有可B=被评价的数据集中元素的个数 执行性的规定 数据符合数据模型的度量 X=A/B 注1:数据模型是一种直观描述组织数据结构的手段,是式中: 0102 数据模型 数据表达的规范 A=满足数据模型要求的数据集中 注2:评价数据质量时需要检查是否存在清晰可理解的数元素的个数; 据模型定义以及这些数据的组织形式 B=被评价的数据集中元素的个数 数据符合元数据定义的度量 x=A/B 注:元数据标注、描述或刻画其他数据、以使检索,或使用 式中: 信息更容易 评价数据质量时需要检查是否提供可 0103 元数据 A=满足元数据定义的数据集中元 解读的元数据文档 素的个数; 示例;包含各字段名称.描述,类型值域等内容的数据字典 B=被评价的数据集中元素的个数 为一种元数据文档 数据符合业务规则的度量 X=A/B 注1:业务规则是一种权威性原则或指导方针,用来描述式中 0104 业务规则 业务交互,并建立行动和数据行为结果及完整性的A=满足业务规则的数据集中元素 规则 的个数; 注2:评价数据质量时需要检查是否存在良好归档的业务规则B=被评价的数据集中元素的个数 参考数据是系统、应用软件、数据库、流程、报告及交易记X=A/B 式中 权威参考数录和主记录用来参考的数值集合或分类表 据(权威参考注评价数据质量时需要收集参考数据列表 A=满足参考数据规则的数据集中 0105 源 示例:一张用于一个特定字段的有效值列表为一种参考元素的个数; 数据类型 B=被评价的数据集中元素的个数 X=A/B 式中: 安全规范是安全和隐私方面的规则,包括数据权限管理, 0106 安全规范 A=满足安全规范的数据集中元素 数据脱敏处理等 的个数 B=被评价的数据集中元素的个数
GB/T36344一2018 5.3完整性 完整性评价指标定义见表2 表2完整性评价指标 计算方法 指标编号 指标名称 指标描述 |X=A/B 数据元素完按照业务规则要求,数据集中应被赋值的数据式中 0201 lA=被赋值的数据集中元素的个数; 整性 元素的赋值程度 B=预期被赋值的数据集中元素的个数 Y=A/B 数据记录完按照业务规则要求,数据集中应被赋值的数据式中 0202 整性 记录的赋值程度 lA一被赋值的数据集中元素的个数 B=预期被赋值的数据集中元素的个数 5.4准确性 准确性评价指标定义见表3 表3准确性评价指标 指标编号 指标描述 计算方法 指标名称 X=A/B 数据内容正 式中 0301 数据内容是否是预期数据 确性 lA=满足数据正确性要求的数据集中元素的个数 B=被评价的数据集中元素的个数 数据格式包括数据类型、数值范围、数据长 X=AB 度、精度等)是否满足预期要求 式中 数据格式合 0302 示例,性别一栏不能出现男/女以外的内容;身 规性 lA=满足格式要求的数据集中元素的个数 份证号不能出现标点符号;以及对字符编码的 B=被评价的数据集中元素的个数 -些限制,都需要通过规定内容的格式来实现 Y=A/B 特定字段、记录、文件或数据集意外重复的式中: 数据重复率 0303 度量 lA=重复的数据集中元素的个数; B=被评价的数据集中元素的个数 [X=A/B 式中: 0304 数据唯一性特定字段、记录、文件或数据集唯一性的度量 lA=满足唯一性要求的数据集中元素的个数 B=被评价的数据集中元素的个数 正确字段,记录、文件或数据集之外无效数据X=A/B 脏数据出的度量 式中 0305 现率 示例:事务发生回滚时由于回滚机制不健全A=有脏数据出现的数据集中元素的个数; B=被评价的数据集中元素的个数 或不完善导致可能出现脏数据 5.5 -致性 -致性评价指标定义见表4
GB/36344一2018 表4一致性评价指标 指标编号 指标名称 指标描述 计算方法 X=A/B 同一数据在不同位置存储或被不同应用或用 相同数据 式中 0401 户使用时,数据的一致性;数据发生变化时存 致性 IA=满足一致性要求的数据集中元素的个数 储在不同位置的同一数据被同步修改 lB=被评价的数据集中元素的个数 X=A/B 关联数据 式中: 根据一致性约束规则检查关联数据的一致性 0402 致性 lA=满足一致性要求的数据集中元素的个数 B=被评价的数据集中元素的个数 5.6时效性 时效性评价指标定义见表5 表5时效性评价指标 指标编号指标名称 指标描述 计算方法 =A7B 基于时间段基于日期范围的记录数或频率分布符合业务式中 0501 的正确性 需求的程度 A=满足有效性要求的数据集中元素的个数; B二被评价的数据集中元素的个数 基于时间点基于时间截的记录数,频率分布或延迟时间符式中: 0502 及时性 合业务需求的程度 A=满足及时性要求的数据集中元素的个数 B=被评价的数据集中元素的个数 X=AB 数据集中同一实体的数据元素之间的相对时式中 0503 时序性 序关系 A=满足时序性要求的数据集中元素的个数; lB二被评价的数据集中元素的个数 5.7可访问性 可访问性评价指标定义见表6 表6可访问性评价指标 指标编号指标名称 指标描述 计算方法 X=A/B 式中 0601 可访问 数据在需要时的可获取性 A=满足可访问性要求的数据集中元素的个数 B=被评价的数据集中元素的个数 式中: 0602 数据在设定有效生存周期内的可使用性 可用性 A=满足可用性要求的数据集中元素的个数 B=被评价的数据集中元素的个数
GB/T36344一2018 附 录 A 资料性附录) 数据质量评价过程 图A.1描述了数据质量评价过程 构建质量管理组织 建立数据规范 确定评价指标 实施评价 数据质量提升 数据交付使用 图A.1数据质量评价过程
GB/36344一2018 参 考文献 [1]GB/T5271.1一2000信息技术词汇第1部分;基本术语 [[2]GB/T5271.17一2010信息技术词汇第17部分;数据库

GB/T36344-2018信息技术数据质量评价指标

在大数据时代,数据已经成为企业决策、运营和管理等方面的重要依据。然而,在海量、多样的数据中,如何保证数据的质量,成为了一个亟需解决的问题。为此,我国发布了GB/T36344-2018《信息技术数据质量评价指标》标准。

该标准主要涉及数据质量评价的方法和具体要求。其中包括:

一、数据质量评价的指标体系

根据该标准,数据质量评价应当包括以下指标:

  • 数据准确性:描述数据是否能够反映真实情况。
  • 数据完整性:描述数据是否完备,是否存在缺失。
  • 数据一致性:描述不同数据源之间的数据是否一致。
  • 数据及时性:描述数据是否能够及时反映当前状况。
  • 数据规范性:描述数据是否符合规范和标准要求。
  • 数据可用性:描述数据是否易于获取、集成和使用。

二、数据质量评价的方法

根据该标准,数据质量评价可以采用以下方法:

  • 主观评价方法:依靠专家对数据进行人工评价。
  • 客观评价方法:通过数据质量检测工具自动评价数据。
  • 混合评价方法:综合利用主观评价和客观评价相结合进行数据质量评价。

三、数据质量评价的实施流程

根据该标准,数据质量评价的实施流程包括以下步骤:

  • 确定数据质量评价对象。
  • 选择数据质量评价指标体系。
  • 采集数据质量评价数据。
  • 计算数据质量评价指标得分。
  • 对数据质量评价结果进行分析和解释。
  • 针对数据质量评价结果提出改进措施。

总的来说,GB/T36344-2018标准的发布对于保障数据质量、提高数据处理和分析的效果具有重要意义。企业应当按照该标准要求对数据进行评价,从而提高数据的质量和可信度。

信息技术数据质量评价指标的相关资料

    和信息技术数据质量评价指标类似的标准

    信息技术数据交易服务平台交易数据描述
    上一篇 本文分享国家标准信息技术数据交易服务平台交易数据描述的全文阅读和高清PDF的下载,信息技术数据交易服务平台交易数据描述的编号:GB/T36343-2018。信息技术数据交易服务平台交易数据描述共有12页,发布于2019-01-01
    信息技术通用数据导入接口
    本文分享国家标准信息技术通用数据导入接口的全文阅读和高清PDF的下载,信息技术通用数据导入接口的编号:GB/T36345-2018。信息技术通用数据导入接口共有12页,发布于2019-01-01 下一篇
    相关推荐