GB/T37721-2019

信息技术大数据分析系统功能要求

Informationtechnology—Functionalrequirementsforbigdataanalyticsystems

本文分享国家标准信息技术大数据分析系统功能要求的全文阅读和高清PDF的下载,信息技术大数据分析系统功能要求的编号:GB/T37721-2019。信息技术大数据分析系统功能要求共有15页,发布于2020-03-01
  • 中国标准分类号(CCS)L67
  • 国际标准分类号(ICS)35.240
  • 实施日期2020-03-01
  • 文件格式PDF
  • 文本页数15页
  • 文件大小828.24KB

信息技术大数据分析系统功能要求


国家标准 GB/T37721一2019 信息技术大数据分析系统功能要求 Informationtechnology一Functionalrequirementsforbigdataanalyticsystems 2019-08-30发布 2020-03-01实施 国家市场监督管理总局 发布 币国国家标准化管理委员会国家标准
GB/37721一2019 目 次 前言 范围 2 规范性引用文件 术语和定义 缩略语 总体要求 数据准备模块功能要求 6.1数据抽取功能要求 6.2数据清洗功能要求 6.3数据转换功能要求 6.4数据加载功能要求 分析支撑模块功能要求 7.1查询功能要求 机器学习功能要求 7,.2 7.3统计分析功能要求 7.4可视化功能要求 数据分析模块功能要求 8.1分析模式 8.2分析类型 流程编排模块功能要求 9.1工作流管理 9.2告警和日志 附录A资料性附录)sQL关键字
GB/37721一2019 前 言 本标准按照GB/T1.1一2009给出的规则起草 请注意本文件的某些内容可能涉及专利 本文件的发布机构不承担识别这些专利的责任 本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口 本标准起草单位:浪潮电子信息产业股份有限公司、电子技术标准化研究院、勤智数码科技股 份有限公司、杭州海康威视数字技术股份有限公司浪潮软件集团有限公司、上海计算机软件技术开发 中心、新华三技术有限公司、天津南大通用数据技术股份有限公司、中兴通讯股份有限公司、华为技术有 限公司、星环信息科技(上海)有限公司、北京百分点信息科技有限公司、北明软件有限公司、哈尔滨哈工 大大数据通用技术有限公司、国网上海市电力公司、陕西省信息化工程研究院、南京南瑞信息通信科技 有限公司、广州浪潮大数据研究有限公司、杭州中奥科技有限公司、科大讯飞股份有限公司 本标准主要起草人苏志远、张东,赵江、卫风林、张群、刘宇峰、李正、赵世范、黄先芝、王建华、 陈敏刚、.刘振宇、蔡立志、潘子健,赵伟、孙卡,吴文峰、刘蔚,王东,赵华、符海芳、周洪明孙伟、汪疆平 王进宏、赵志强、王刚,王宏志、郭乃网,苏运、张勇,孙立华、汤宁,刘广庆,沈贝伦、陆韵、武新、张绍勇 赵乾、李冰、尹卓、孙嘉阳
GB/37721一2019 信息技术大数据分析系统功能要求 范围 本标准规定了大数据分析系统的数据准备模块、分析支撑模块、数据分析模块和流程编排模块的功 能要求 本标准适用于大数据分析系统的设计、开发和应用部署 规范性引用文件 下列文件对于本文件的应用是必不可少的 凡是注日期的引用文件,仅注日期的版本适用于本文 件 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 GB/T35295一2017信息技术大数据术语 术语和定义 GB/T35295一2017界定的以及下列术语和定义适用于本文件 3. 大数据分析系统higdaaamalytieystems 在大数据存储和处理系统提供的原始数据和计算框架的基础上,集成了一系列数据分析生存周期 过程中所用工具的系统 3.2 结构化数据struetureddata 存储在数据库里,可以用二维表结构表示的数据 3.3 unstrctureddata 非结构化数据 除了结构化数据之外的没有明确结构约束的数据 3,4 分布式执行计划distributedexeeutionplam 分布式场景下的sQL查询计划,需要根据数据分布特点将sQL拆分成多个切片及多个步骤,提供 调度给多节点并行执行 缩胳语 下列缩略语适用于本文件 Al应用程序编程接口(Aplie ationProgrammingInterface) UJnit) GiPU:图形处理器(GraphicsProcessing JsON:JS对象标记(JavaSeriptObjeetNotation OLAP联机分析处理(On-LineAnalytiealProcessing) REST:表述性状态转移(RepresentationalStateTransfer)
GB/T37721一2019 sQL;结构化查询语言(StructuredQuerylLanguage) SSD;固态硬盘(SolidStateDrives) xtensible Markup XML可扩展置标语言(Ex language 5 总体要求 本标准主要从以下4个方面对大数据分析系统的基本功能做出要求 数据准备模块的功能要求;对原始数据进行预处理,使数据能被上层分析方法直接使用 a b 分析支撑模块的功能要求;提供建立数据模型和应用模型的算法库或者工具库 数据分析模块的功能要求;提供数据分析方法或者中间件,将数据准备模块输出的数据以及数 据建模过程中产生的中间数据转变成知识或者决策; d 流程编排模块的功能要求;按照工作流对数据处理生存周期的各环节进行编排 各模块间存在相互作用的关系,如图1所示 大数据分析系统框架 数据分析模块 数据准 备模块 流社 分析模式 分析类型 编排 模块 数据抽取 预测型 描述型 离线数据 流数据 交L 分析 分析 分析 分析 分析 数据清洗 工作流 竹理 数据转换 分析支撑模块 告警和 查询 统计分析 数据加载 机器学习 可视化 日志 大数据分析系统框架 6 数据准备模块功能要求 6.1数据抽取功能要求 数据抽取模块要求如下 应支持按照需求将存放在存储系统中的数据进行抽取;: a b 应提供对结构化数据、非结构化数据的不同抽取方法; c 应提供全量抽取及增量抽取模式 应支持主动抽取和被动追加 d 应支持定时批量抽取; 宜支持分布式数据抽取,实现数据抽取过程的负载均衡 数据清洗功能要求 数据清洗模块要求如下: 应支持数据一致性; a
GB/37721一2019 b 应支持处理无效值,包括无效数据值的删除、修正等; c 应支持处理缺失值,包括缺失值的填充或缺失值对应数据条目的删除等 d)应支持处理重复数据,包括重复数据的合并或者删除等操作 应提供清洗前后的数据比对功能,方便使用者检验清洗的效果 e fD 宜支持逻辑矛盾,关联性验证、不合理数据的清洗 6.3数据转换功能要求 数据转换模块要求如下: 应支持结构化数据的列转换; b 应支持结构化数据的行转换; 应支持结构化数据的表转换; c d 宜支持非结构化数据的结构化处理 宜支持对文本、网页类数据的规范化处理,将文档类数据转化成单一规范形式 f 宜支持对语音/音频数据的识别处理,将语音的词汇内容转换为计算机可读的输人 宜支持对图片中的内容转换为字符文本,提取图像信息 g 6.4数据加载功能要求 数据加载模块要求如下 应支持把经过清洗和转换之后的数据加载到大数据分析系统,为分析功能模块提供数据 a 宜支持全量加载;按照加载的目标结构,将转换过的数据输人到目标结构中去 b 宜支持增量加载;如果目标结构中已经存在数据,在保存已有数据的基础上增加新的数据 当 c -个输人的数据记录与已经存在的记录重复时,丢弃新输人的数据,或者输人记录可能会作为 副本增加进去 应支持实时加载或批量加载两种方式, 分析支撑模块功能要求 7.1查询功能要求 7.1.1查询接口要求 查询接口要求如下: 应支持通过标准的数据库连接接口进行查询 aa b) 应支持RESTAPI查询接口进行查询 7.1.2查询优化要求 查询优化要求如下: 应支持建立数据索引,达到查询加速的效果 a b 应支持精确查询和模糊查询; 宜支持基于规则或者基于成本的查询优化 c d 宜支持数据分片和多副本技术优化查询速度 宜支持通过sQL进行复杂条件高并发查询 e fD 宜支持二级索引
GB/T37721一2019 7.2机器学习功能要求 7.2.1数据集管理功能要求 数据集管理功能要求如下 应提供将输人数据划分为训练集、验证集和测试集的功能 a b) 应提供机器学习模型的导人和导出的功能,支持将训练,、验证过的模型导人到大数据分析系统 中,以及将大数据系统中训练所得的模型导出 7.2.2支持算法的要求 算法要求如下 宜支持回归与分类算法; a 宜支持聚类算法; b 宜支持协同过滤算法; c 宜支持降维算法; d 宜支持频繁模式挖掘算法; 宜支持神经网络算法; 宜提供机器学习流程的其他组件,包括特征提取、特征转换、特征选择、模型选择、交叉验证、模 g 型调优等 h 宜支持Java.Scala.Python.R等一种或多种语言,二次开发增加新的算子 7.2.3模型评估功能要求 宜支持算法模型的评估模块 7.3统计分析功能要求 统计分析子模块要求如下 应支持基本的数值统计,如最大值,最小值,求和、总数等统计量; a b) 应支持分析数据集中趋势的统计,如平均数、中位数、众数等统计量 应支持分析数据离散程度的统计,如极差、方差、标准差等统计量 c 应支持分析多个随机变量的关系,比协方差、相关系数等统计量 d 宜支持统计分析的自定义模板能力,保存常用的统计分析方案 e 7.4可视化功能要求 可视化要求如下 应支持常见的数据源数据格式作为输人.如Excel关系型数据库JJsON、XMI等 a) b 应支持对高维数据的可视化展示 支持可视化分析工具库,包括以下可视化形式 应支持柱状图; 应支持饼图; 3 应支持折线图 4 应支持表格; 宜支持散点图; 5 6 宜支持雷达图;
GB/37721一2019 7宜支持网络图; 8 可支持时间线; 9 可支持热力图; 0可支持地图 d 可支持算法模型的评估相关的可视化工具 数据分析模块功能要求 8.1分析模式 8.1.1离线数据分析功能要求 离线数据分析要求如下: a 应提供对结构化查询语言的支持,结构化查询语言关键字参见附录A; b 应支持对离线数据的分布式分析 应具有通过标准接口支持第三方应用的能力; c d 应支持分布式计算或并行计算等计算框架 应支持对海量工作任务的切分和分布式调度; 应支持集成第三方的机器学习算法库 可支持使用内存或SSD存储作为缓存; g 宜支持分布式执行计划层面的优化; h 宜支持对文本类、音视频类以及图像类数据的分析 j宜支持对关系型数据库和大数据存储系统中的数据源进行交叉查询、聚合,关联操作的能力; kk 宜支持使用GPU对特定算法加速分析 8.1.2流数据分析功能要求 流数据分析要求如下: 应支持按时间切片后进行批量处理; a b 应支持基于事件触发或者采样的流式处理 应支持实时流上的数据统计; c d 应支持流式数据的排序; 应支持与静态表之间的关联; 应支持多个数据流的关联处理; 采用滑动窗口方式的实时分析任务,其时间窗口大小应可调 g h 宜支持实时数据的分组、优先级调度; 宜支持对文本类、音视频类以及图像类数据的分析 8.1.3交互式联机分析功能要求 交互式联机分析要求如下 a 应支持通过结构化查询语言,对数据进行分布式的联机分析,如OLAP等 b 应支持通过结构化查询语言对数据进行即席查询 应支持利用可视化中间件对数据分析结果进行显示 c d 应支持在交互式分析过程中定义计算公式和参数配置; 应支持交互式分析过程的自动保存和回退等操作;
GB/T37721一2019 fD 应支持在交互式分析过程中对分析结果的保存和发布; 应支持基于在线联机分析的交互式数据分析; 8 h)宜支持对非结构化数据的分析 8.2分析类型 8.2.1预测型分析功能要求 预测型分析要求如下: aa 应支持趋势预测、回归分析等多种预测分析方法 b准确率应数值化以百分比形式呈现,精确到小数点后至少1位; c 分析结果宜使用可视化方式进行显示; d 应支持对训练好的模型的发布应用 8.2.2描述型分析功能要求 描述型分析要求如下: 应支持使用相关关系分析方法进行描述型分析 a b 对样本数据的分析结果应支持可视化展示,支持模型训练效果的展示,对训练好的模型可存储 和发布; 应支持分析结果的良好直观呈现 流程编排模块功能要求 9.1工作流管理 工作流管理要求如下 宜支持可视化的流程编排操作界面,宜通过拖拉方式进行流程编排和修订 a b 应支持工作流的调度触发机制,可配置触发时间或触发事件 工作流的触发时间的启动时间、 执行周期可配置 宜支持通过管理界面对工作流进行启动、停止操作 c d 宜支持多流程任务的并行执行 宜支持通过数据管道实现工作流的串联 e fD 宜支持多人协同的功能 应支持流程编排结果的持久化保存 日 9.2告警和日志 告警和日志要求如下 应支持跟踪计算或任务的执行状态,并对异常任务给出告警 a 应将任务执行状态的细节输出到日志 b)
GB/37721一2019 附 录 A 资料性附录 sQL关键字 A.1 概述 本附录给出的关键字选取了当前大数据分析中常用的关键字 A.2数据类型 数据类型关键字如下 TINYINT; SMALLINT; INT BGINT; FLOAT; DOUBLE; DECIMAL; BOOLEAN VARCHAR; DATE; TIMESTAMP; TME BL.OB A.3数据定义语言(DDL A.3.1创建/删除/修改数据库 CREATE/DROP/ALTERDATABASE A.3.2创建/删除/修改表 CREATE/DROP/ALTERTABL A.3.3创建/删除/修改视图 CREATE/DROP/ALTERVI1Ew A.3.4创建/删除函数 CREATE/DROPFUNCTION A.3.5列出数据库/表/视图/函数等对象 SHOw
GB/T37721一2019 A.3.6查看数据库/表/视图/函数等对象 DESCRIBE A.3.7分区 PARTITIONEDBY或PARTITONBY A.3.8分桶 CLUSTEREDBY或DISTRIBUTEDBY A.4数据操纵语言(DL A.4.1删除数据 DELETEFROM A.4.2更改数据 UPDATESET A.4.3合并数据 MERGEINT A.5数据查询语言(DQL A.5.1简单SELECT查询 简单sELECT查询关键字如下 SELEC'T; SELECTDISTINCT; SEIECTLIMIT A.5.2过滤 过滤关键字如下 WHERE; HAVING A.5.3分组和排序 分组和排序关键字如下: GROUPBY; ORDERBY A.5.4关联 关联关键字如下 -内连接:INNERJOIN;
GB/37721一2019 左连接;LEF:TJOIN 右连接;RIGHTJOIN 全连接:FULIJOIN A.5.5化名AS 化名关键字如下: 列的别名; 表的别名 A.5.6集合运算 集合运算关键字如下: -并集;UNION; 差集;ExCEPT -交集:INTERSECT A.5.7子查询部分 WITHAS A.6事务控制语言(ICL) TCL关键字如下 -BEGIN或START; END:; COMMIT ROLLBACK A.7数据控制语言(DCL A.7.1创建/删除角色 CREATE/DROPROLE A.7.2切换角色 SETROLE或CHHANGER(OL A.7.3赋予权限 GRANTTO A.7.4撤销权限 REVOKEFROM
GB/T37721一2019 A.8函数 A.8.1数学函数 数学函数关键字如下 ABS函数 Sqrt函数 Bin函数 Ceil函数; Exp函数 Floor丽数 Hex函数 L.og函数 L.og2函数 L.ogl0函数 Rand函数; Ln函数; Power函数 Conv函数 Sin函数; Asin函数 Cos函数; Acos函数; Tan函数; Atan函数 A.8.2条件函数 条件函数关键字如下: CASE函数 F函数; cOALESsCE函数 A.8.3字符串函数 字符串函数关键字如下: CONCAT; CONCAT_WS; INSTR; LENGTH; L0CATE; LOWER; LCASE; LPAD/RPAD; 10
GB/37721一2019 LTRIM/RTRIM/TRIM: REVERSE; SUBSTR: UPPER; NVL. MD5 LCASE; LPAD; LTRIM -PRINTF A.8.4聚合函数 聚合函数关键字如下: COUNT(); AVG(); SUM(); -MAX(); MIN(; VARIANCE(); STD() A.8.5日期函数 日期函数关键字如下 YEAR() QUARTER() MONTH(. wEEK(); wEEKOFYEAR() DAY(); DAYOFwEEK(); DAYOFMONTH(): DAYOFYEAR(). HOUR(); MINUTE(: SECOND() DATE_ADD(); DATE_SUB(); UNIX_TIMESTAMP(); To_DATE(); DATE_FORMAT; -FROM_UNIXTIME(); DATEDIFF() DATE_ADD(); 11
GB/T37721一2019 DATE_sUB(); STR_To_DATE(); SYSDATE( A.8.6 上下文函数 上下文函数关键字如下: CURRENT_USER函数; -CURRENT_TIME函数; -CURRENT_DATE函数 -CURRENT_TIMESTAMP函数 12

信息技术大数据分析系统功能要求GB/T37721-2019解读

随着互联网和物联网技术的快速发展,越来越多的人们开始关注如何利用海量的数据资源来挖掘商业价值。为了满足这种需求,信息技术大数据分析系统应运而生。GB/T37721-2019便是一项面向信息技术大数据分析系统的技术标准,旨在规范大数据分析系统的功能要求,提高数据分析的效率和准确性。

GB/T37721-2019对大数据分析系统的功能要求做出了详细的规定,主要包括以下几个方面:

一、数据采集与清洗

数据采集与清洗是大数据分析系统的基础环节,直接决定了后续数据分析的质量和精度。GB/T37721-2019规定了大数据分析系统在数据采集和清洗方面的相关要求,包括数据来源、数据格式、数据去重、数据转换等。

二、数据存储和管理

GB/T37721-2019要求大数据分析系统能够支持多种数据存储方式,包括关系型数据库、非关系型数据库、分布式文件系统等。同时,该标准也规定了数据备份、恢复、迁移等相关管理要求。

三、数据分析与挖掘

数据分析与挖掘是大数据分析系统的核心功能。GB/T37721-2019针对数据分析与挖掘做出了详细的要求,包括数据处理、特征提取、模型训练等方面。

四、数据可视化展示

为了让用户更加直观地了解分析结果,大数据分析系统需要支持数据可视化展示。GB/T37721-2019明确了数据可视化展示的相关要求,包括图表类型、界面设计、交互方式等。

五、系统安全与可靠性

数据安全和系统的可靠性是大数据分析系统必须考虑的问题。GB/T37721-2019对大数据分析系统的安全与可靠性做出了相关要求,包括权限控制、日志记录、异常处理等。

总之,GB/T37721-2019为信息技术大数据分析系统的功能要求做出了详细的规定,涵盖了数据采集、存储、管理、分析与挖掘、可视化展示以及系统安全与可靠性等多个方面。这将有助于提高大数据分析的效率和准确性,促进信息技术大数据分析系统的健康发展。

和信息技术大数据分析系统功能要求类似的标准

信息安全技术移动终端安全管理平台技术要求
上一篇 本文分享国家标准信息安全技术移动终端安全管理平台技术要求的全文阅读和高清PDF的下载,信息安全技术移动终端安全管理平台技术要求的编号:GB/T37952-2019。信息安全技术移动终端安全管理平台技术要求共有20页,发布于2020-03-01
信息技术学习、教育和培训电子课本与电子书包术语
本文分享国家标准信息技术学习、教育和培训电子课本与电子书包术语的全文阅读和高清PDF的下载,信息技术学习、教育和培训电子课本与电子书包术语的编号:GB/T37716-2019。信息技术学习、教育和培训电子课本与电子书包术语共有13页,发布于2020-03-01 下一篇
相关推荐