GB/T38643-2020

信息技术大数据分析系统功能测试要求

Informationtechnology—Bigdata—Functionaltestingrequirementsforanalyticsystem

本文分享国家标准信息技术大数据分析系统功能测试要求的全文阅读和高清PDF的下载,信息技术大数据分析系统功能测试要求的编号:GB/T38643-2020。信息技术大数据分析系统功能测试要求共有29页,发布于2020-11-01
  • 中国标准分类号(CCS)L67
  • 国际标准分类号(ICS)35.240
  • 实施日期2020-11-01
  • 文件格式PDF
  • 文本页数29页
  • 文件大小1.54M

以图片形式预览信息技术大数据分析系统功能测试要求

信息技术大数据分析系统功能测试要求


国家标准 GB/T38643一2020 信息技术大数据 分析系统功能测试要求 nformationtechnology一Bigdata一Funetionaltestingrequirementsfor analyticsystem 2020-04-28发布 2020-11-01实施 国家市场监督管理总局 发布 国家标涯花警理委员会国家标准
GB/T38643一2020 目 次 前言 范围 2 规范性引用文件 3 术语和定义 缩略语 概述 6 数据准备模块功能测试 6.1数据抽取功能测试 6.2数据清洗功能测试 6.3数据转换功能测试 6.4数据加载功能测试 分析支撑模块功能测试 7.1查询功能测试 7.2机器学习功能测试 7.3统计分析功能测试 7.4可视化功能测试 数据分析模块功能测试 8.1分析模式测试 8.2分析类型测试 流程编排模块功能测试 9.1工作流管理测试 9.2告警和日志测试 附录A(资料性附录测试示例
GB/38643一2020 前 言 本标准按照GB/T1.1一2009给出的规则起草 请注意本文件的某些内容可能涉及专利 本文件的发布机构不承担识别这些专利的责任 本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口 本标准起草单位:浪潮电子信息产业股份有限公司、电子技术标准化研究院、人民大学、上 海计算机软件技术开发中心、浪潮软件集团有限公司、勤智数码科技股份有限公司、深圳迅策科技有限 公司、成都四方伟业软件股份有限公司、陕西省信息化工程研究院、铁道科学研究院集团有限公司、 平安科技(深圳)有限公司、内蒙古大学、江苏中垄数据技术有限公司、重庆大数据研究院有限公司 本标准主要起草人;赵江、苏志远、卫风林、张群、杜小勇、陈敏刚、黄先芝、公维锋、陈文捷、蔡立志 王建华、李正、耿大为、赵志强,颜怀柏、顾美营、张勇,朱志祥、马小宁,吴艳华,赵正阳、韩梅、李华、魏请 张海静、王东强
GB/38643一2020 信息技术大数据 分析系统功能测试要求 范围 本标准规定了大数据分析系统的数据准备模块、分析支撑模块、数据分析模块、流程编排模块的功 能测试要求 本标准适用于指导大数据分析系统的设计、开发和交付 规范性引用文件 下列文件对于本文件的应用是必不可少的 凡是注日期的引用文件,仅注日期的版本适用于本文 件 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 GB/T37721一2019信息技术大数据分析系统功能要求 术语和定义 GB/T37721一2019界定的以及下列术语和定义适用于本文件 3.1 大数据分析系统bigdataanalysisystem 在大数据存储和处理系统提供的原始数据和计算框架的基础上,集成了一系列数据分析生命周期过 程中所用工具的系统 缩略语 下列缩略语适用于本文件 API;应用程序接口(AppliceationProgrammingInterface) AUC:ROC曲线下方的面积(AreaundertheROCCurve CPU中央处理器(CentralProcessingUnit) GPU图形处理器(GraphicsProcessingUnit) HDFS:分布式文件系统(HadoopDistributedFileSystem) JSON:JS对象标记(JavaSecriptObjectNotation OLAP:联机分析处理((O-IineAnalyticalProcessing PCA:主成分分析(PrineipalComponentsAnalysis) REST:表述性状态转移(RepresentationalStateTransfer ROC:接受者操作特性(ReceiverOperatimgCharacteristic) sQL;结构化查询语言(StrueturedQueryLanguage) sSD固态硬盘(solidStateDrives) XMM;可扩展置标语言(ExtensibleMark kuplanguage
GB/T38643一2020 5 概述 本标准根据GB/T37721一2019规定的大数据分析系统的功能要求,给出了相应的测试要求 测试示 例参见附录A o 数据准备模块功能测试 6.1 数据抽取功能测试 数据抽取功能测试要求如下 应测试大数据分析系统数据准备模块是否支持按照需求抽取存放在存储系统中的数据 a) b 应测试大数据分析系统数据准备模块是否对结构化数据、非结构化数据提供不同抽取方法; 应测试大数据分析系统数据准备模块是否提供全量抽取及增量抽取模式 c d 应测试大数据分析系统数据准备模块是否支持主动抽取和被动追加" 应测试大数据分析系统数据准备模块是否支持定时批量抽取; e fD 应测试大数据分析系统数据准备模块是否支持分布式数据抽取,并测试在数据抽取过程是否实 现负载均衡 6.2数据清洗功能测试 数据清洗功能测试要求如下 a 应测试大数据分析系统数据准备模块是否支持数据一致性; b 应通过进行无效数据值删除,修正等操作测试大数据分析系统数据准备模块是否支持处理无 效值; 应通过填充缺失值或删除缺失值对应数据条目等操作测试大数据分析系统数据准备模块是否支 持处理缺失值; 应通过合并重复数据或者删除重复数据等操作测试大数据分析系统数据准备模块是否支持处理 d 重复数据: 应测试大数据分析系统数据准备模块是否提供清洗前后的数据比对功能 e 应测试大数据分析系统数据准备模块是否支持逻辑矛盾,关联性验证、不合理数据的清洗 6.3数据转换功能测试 数据转换功能测试要求如下 a 应通过对结构化数据进行列转换操作测试大数据分析系统数据准备模块是否支持结构化数据列 转换; 应通过对结构化数据进行行转换操作测试大数据分析系统数据准备模块是否支持结构化数据行 b 转换; 应通过对结构化数据进行表转换操作测试大数据分析系统数据准备模块是否支持结构化数据表 转换; 应测试大数据分析系统数据准备模块是否支持非结构化数据的结构化处理 d 应测试大数据分析系统数据准备模块是否支持对文本、网页类数据的规范化处理,是否支持将文 e 档类数据转化成单一规范形式; 应通过进行语音和音频输人,检测输人识别结果准确性,测试大数据分析系统数据准备模块是否 支持对语音/音频数据的识别处理
GB/38643一2020 应通过进行图像输人,检测输人识别结果准确性,测试大数据分析系统数据准备模块是否支持提 g 取图像信息 6.4数据加载功能测试 数据加载功能测试要求如下: 应测试大数据分析系统数据准备模块是否支持把经过清洗和转换之后的数据加载到大数据分析 a 系统; 应按照加载的目标结构将转换过的数据输人到目标结构中去,测试大数据分析系统数据准备模 块是否支持全量加载; 在目标结构中已经存在数据时,应通过在保存已有数据的基础上增加新的数据,测试大数据分析 系统数据谁准备模块是否支持增量加载 应测试大数据分析系统数据准备模块是否支持实时加载或批量加载 分析支撑模块功能测试 7.1查询功能测试 7.1.1查询接口测试 查询接口测试要求如下 a 应测试大数据分析系统分析支撑模块是否支持通过标准的数据库连接接口进行查询; 应测试大数据分析系统分析支撑模块是否支持RESTAPI查询接口进行查询 b 7.1.2查询优化测试 查询优化测试要求如下 应通过建立数据索引测试大数据分析系统分析支撑模块是否达到查询加速的效果; a) b) 应测试大数据分析系统分析支撑模块是否支持精确查询和模糊查询 应测试大数据分析系统分析支撑模块是否支持基于规则或者基于成本的查询优化; c 应测试大数据分析系统分析支撑模块是否支持数据分片和多副本技术 d 应测试大数据分析系统分析支撑模块是否支持通过SQL进行复杂条件高并发查询 e 应测试大数据分析系统分析支撑模块是否支持二级索引 7.2机器学习功能测试 7.2.1 数据集管理功能测试 数据集管理功能测试要求如下 应测试大数据分析系统分析支撑模块是否能够将输人数据划分为训练集、验证集和测试集; a) b)应通过将训练,验证过的模型导人到大数据分析系统中,以及将大数据系统中训练所得的模型导 出的操作,测试大数据分析系统分析支撑模块是否提供机器学习模型的导人和导出的功能 7.2.2支持算法测试 支持算法测试要求如下 应测试大数据分析系统分析支撑模块是否支持回归与分类算法; a b 应测试大数据分析系统分析支撑模块是否支持聚类算法; 应测试大数据分析系统分析支撑模块是否支持协同过滤算法
GB/T38643一2020 d 应测试大数据分析系统分析支撑模块是否支持降维算法; 应测试大数据分析系统分析支撑模块是否支持频繁模式挖掘算法; fD 应测试大数据分析系统分析支撑模块是否支持神经网络算法; 应通过检查是否具有特征提取、特征转换、特征选择、模型选择,交叉验证、模型调优组件测试大 9 数据分析系统分析支撑模块是否提供机器学习流程的其他组件 h 应测试大数据分析系统分析支撑模块是否支持Java,Seala,Python,R等一种或多种语言,并且是 否支持二次开发增加新的算子 7.2.3模型评估功能测试 应通过检查机器学习模块中包含交叉验证、模型选择等核心评估组件测试大数据分析系统分析支撑 模块是否能够支持算法模型的评估模块 7.3统计分析功能测试 统计分析功能测试要求如下 应通过计算最大值、最小值求和、总数等统计量测试大数据分析系统分析支撑模块是否支持基 a 本的数值统计 b 应通过计算平均数、中位数,众数等统计量测试大数据分析系统分析支撑模块是否支持分析数据 集中趋势的统计 应通过计算极差、方差,标准差等统计量测试大数据分析系统分析支撑模块是否支持分析数据离 散程度的统计; d 应通过计算协方差、相关系数等统计量测试大数据分析系统分析支撑模块是否支持分析多个随 机变量的关系; 应通过保存常用的统计分析方案测试大数据分析系统分析支撑模块是否支持统计分析的自定义 模板能力 7.4可视化功能测试 可视化功能测试要求如下 应通过以Excel,关系型数据库JsON,XML格式输人测试大数据分析系统分析支撑模块是否支 a 持常见的数据源数据格式作为输人 b 应测试大数据分析系统分析支撑模块是否支持对高维数据的可视化展示; 应通过检查是否可以以柱状图、饼图、折线图等方式展示测试大数据分析系统分析支撑模块是否 c 支持可视化分析工具库; d 应测试大数据分析系统分析支撑模块是否支持算法模型的评估相关的可视化工具 8 数据分析模块功能测试 8.1分析模式测试 8.1.1离线数据分析功能测试 离线数据分析功能测试要求如下 应测试大数据分析系统数据分析模块是否支持结构化查询语言; a b 应测试大数据分析系统数据分析模块是否支持对离线数据的分布式分析 应测试大数据分析系统数据分析模块是否具有通过标准接口支持第三方应用的能力; c
GB/T38643一2020 应测试大数据分析系统数据分析模块是否支持分布式计算或并行计算等计算框架; d 应测试大数据分析系统数据分析模块是否 香支对海是量工 作任务的切分和分布式调度; ee 应测试大数据分析系统数据分析模块是否支持集成第三方的机器学习算法库 f 应测试大数据分析系统数据分析模块是否支持使用内存或sSD存储作为缓存; g hD) 应测试大数据分析系统数据分析模块是否支持分布式执行计划层面的优化; 应测试大数据分析系统数据分析模块是否支持对文本类、音视频类以及图像类数据的分析; 应测试大数据分析系统数据分析模块是否支持对关系型数据库和大数据存储系统中的数据源进 行交叉查询,聚合,关联操作的能力 应测试大数据分析系统数据分析模块是否支持使用GPU对特定算法加速分析 k 8.1.2流数据分析功能测试 流数据分析功能测试要求如下 应测试大数据分析系统数据分析模块是否支持按时间切片后进行批量处理, a 应测试大数据分析系统数据分析模块是否支持基于事件触发或者采样的流式处理 b 应测试大数据分析系统数据分析模块是否支持实时流上的数据统计; c d 应测试大数据分析系统数据分析模块是否支持流式数据的排序 应测试大数据分析系统数据分析模块是否支持与静态表之间的关联; 应测试大数据分析系统数据分析模块是否支持多个数据流的关联处理 g 应测试大数据分析系统数据分析模块是否支持采用滑动窗口方式的实时分析任务,并测试其时 间窗口大小是否可调; h 应测试大数据分析系统数据分析模块是否支持实时数据的分组、优先级调度 应测试大数据分析系统数据分析模块是否支持对文本类、音视频类以及图像类数据的分析 8.1.3交互式联机分析功能测试 交互式联机分析功能测试要求如下: 应测试大数据分析系统数据分析模块是否支持通过结构化查询语言对数据进行分布式的联机 a 分析; b)应测试大数据分析系统数据分析模块是否支持通过结构化查询语言对数据进行即席查询 应测试大数据分析系统数据分析模块是否支持利用可视化中间件对数据分析结果进行显示; c 应测试大数据分析系统数据分析模块是否支持在交互式分析过程中定义计算公式和参数配置 d 应测试大数据分析系统数据分析模块是否支持交互式分析过程的自动保存和回退等操作; e 应测试大数据分析系统数据分析模块是否支持在交互式分析过程中对分析结果的保存和发布 f 应测试大数据分析系统数据分析模块是否支持基于在线联机分析的交互式数据分析 g 应测试大数据分析系统数据分析模块是否支持对非结构化数据的分析 h 8.2分析类型测试 8.2.1 预测型分析功能测试 预测型分析功能测试要求如下 应测试大数据分析系统数据分析模块是否支持趋势预测、回归分析等多种预测分析方法; b 应测试大数据分析系统数据分析模块是否支持准确率以百分比数值化形式呈现,并测试是否精 确到小数点后至少1位; 应测试大数据分析系统数据分析模块是否支持使用可视化方式进行显示分析结果;
GB/T38643一2020 应测试大数据分析系统数据分析模块是否支持对训练好的模型的发布应用 d 8.2.2描述型分析功能测试 描述型分析功能测试要求如下 a 应测试大数据分析系统数据分析模块是否支持使用相关关系分析方法进行描述型分析 b 应测试大数据分析系统数据分析模块是否支持可视化展示样本数据的分析结果,是否支持展示 模型训练效果,是否支持对训练好的模型可存储和发布 应测试大数据分析系统数据分析模块是否支持分析结果的良好直观呈现 流程编排模块功能测试 9.1 工作流管理测试 工作流管理测试要求如下 a 应通过拖拉方式进行流程编排和修订等操作测试大数据分析系统流程编排模块是否支持可视化 的流程编排操作界面; 应通过配置工作流的触发时间的启动时间,执行周期测试大数据分析系统流程编排模块是否支 b 持工作流的调度触发机制,并且是否支持配置触发时间或触发事件; 应测试大数据分析系统流程编排模块是青支持通过管理界面对工作流进行启动.、停止操作 c 应测试大数据分析系统流程编排模块是否支持并行执行多流程任务 d 应测试大数据分析系统流程编排模块是否支持通过数据管道实现工作流的串联; e 应测试大数据分析系统流程编排模块是否支持多人协同功能; fD 应测试大数据分析系统流程编排模块是否支持流程编排结果的持久化保存 g 9.2告警和日志测试 告警和日志测试要求如下 应测试大数据分析系统流程编排模块是否支持跟踪计算或任务的执行状态,并测试是否对异常 a) 任务给出告警; 应测试大数据分析系统流程编排模块是否支持任务执行状态的细节输出到日志 b
GB/38643一2020 附录 A 资料性附录) 测试示例 A.1数据准备模块功能测试示例 A.1.1数据抽取功能测试示例 测试示例见表A.l一表A.6 表A.1 功能要求 GB/T37721一20196.la) 测试项 6.la 在全量/增量/负载均衡三种常见需求中选择抽取方法进行测试 分别执行表A.3或表A.6的 测试示例 测试示例 表A.2 GB/T3772120196.1b) 功能要求 测试项 6.lb 可选择以下至少一种结构化数据的抽取方法 a 数据库复制;从源数据库读取数据,写人目标数据库; 1 2 数据库同步;在源数据库变化时,动态更新目标数据库中的数据,保持源数据库和目标 数据库内容一致; 数据抽取-转换;从源数据库中读取数据,经过转换处理,然后写人目标数据库 3 测试示例 可选择以下至少一种非结构化数据的抽取方法 单文件复制;将单个文件从源存储地址复制到指定的目标存储地址; 2 批量文件复制:将选取的多个文件从源存储地址复制到指定的目标存储地址; 件夹中存绪的所有文件复制到指定的目标存储地址 3 文件夹复制将选取的 的一个或多个源文 文件夹同步:采用同步更新机制实现源文件夹中存储的文件与目标存储的文件同步 表A.3 GB/T3772120196.le 功能要求 测试项 6.lc) 数据存储在源数据库或文件系统中,抽取到目标数据库或文件系统 全量抽取操作:对待抽取的源数据库或源文件内容进行签名,全量抽取并存储到目标数据 库或文件系统后全量抽取后再进行签名,对比签名是否一致 测试示例 b 增量抽取操作;目标数据库或文件存储中已经包含全量抽取的内容,对待追加的数据记录 或文件内容进行签名,向目标数据库或文件系统中追加新增的数据记录或文件,增量抽取 后再签名,对比签名是否一致
GB/T38643一2020 表A.4 功能要求 GB/T37721一20196.ld) 测试项 6.ld 数据存储在源数据库或文件系统中,抽取到目标数据库或文件系统 主动抽取操作;系统能够将待抽取的数据记录或文件从源数据库或文件系统,通过拉取 测试示例 pll)方式进行全量抽取或增量抽取,测试示例与表A.3相同 被动追加操作;外部系统通过数据准备模块的APl,将待抽取的数据以推送(push)方式追 加到目标数据库或文件系统,追加前后分别对数据进行签名,对比签名是否一致 表A.5 功能要求 GB/T3772120196.1e) 测试项 6.le 源数据存放在数据库或文件系统中 对待抽取的数据进行签名,执行定时批量抽取操作到目 标数据库或文件系统,然后对数据进行签名,对比抽取前后数据的签名是否一致 测试示例 设置分钟级定时任务,批量抽取过程中修改系统时钟 a) 设置小时级定时任务,批量抽取过程中修改系统时钟,并模拟抽取过程中跨天的情况; 设置天级定时任务,批量抽取过程修改系统时钟 表A.6 GB/T377212019 功能要求 6.1lf) 测试项 6.1) 数据存放在数据库中,并能够继续追加数据 在数据库中存人足够多的文件内容足够大的数 测试示例 据,把监控探针分别部署到数据库每个节点(>2),然后进行为期1h的数据抽取,分析监控探 针传回的监测数据,得到每个节点的负载情况 A.1.2数据清洗功能测试示例 测试示例见表A.7一表A.12 表A.7 功能要求 GB/T37721一20196.2a 测试项 6.2a) 数据已经抽取到分析系统的结构化存储 对数据表中的数据进行检查,分析数据一致性 筛 测试示例 选出不一致的数据,对不一致的数据进行处理
GB/38643一2020 表A.8 功能要求 GB/T37721一20196.2b) 测试项 6.2b 数据已经抽取到分析系统的结构化存储 对数据表中的数据项进行检查,删除或修改数据中 测试示例 的无效值 表A.9 GB/T3772120196.2e 功能要求 测试项 6.2e) 数据已经抽取到分析系统的结构化存储 对数据表中的数据记录进行检查,删除存在缺失值 测试示例 的数据记录或将缺失值补全 表A.10 功能要求 GB/T37721一20196.2d 测试项 6.2d 数据已经抽取到分析系统的结构化存储 对数据表中的数据记录进行检查,删除或合并重复 测试示例 数据记录 表A.11 功能要求 GB/T37721一20196.2e 测试项 6.2e) 数据已经抽取到分析系统的结构化存储并经过了数据清洗模块的处理 提供清洗前数据信 测试示例 息和清洗后数据信息的自动比对或人工比对功能,并输出数据清洗前后变化结果 表A.12 f GB/T3772120196.2 功能要求 测试项 6.2fD 数据已经抽取到分析系统的结构化存储 a)对数据表中的数据进行检查,分析数据逻辑,删除或修改存在逻辑矛盾的数据 测试示例 对数据表中的数据进行检查,分析数据关联性,删除或修改存在关联性错误的数据" b 对数据表中的数据进行检查,分析数据合理性,删除或修改不合理的数据 A.1.3数据转换功能测试示例 测试示例见表A.13表A.19
GB/T38643一2020 表A.13 功能要求 GB/T37721一20196.3a) 测试项 6.3a) 数据已经抽取到分析系统的结构化存储,并经过了数据清洗模块的处理 对数据表的一个或 多个字段的值进行转换或生成一个新的字段,包括但不限于以下操作 分组或分级;如按照年龄段分组按照用户消费额大小划分用户等级" 测试示例 a b5 变换或替换:如字符与数值之间的变换,或用归一化的数值替换原来字段值 拆分或组合;如将一个列拆分成多列,或将多列组合成一列 表A.14 功能要求 GB/T37721一20196.3b 测试项 6.3b 数据已经抽取到分析系统的结构化存储,并经过了数据清洗模块的处理 对数据表按照行进 行转换操作,包括但不限于以下操作 测试示例 行过滤;如按照某个标称值过滤掉不符合条件的行; 行变换;如把一行数据按照某种条件或规则分裂成多行数据,或把多行按组聚合成一行 表A.15 GB/T3772120196.3e 功能要求 测试项 6.3e) 数据已经抽取到分析系统的结构化存储,并经过了数据清洗模块的处理 对数据表整体进行 转换操作,包括但不限于以下操作 测试示例 从一个表抽取部分数据生成一个新的表 a b 抽取表的元数据信息,然后通过行列转置,生成一个新的表 表A.16 功能要求 GB/T3772120196,3d 测试项 6.3d 非结构化数据已经抽取到分析系统存储,并经过了数据清洗模块的处理 在文本,网页/文 测试示例 档/语音、音频/图片/图像五种常见需求中选择抽取非结构化数据类型功能要求的测试示例 进行测试 分别执行表A.17.表 A.18或表A.19的测试示例 表A.17 功能要求 GB/T3772120196.,3e) 测试项 6.3e 非结构化数据已经抽取到分析系统存储,开经过了数据清洗模块的处理 文本、网页类数据的规范化处理操作;提取文本、网页类数据信息,将提取的信息生成结构 测试示例 化数据 b 文档类数据的规范化处理操作;提取文档内容及文档属性信息将提取的数据生成结构化 数据 10
GB/38643一2020 表A.18 功能要求 GB/T37721一20196.3D 测试项 6.3 非结构化数据已经抽取到分析系统存储,并经过了数据清洗模块的处理 将语音/音频内容 测试示例 转换为计算机可读的输人,测试系统能否识别语音、音频中的词汇 表A.19 GB/T3772120196.3 功能要求 3g 6.3g 测试项 非结构化数据已经抽取到分析系统存储,并经过了数据清洗模块的处理 测试示例 a)提取图片内容操作;将图片中的内容转换为字符文本; 提取图像信息操作;提取图像信息,将提取的信息生成结构化数据 A.1.4数据加载功能测试示例 测试示例见表A.20一表A.23 表A.20 功能要求 GB/T37721一20196.4a 测试项 6.4a 数据已经抽取到分析系统的结构化存储,并经过了数据清洗模块的处理 在全量加载/增量 测试示例 加载/实时加载/批量加载四种常见需求中选择加载类型对应的测试示例进行测试 分别执 行表A.21、表A.22或表A.23的测试示例 表A.21 GB/T3772120196.4b) 功能要求 测试项 6.4b 数据已经抽取到分析系统的结构化存储,并经过了数据清洗模块的处理 数据加载时,若目标结构 测试示例 中无数据,直接加载写人新数据;若目标结构中已有数据,删除原有数据并加载写人新数据 表A.22 GB/T37721一20196.4c) 功能要求 测试项 6.4c) 数据已经抽取到分析系统的结构化存储,并经过了数据清洗模块的处理 数据加载时,若目 测试示例 标结构中的已有数据与加载的新数据不会产生重复记录,直接加载写人新数据记录;若目标 结构会产生重复记录,丢弃加载的新数据记录或者以不同版本数据记录加载写人目标结构 1
GB/T38643一2020 表A.23 功能要求 GB/T37721一20196.4d 测试项 6,4d 数据已经抽取到分析系统的结构化存储,并经过了数据清洗模块的处理 测试示例 实时加载操作;实时通过流数据处理方式将转换过的数据输人目标结构中; a 批量加载操作;采用批量导人方式,将转换过的数据输人目标结构中 A.2分析支撑模块功能测试示例 A.2.1查询功能测试示例 A.2.1.1查询接口测试示例 测试示例见表A.24一表A.25 表A.24 GB/T3772120197.1.la 功能要求 测试项 7.1.la) 提供使用标准接口类型的验证程序样例源码、编译环境及预设目标 编译生成可执行的二进 测试示例 制程序连接数据库执行检测,检查结果是否完整以及是否符合预设目标 表A.25 功能要求 GB/T37721一20197.1.lb) 7.1.1b) 测试项 建立匹配大数据分析系统RestAP接口相关的检测环境和预设目标 编译并执行测试样例 测试示例 程序,检查结果是否完整以及是否符合预设目标 A.2.1.2查询优化测试示例 测试示例见表A.26表A.31 表A.26 功能要求 GB/T37721一20197.1.2a 测试项 7.1,2a) 审阅关于基于规则或基于成本优化的文件,看其是否规定了相应的优化途径 在同一套正常 测试示例 运行的大数据分析系统中构造检测数据环境,在该环境中通过两次执行相同的查询,一次带 有数据索引的查询,一次不带数据索引,并观察结果 12
GB/38643一2020 表A.27 功能要求 GB/T37721一20197.1.2b) 测试项 7.1.2b 建立完成检测所需数据及精准查询和模糊查询的查询语句,并设定检测目标 执行精准查询 测试示例 和模糊查询的查询语句,检测查询结果与预设目标的一致性 表A.28 功能要求 GB/T37721一20197.1.2e 测试项 7.1.2c 系统具备基于规则或基于成本优化组件正常工作的证明手段,建立可体现查询优化功能的检 测试示例 测方法 执行构建的检测方法,并使用提供的证明手段进行结果检查 表A.29 功能要求 GB/T37721一20197.1.2d 测试项 7.1.2d 构建检测方法及检测数据,具备可直观查看查询性能的手段,并设定检测目标 通过适当调 测试示例 整数据副本数,检查调整前后的查询耗时情况 表A.30 功能要求 GB/T37721一20197.1.2e 测试项 7.1.2e 建立带有复杂条件的sQL语句及并发测试工具,并发过程中sQL.的条件不应取固定值 执 测试示例 行并发测试工具并记录结果,通过工具输出物进行结果检查 表A.31 功能要求 GB/T37721一20197.1.2f 测试项 7.1.2f 构建特定的能够建立二级索引的语句或程序,并设定检测目标 执行二级索引语句或程序 测试示例 检测查询结果与预设目标的一致性 A.2.2机器学习功能测试示例 A.2.2.1数据集管理功能测试示例 测试示例见表A.32和表A.33 13
GB/T38643一2020 表A.32 功能要求 GB/T37721一20197.2.la) 测试项 7.,2.la 加载数据集,并调用数据集划分API,将数据按设定划分为训练集、验证集和测试集,检查训练 测试示例 集数据,验证集和测试集数据是否按预期正确划分 表A.33 GB/T3772120197.2.1b 功能要求 7.2.1b) 测试项 在文件系统中准备好训练好的机器学习模型和测试数据集,如l.ogistie回归算法及lris数据集 测试示例 可以选择其他机器学习模型与数据集),导人并加载已训练好的Logisti回归模型,使用该模型 对Iis数据集中的一条或多条数据记录进行预测,并将Logistic回归模型导出到文件系统 A.2.2.2支持算法测试示例 测试示例见表A.34表A.41 表A.34 GB/T3772120197.2.2a 功能要求 测试项 7.,2,2a) 调用系统的回归算法API,对数据集进行回归分析,并检查回归分析的结果;调用系统的分类 测试示例 算法API,对lis数据集进行分类,并检查分类的结果 表A.35 功能要求 GB/T37721一20197.2.2D) 测试项 7.2.2b) 测试示例 调用系统的K-均值聚类算法API,对lris数据集进行聚类,并检查聚类的结果 表A.36 GB/T37721 -397227 功能要求 测试项 7.2.2e) 测试示例 调用系统的协同过滤算法API,对数据集中的用户进行推荐,并检查推荐结果 14
GB/38643一2020 表A.37 功能要求 GB/T37721一20197.2.2 测试项 7.2.2d 调用系统的降维AP,比如CAAP,对MNIST(手写体数字识别)数据集进行降维,并可视 测试示例 化降维结果 表A.38 功能要求 GB/T3772120197.2.2e) 测试项 7.2.2e 调用系统的频繁模式挖抓AP,比如Apriori算法AP,对构造的数据集进行频繁模式计算,并 测试示例 查看关联规则 表A.39 GB/T3772120197.2.2f 功能要求 测试项 7.2.2f) 测试示例 调用系统的神经网络AP,对MNIST数据进行分类,并查看分类结果 表A.40 -20197.2.E) GB/T37721 功能要求 测试项 7.2.2g 构造数据集,并调用系统的特征提取、特征转换、特征选择等API,实现模型的训练、模型选择、 测试示例 交叉验证 表A.41 功能要求 GB/T37721一20197.2.2h) 测试项 7.2.2h) 采用Java、Scala、,Python、R等一种或多种语言编写一种或多种机器学习算法,并用数据集验 测试示例 证机器学习算法可在系统中正确运行 A.2.2.3模型评估功能测试示例 测试示例见表A.42 15
GB/T38643一2020 表A.42 功能要求 GB/T37721一20197.2.3 测试项 7.2.3 确认机器学习模块中包含交叉验证、模型选择等核心评估组件;确认机器学习模块中包含混 测试示例 淆矩阵、精度、召回率,RoC曲线.AUc等模型性能度量指标 A.2.3统计分析功能测试示例 测试示例见表A.43表A.47 表A.43 功能要求 GB/T37721一20197.3a) 测试项 7.3a) 选择相应的统计分析算子并连接需要统计的数据表,对数据表执行基本数值统计操作,包括 但不限于 求最大值 a 测试示例 b 求最小值: 求和 dD 求总数 表A.44 功能要求 GB/T3772120197.3b) 测试项 7.3b 选择相应的统计分析算子并连接需要统计的数据表,对数据表执行数据集中趋势统计操作 包括但不限于: 测试示例 a)求平均数; b 求中位数 求众数 表A.45 功能要求 GB/T37721一20197.3e) 测试项 7.3c 选择相应的统计分析算子并连接需要统计的数据表,对数据表执行离散程度统计操作,包括 但不限于 测试示例 求极差 a) b 求方差; 求标准差 16
GB/38643一2020 表A.46 功能要求 GB/T37721一20197.3d) 测试项 7.3d 选择相应的统计分析算子并连接需要统计的数据表,对数据表执行分析多个随机变量的关系 操作包括但不限于 测试示例 a)求协方差; b 求相关系数 表A.47 功能要求 GB/T37721一20197.3e) 测试项 7.3e 将多个统计分析算子按照分析需求进行自定义组合,形成统计分析pipeline,并保存为自定义 测试示例 模板 后续统计分析可以使用该模板,作为常用的统计分析方案 A.2.4可视化功能测试示例 测试示例见表A.48表A.51 表A.48 功能要求 GB/T37721 -20197.4a 测试项 7.4a 可视化功能连接的数据鄙可以支持多种常见的数据格式,包括但不限于 Excel文件; a 测试示例 关系数据库 c) JSON文件; d XML文件 表A.49 功能要求 GB/T37721 -20l9 )7.Ab) 测试项 7.4b 可视化功能能够支持3维以上的数据源数据的加载,并按照选择的维度和展现方式进行高维 测试示例 数据可视化展示 17
GB/T38643一2020 表A.50 功能要求 GB/T3772120197.4c) 测试项 7.4c 可视化功能加载各种数据源数据,支持多种可视化展示方式,包括但不限于 柱状图 a b 饼状图; 折线图 表格; 测试示例 散点图 e 雷达图; 网状图; g h 时间线 热力图; 地图 表A.51 功能要求 GB/T3772120197.4d 测试项 7.4d 在文件系统中准备好训练好的机器学习模型和测试数据集,导人并加载已训练好的模型,使 测试示例 用该模型对测试数据集做预测,检查系统能否将模型预测结果的混淆矩阵、精度、召回率、 RoC曲线等模型评估度量指标以可视化的形式显示 A.3数据分析模块功能测试示例 A.3.1分析模式测试示例 A.3.1.1离线数据分析功能测试示例 测试示例见表A.52表A.62 表A.52 功能要求 GB/T37721一20198.1.la) 测试项 8.1.la 测试示例 数据存放在分布式文件系统或数据库中,调用结构化查询语言,验证数据查询结果 表A.53 功能要求 GB/T37721一20198,1.1b 8.1.lb) 测试项 集群正常运行,在HDFs上准备测试数据集,上传分布式离线数据分析测试程序,运行测试 测试示例 程序 18
GB/38643一2020 表A.54 功能要求 GB/T37721一20198.1.le) 测试项 8.1.le 测试示例 第三方应用可通过标准接口,获得离线分析的结果 表A.55 GB/T37721一20198.1.ld 功能要求 8.1.ld 测试项 可对存储在分布式文件系统或数据库中的数据,利用数据分区的机制,实现数据在多台计算 测试示例 节点中分布式计算和结果汇总 表A.56 GB/T3772120198.1.le) 功能要求 测试项 8.1.le 可对存储在分布式文件系统或数据库中的数据,按计算任务进行切分,并实现任务在多台计 测试示例 算机节点的调度 表A.57 功能要求 GB/T3772120198.1.1 测试项 8.1.1f 分析系统可正确安装、配置第三方机器学习算法库,如scikitlearm 运行第三方机器学习算法 测试示例 库的自带案例检查是否运行正确 表A.58 功能要求 GB/T37721一20198.1.lg 测试项 8,1.lg 将分析系统常用数据缓存到内存或ssD中,对缓存中的数据进行分布式计算 数据分布式计 测试示例 算的时间应小于没有缓存加速计算时间 表A.59 GBT3721-20198..1h 功能要求 8.1.1h 测试项 通过比对数据的分布式执行计划的优化配置与非优化配置,比对数据处理的时间性能 分布 测试示例 式执行计划层面优化后的数据计算时间应小于非优化配置的计算时间 19
GB/T38643一2020 表A.60 功能要求 GB/T37721一20198.l.lD 测试项 8.1l.li) 在系统中存储文本,图像及音视频类的数据,利用系统提供的机器学习API对文本、图像与音 测试示例 视频数据实现预期的数据分析,如对文本实现自然语言处理,对图像实现分类等 表A.61 功能要求 GB/T37721一20198.1.l)) 8.1.l 测试项 在关系型数据库和大数据存储系统中分别存储数据表,利用sQL语句实现不同数据源的交叉 测试示例 查询,聚合和关联操作 表A.62 GB/T3772120198.1.1k) 功能要求 8.1.1k) 测试项 使用神经网络算法对MNIST数据集进行分类,比对使用GPU与使用CPU分类算法的时间 测试示例 是否使用GPU后分类算法的时间应小于使用CPU的时间 A.3.1.2流数据分析功能测试示例 测试示例见表A.63表A.71 表A.63 功能要求 GB/T37721一20198.1.2a 测试项 8.1.2a 将流数据按时间比如按30s切后,输人流数据分析系统,系统对切片时间周期内容数据进行 测试示例 处理 表A.64 功能要求 GB/T3772120198.1.2b) 测试项 8.1.2b) 在流数据构造事件或采样模式,如日志中的Eror事件或按1、采样一次,系统对事件和采样 测试示例 得到的数据进行处理 20
GB/38643一2020 表A.65 功能要求 GB/T37721一20198.1.2e 测试项 8.l.2e 测试示例 将流数据输人流数据分析系统,系统可实现数据的统计功能,如总数、均值等 表A.66 功能要求 GB/T37721一20198.1.2d 测试项 8.1.2d 将一个时间周期,如1min的流数据输人流数据分析系统,系统可实现对时间周期内的数据按 测试示例 需求进行排序 表A.67 GB/T3772120198.1.2e) 功能要求 测试项 8.1.2e 测试示例 将流数据输人流数据分析系统,系统可实现实时数据与静态表中数据的关联查询 表A.68 GB/T3772120198.1.2f 功能要求 测试项 8.1.2f 测试示例 将两个流数据输人流数据分析系统,系统可实现对两个流数据进行关联查询 表A.69 GB/T3772120198.1.2g 功能要求 8.1.2g 测试项 将流数据输人流数据分析系统,系统可采用滑动窗口的方式实现TopK计算,其中时间窗口 测试示例 可节,并且在不同时间窗口下的结果都应该符合预期结果 表A.70 功能要求 GB/T37721一20198,1.,2h 测试项 8.1.2h 将流数据输人流数据分析系统,系统可按字段对数据进行分组,并根据优先级对分组数据进 测试示例 行处理 21
GB/T38643一2020 表A.71 功能要求 GB/T37721一20198.,1.2i 测试项 8,1.2) 将文本类,图像类及音视频类流数据输人流分析系统,系统可按预期对各类实时数据进行数 测试示例 据分析 A.3.1.3交互式联机分析功能测试示例 测试示例见表A.72一表A.79. 表A.72 功能要求 GB/T37721一20198.1.3a 测试项 8.1.3a 将数据表存人分布式数据存储系统,调用结构化查询语言,对数据进行分布式的联机分析,如 测试示例 对1个事实表和多个维表进行OLAP操作 表A.73 GB/T3772120198.1.3b 功能要求 测试项 8.1.3b) 将数据表存人分布式数据存储系统,调用结构化查询语言,通过设置查询条件,对数据进行即 测试示例 席查询 表A.74 功能要求 GB/T37721一20198.1.3e) 测试项 8,1.3e) 将数据表存人分布式数据存储系统,调用结构化查询语言,通过设置查询条件,对数据进行查 测试示例 询,并通过可视化中间件展现查询结果 表A.75 GB/T3772120198.1.3d 功能要求 测试项 8.1.3d) 将数据表存人分布式数据存储系统,自定义用户函数,对数据进行自定义查询 测试示例 22
GB/38643一2020 表A.76 功能要求 GB/T37721一20198.1.3e) 测试项 8.1.3e 将数据表存人分布式数据存储系统,并通过结构化查询语言对数据进行多个查询操作,查询 测试示例 的过程可自动保存到文件系统,并可调用回退操作,撒销上一步的查询操作 表A.77 GB/T3772120198.1.3 功能要求 8.1.3f 测试项 将数据表存人分布式数据存储系统,并通过结构化查询语言对数据进行查询操作,并将查询 测试示例 结果保存到文件系统,并可将查询结果发布到可视化系统 表A.78 功能要求 GB/T37721一20198.l.3g 测试项 8.1.3g 将数据表存人分布式数据存储系统,调用结构化查询语言,对数据进行交互式联机分析 测试示例 表A.79 功能要求 GB/T37721 -20198.1.3h) 8.1.3h 测试项 将非结构化数据存人分布式数据存储系统,通过调用自定义查询语言,对数据进行交互式 测试示例 查询 A.3.2分析类型测试示例 A.3.2.1预测型分析功能测试示例 测试示例见表A.80表A.83 表A.80 功能要求 GB/T3772120198.,2.la) 测试项 8.2.la) 选择相应的预测分析方法进行分析,包括但不限于: 测试示例 趋势预测; 回归分析 23
GB/T38643一2020 表A.81 功能要求 GB/T3772120198.2.1b) 测试项 8.2.1b) 检查预测结果的准确率呈现形式,是否实现准确率数值化,是否实现百分比形式呈现并精确 测试示例 到小数点后至少1位 表A.82 GB/T3772120198.2.le 功能要求 测试项 8,2.le) 测试示例 检查分析结果的呈现方式是否能符合7.4的要求 分别执行表A.48表A.51的测试示例 表A.83 GB/T3772120198.2.ld 功能要求 测试项 8.2.ld 测试示例 将表A.80中训练好的模型发布成应用,如通过服务的方式发布成应用 A.3.2.2描述型分析功能测试示例 测试示例见表A.84表A.86 表A.84 功能要求 GB/T37721一20198.,2,2a) 测试项 8.2.2a 测试示例 检查是否能用相关关系分析方法进行分析 表A.85 功能要求 GB/T37721一2o198.2.2b) 测试项 8.2.2b 测试示例 检查分析结果的呈现方式是否能符合7.4的要求 分别执行表A.48一表A51的测试示例 表A.86 功能要求 GB/T37721一20198.2.2e 测试项 8.2.2e 测试示例 用可视化组件呈现分析结果 24
GB/38643一2020 A.4流程编排模块功能测试示例 A.4.1工作流管理测试示例 测试示例见表A.87表A.93 表A.87 功能要求 GB/T3772120199.la 测试项 9.la 检查流程编排模块是否提供了可视化流程编排操作界面,测试是否可以通过拖拉方式进行流 测试示例 程编排和修订 表A.88 功能要求 GB/T37721一20199.1b 9.1b 测试项 检查流程编排模块是否具有流程运行的调度功能,测试能否支持工作流的调度触发,以及是 测试示例 否可配置触发时间或触发事件,工作流的触发时间的启动时间,执行周期是否可配置 表A.89 功能要求 GB/T3772120199.le 测试项 9.lc 检查是否提供工作流运行的管理界面,测试是否支持对工作流进行启动、停止操作 测试示例 表A.90 功能要求 GB/T37721一20199.ld 测试项 9.ld 测试示例 测试是否支持多流程任务的并行执行功能 表A.91 GB/T3772120199.le 功能要求 测试项 9.le 测试示例 测试是否支持能够通过数据管道实现机器学习任务的串联 表A.92 功能要求 GB/T37721一20199.lD 9.lf 测试项 测试示例 测试是否支持多人协同创建机器学习流程的功能 25
GB/T38643一2020 表A.93 功能要求 GB/T37721一20199.lg 测试项 9,lg 测试示例 创建新的机器学习流程编排,测试是否支持保存流程功能 A.4.2告警和日志测试示例 测试示例见表A.94和表A.95 表A.94 功能要求 GB/T37721一20199.2a 测试项 9.2a 运行选定的机器学习流程任务,测试是否能够支持跟踪计算或任务的执行状态,对异常任务 测试示例 是否能够给出告警 表A.95 功能要求 GB/T37721一20199.2b) 测试项 9.2b 测试示例 检查流程编排模块的运行日志,测试任务执行状态的细节是否已经输出到日志 26

信息技术大数据分析系统功能测试要求GB/T38643-2020解读

随着大数据技术的不断发展,越来越多的企业开始重视大数据的应用。而大数据分析系统则是其中一项重要的技术支撑,能够帮助企业从各种复杂的数据中挖掘出有价值的信息和洞见,为企业决策提供有效的支持。然而,在实际应用中,如何保证大数据分析系统的功能稳定性和可靠性成为了一个重要的问题。

因此,国家标准化管理委员会(SAC)最新发布了 GB/T38643-2020《信息技术 大数据分析系统功能测试要求》,旨在规范大数据分析系统的功能测试,为企业提供更加可靠的技术支撑。

标准涵盖的内容

GB/T38643-2020 标准主要涵盖了以下内容:

  • 总则:包括标准的名称、适用范围、引用文件和术语等;
  • 测试对象和需求分析:明确功能测试的对象,以及对测试需求进行详细分析;
  • 测试环境:确定测试所需的硬件、软件环境;
  • 测试计划:制定详细的测试计划,包括测试目标、测试方法、测试依据等;
  • 测试过程:具体实施测试计划,并记录测试结果;
  • 测试报告:对测试结果进行分析和总结,并提供相应的测试报告。

标准应用意义

GB/T38643-2020 标准的发布,对于大数据分析系统行业具有重要的推动作用,其应用意义主要包括以下几个方面:

  • 规范行业标准:该标准明确了大数据分析系统功能测试的流程和标准,使得各企业在功能测试时能够遵循一致的标准,从而提高测试的效率和准确性;
  • 提高产品竞争力:通过按照标准进行功能测试,可以发现并修复潜在的缺陷和问题,提高产品的稳定性和可靠性,从而增强产品的竞争力;
  • 提高客户信心:通过按照标准进行功能测试,并提供相应的测试报告,可以给客户提供更加透明和可信的产品信息,增强客户对产品的信心。

总结

GB/T38643-2020标准的发布,意味着大数据分析系统功能测试规范化的进一步深入。在未来的发展中,企业必须严格按照该标准进行功能测试,以提高产品的稳定性和可靠性,确保企业能够在激烈的市场竞争中立于不败之地。

和信息技术大数据分析系统功能测试要求类似的标准

工业机器人生命周期风险评价方法
上一篇 本文分享国家标准工业机器人生命周期风险评价方法的全文阅读和高清PDF的下载,工业机器人生命周期风险评价方法的编号:GB/T38642-2020。工业机器人生命周期风险评价方法共有38页,发布于2020-11-01
信息安全技术可信计算可信连接测试方法
本文分享国家标准信息安全技术可信计算可信连接测试方法的全文阅读和高清PDF的下载,信息安全技术可信计算可信连接测试方法的编号:GB/T38644-2020。信息安全技术可信计算可信连接测试方法共有24页,发布于2020-11-01 下一篇
相关推荐