国家标准 GB/36464.4一2018 信息技术智能语音交互系统第4部分:移动终端 nformationtechnology一Intel山igentspeechinteraetionsystem- Part4:Mobileterminal 2018-06-07发布 2019-01-01实施国家市场监督管理总局发布币国国家标准化管理委员会国家标准
GB:/T36464.4一2018 目次前言范围 2 规范性引用文件 3 术语和定义系统框架要求 5.1概述 5,2基本要求 5.3扩展要求输人输出要求 5,4 测试方法 6.1测试准备 6,2测试环境 l0 6.3测试方法 6.4测试结果 13 参考文献
GB:/T36464.4一2018 前言 GB/T36464《信息技术智能语音交互系统沙拟分为以下几个部分第1部分:通用规范; 第2部分:智能家居; 第3部分:智能客服; 第4部分;移动终端; 第5部分:车载终端本部分为GB/T36464的第4部分本部分按照GB/T1.1一2009给出的规则起草请注意本文件的某些内容可能涉及专利本文件的发布机构不承担识别这些专利的责任本部分由全国信息技术标准化技术委员会(sAc/TC28)提出并归口本部分起草单位科大讯飞股份有限公司、电子技术标准化研究院、电信集团有限公司、中一汽车股份有限公司、盲人协会、盲人出版社、安徽知学科技有限公司国第- 本部分主要起草人;黄明登、刘庆峰、严酸、胡国平、郭正欧盛家见、胡修文,刘聪、李洪亮、王静戴小兰,杨震、陈药翰
GB:/T36464.4一2018 信息技术智能语音交互系统第4部分移动终端范围 GB/T36464的本部分规定了移动终端智能语音交互系统的术语和定义、系统框架、要求和测试方法本部分适用于移动终端智能语音交互系统的设计、开发、应用和维护规范性引用文件下列文件对于本文件的应用是必不可少的凡是注日期的引用文件,仅注日期的版本适用于本文件凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 GB3096一2008声环境质量标准 GB/T210232007中文语音识别系统通用技术规范 GB/T21024中文语音合成系统通用技术规范 GB/T34083中文语音识别互联网服务接口规范 GB/T34145一2017中文语音合成互联网服务接口规范 S/T1l380自动声纹识别(说话人识别)技术规范术语和定义 GB/T21023,GB/T21024.GB/T34083,s/T11380界定的以及下列术语和定义适用于本文件为了便于使用,以下重复列出了GBT2023.GB/T21024.GB/T3083.sIT11380中的些术语和定义 3.1 语音交互speeehinteraction 人类和功能单元之间通过语音进行的信息传递和交流活动 3.2 语音交互系统speethinteractionsystemt 由功能单元(或其组合、数据资源等组成的能够实现与人类之间进行语音交互的系统 3.3 功能单元funetionalunit 能够完成特定任务的硬件实体,或软件实体,或硬件实体和软件实体 [[GB/T5271.1一2000,定义01.01.40 3.4 移动终端mobileterminal 可以在移动中使用的便携式计算机设备注，常见的移动终淄有手机,平板电脑、笔记本电脑,可穿戴设备等
GB/T364644一2018 3.5 在线 online 处于跟互联网相连接的状态 3.6 离线ofine 处于跟互联网连接断开的状态 3.7 语音识别speeehrecognitionm 将人类的声音信号转化为文字或者指令的过程 [GB/T21023一2007,定义3.1] 3.8 语音合成speechsynthesis 通过机械的、电子的方法合成人类语言的过程 [GB/T21024一2007,定义3.1] 3.9 关键字识别keywordspotting 针对连续语音流中的特定关键字进行识别和检出注:关键字识别不需要识别全部文字,只需要检测出关注的关键字在何处出现 3.10 命令字识别commandworlrecognitiom -种基于语音识别语法的语音识别方式,是在语音识别语法规则限定的范围内,对于给定的语音输人,语音识别引擎给出语音识别语法覆盖范围内的文本或拒识作为识别结果 [[GB/T34083-2017,定义3.3] 3.11 连续语音识别contimuousspeeehreognition 识别任意的连续语音,并给出相对应的文本注;连续语音识别不限制用户说话的词汇,内容和方式,用户可以以任意说的形式输人语音 [GB/T34083一2017,定义3.4] 3.12 语义理解 semanticunderstanding 使功能单元理解人说话的意图 3.13 interactiondeeision-mmakin 交互决策 ing 根据客观的可能性,以已知的信息和先验知识为基础,借助一定的方法对交互目标的诸多可能情况进行分析、计算和选优后,做出的行动决定 3.14 声纹 voiceprint 对语音中所蕴含的能表征和标识说话人的语音特征,以及基于这些特征(参数)建立的数学模型的总称 [SJ/T11380-2008,定义3.1.1] 3.15 声纹特征voieeprintfeature 从说话人的语音中所提取出来的,可以表征该说话人语音的个性特征的参数
GB:/T36464.4一2018 [[SJ/T11380一2008,定义3.1.2] 3.16 ition;VPR 声纹识别oteeprimt recogn 根据待识别语音的声纹特征识别该段语音所对应的说话人的过程 [[SI/T11380一2008,定义3.1.6] 3.17 语音唤醒speeehwakeup; oieetriger 处于音频流监听状态的语音交互系统,在检测到特定的特征或事件出现后,切换到命令字识别、连续语音识别等其他处理状态的过程 3.18 误唤醒falsewakeup 语音唤醒过程中出现的,无音频流或者音频流中没有出现唤醒所需的特征或事件时,语音唤醒系统被唤醒的现象 3.19 噪声noise 语音采集过程中,采集到的由非目标语音信号源发出的,能干扰、影响对目标语音信号的识别解或处理的声学信号 3.20 平均意见得分meanopinionscore 语音质量的一种主观度量系统框架语音交互系统分为前端语音处理模块、语音处理模块和业务处理模块,其中前端语音处理模块包括音频降噪模块、声纹识别模块,语音唤醒模块,负责将语音输人转化为 a 语音流,作为语音处理模块的输人语音处理模块包括语音识别模块、语义理解模块、交互决策模块和语音合成模块,其中 b 语音识别模块负责将语音流转换为人类可识别的文本信息并直接输出到相关的应用模块,或转换为计算机可识别的文本信息并输出到语义理解模块语义理解模块负责对语音识别模块提供的文本信息做语义解析; 22 交互决策模块负责根据语义理解模块的语义解析结果做出交互决策,并依此向业务处理 3 模块下达控制指令并获取反馈信息; 语音合成模块负责将交互决策模块提供的计算机可识别的文本信息转换为语音流输出 4 语音处理模块中的各子模块可选择在本地、云端或融合实现 5 业务处理模块负责处理交互决策模块下发的控制命令并反馈结果移动终端智能语音交互系统的逻辑结构,如图1所示
GB/T364644一2018 业务处理模块交互决策模块语义理解模块语音合成模块语音识别模块语音唤醒模块合成音频声纹识别模块音频降噪模块语音说明前端语音处理模块获得输人的语音; 语音处理模块获得经过前端语音处理模块处理的音频数据语音识别模块将由语音识别出来的文本传递给语义理解模块 -语义理解模块将解析出的语义传递给交互决策模块; 交互决策模块将决策信息传递给业务处理模块 6 业务处理模块将命令执行的响应信息反馈给交互决策模块; 交互决策模块将由反馈信息生成的合成文本传递给语音合成模块; 语音合成模块向系统调用者输出合成音频图1移动终端智能语音交互系统的逻辑结构要求 5 5.1概述移动终端智能语音交互系统的能力要求,包括基本要求、扩展要求和输人输出要求,其中基本要求是应具备的功能,扩展要求是宜具备的功能移动终端智能语音交互服务提供商可在本能力集的基础上扩展其他能力其中部分能力要求涉及不同噪声环境,噪声等级划分见GB3096一2008的表1
GB:/T36464.4一2018 5.2基本要求 5.2.1语音采集通过移动终端自备的麦克风或麦克风阵对语音进行采集移动终端语音交互系统应支持拾音距离小于40cm的语音采集 5.2.2语音识别应支持离线识别,应支持命令字识别连续语音识别中的一种,宜支持方言识别移动终端语音交互系统在不同噪声环境中的句识别率应满足表1要求表1不同噪声环境下的句识别率环境噪声等效声级句识别率声环境功能区类别 dB(A 0类昼间50,夜间 40 90 85 1类昼间55,夜间45 2类昼间60,夜间50 80 其中句识别率的计算方法见式(1 P - 100% X N，式中句识别率 N. 移动终端智能语音交互系统正确识别的句数; N， -标注总句数 5.2.3语音合成应支持离线语音合成,应支持汉语普通话,宜支持英语以及粤语或其他方言,宜支持多音色合成和个性化合成,其要求包括多音色,应支持青年女声和青年男声; a bb) 多方言,应支持汉语普通话; 混合语种,应支持中英文混读; c ) 多语种,应支持英语; 平均意见得分,应大于或等于4.0(满分5.0). e 5.2.4语义理解应支持语义抽取、模糊识别、语义排序,其中语义抽取;抽取用户的关键意图; aa b)语义排序;语义理解结果中给出多个排过顺序的理解结果供用户选择或二次确认模糊识别正确处理用户说的错别字同义词,、多字少字问题 c 5.2.5交互成功率移动终端语音交互系统的交互过程中,交互目的能够在既定交互轮次内完成,即可判定为本轮交互成功;反之则判定为本轮交互失败
GB/T364644一2018 交互成功率的计算方法见式(2). P,=罚 ×100% sF 式中 P 交互成功率; s 交互成功的次数 F 交互失败的次数交互成功率用于描述语音交互系统整体的可用性,移动终端语音交互系统在不同噪声环境中的交互成功率应满足表2要求表2不同噪声环境下的交互成功率环境噪声等效声级成功率声环境功能区类别 dB(A 0类昼间50,夜间 40 85 昼间55,夜间45 1类 80 2类 >75 昼间60,夜间50 5.2.6响应时间响应时间用于评价语音交互系统整体的响应及时性,移动终端语音交互系统应支持不同网络制式的终端接人,保证不同网络环境下的及时响应,其计算方法见式(3) T (3 ek=t，一t 式中响应时间; 给出结果时刻; 语音输人结束时刻; 注，如语音交互系统支持识别结果分多次返回l,为第一部分识别结果返回的时刻移动终端语音交互系统的平均响应时间应满足表3要求表3不同网络环境下的平均响应时间平均响应时间网络编号网络制式离线 1.50 2G 5.00 3G 二3.50 4G 2.50 wlanm 二2.50 5.3扩展要求 5.3.1声纹识别可支持声纹识别能力声纹识别错误拒绝率应小于或等于10%,错误接受率应小于或等于5%,其
GB:/T36464.4一2018 中,声纹识别错误拒绝率的计算方法见式(4),错误接受率的计算方法见式(5). E，-台×100% 式中 E 错误拒绝率 P 目标说话人语音被误判为冒认者的次数目标说话人语音测试的总次数 P M E ×100% 5 M 式中: E 错误接受率; M -冒认者语音被误判为目标说话人的次数 M -冒认者语音测试的总次数 5.3.2语音唤醒可支持语音唤醒能力,不同噪声环境中的语音唤醒能力应满足表4要求表4不同噪声环境下的唤醒能力要求环境噪声等效声级唤醒正确率误唤醒频度声环境功能区类别 dB(A 次/h 0类昼间50,夜间40 >85 s0,2 1类昼间55,夜间45 75 s0,15 2类昼间60,夜间50 65 其中,唤醒正确率是指计算方法见式(6) ×100% P 式中: P -唤醒正确率; N -正确唤醒次数; 总唤醒次数 N 误唤醒频度计算方法见式(7). N F一式中 F 误唤醒频度; N 误唤醒次数; T 总时长 5.4输入输出要求 5.4.1输入要求输人要求包括:
GB/T364644一2018 应支持汉语普通话输人,宜支持英语; a b 可处理语音输人为180字/min300字/min的语速,单次语音输人时长不应超过30s,特殊情况下不应超过60s; 发音单元的持续时间应不小于0.2s,发音单元间的间隔不超过2s;停顿时间超过2s,则认为 -次语音输人结束; 对于持续时间大于0.2s的语音输人,在信噪比在小于60dB大于10dB的背景环境条件下能对语音做出有效识别对于文本中的分汉字字符,包括数字、电话号码、标点符号,其朗读方法见GB/T210232007 中附录A 5.4.2输出要求合成音频格式及要求见GB/T341452017中6.1 6 测试方法 6.1测试准备 6.1.1测试语料要求测试语料应覆盖被测系统的核心词汇,并从被测系统词汇量覆盖、业务覆盖、音节覆盖,以及常用性角度进行设计,具体要求应按GB/T210232007执行 6.1.2语音测试集要求语音测试集应符合以下要求: 句识别率测试应至少由男女各20名发音人进行录制,语音唤醒功能测试应至少由50名发音 a 人录制,具体要求应按GB/T21023一2007执行 b 声纹识别测试应至少由50名发音人录制验证,具体要求应按GB/T21023一2007执行 6.1.3环境噪声要求环境噪声采用真实的环境噪声或模拟真实的环境噪声,环境噪声等级划分见GB3096一2008的表1,环境噪声录制要求噪声频谱保持稳定且噪声与命令词无类似发音,典型环境噪声的录制场景应符合表5的要求表5典型环境噪声的录制场景传声器处的环境噪声声压级环境噪声场景编号声环境功能区类别说明 dBA 4045 噪声场景1 0类必备 5055 噪声场景2 1类必备 5560 必备噪声场景3 2类 6.1.4音频采样及回放设备要求音频采样设备、传声器、回放设备的有关参数应符合表6、表7和表8的要求
GB:/T36464.4一2018 表6音频采样设备的要求设备名称参数要求支持44.1kHH及以上的采样频率,16bit及以上的模数转换器和数模可移动的声卡转换器波形采样范围为士5000 士10000smpl 录音软件 smpl一计算机支持录音软件的安装和使用声压计用于环境声压确认表7传声器设备的要求典型值最大值参数最小值符号测试条件灵敏度/(dBV/P) 94dBSPL@1kHz 15 42 39 NR 信噪比/dB 94dBSPL(@1kHz2 59 Zm 输出阻抗/Q 94dBSPL@1kHz声压级 400 100dBSPL(@1kHz TH+N总谐波失真/% 115dBSPL.@1kHa 10 反向衰减大于或等于15dB,最佳接指向性受范围为母线同咪头在传声器拾音方向中垂线呈60"夹角的圆锥面内部表8回放设备的要求说明设备名称参数要求计算机支持音频播放软件的安装和使用频率响应(士2.5dB):74Hz18kHz 播放器推荐在无人工嘴的条件下使用最大声压级;102dB(A 信噪比;90dB 增益控制0dB25dB 功率放大器和人工嘴推荐在录音室内使用频率响应:200Hzl0kHz 最大声压级:l10dB(A 仿真人体根据音箱和人工嘴的尺寸和安装位置定制 6.2测试环境 6.2.1被测语音交互系统部署被测语音交互系统,包括移动终端测试设备,应确保被测系统具有语音拾音功能,可通过对话方式对其进行控制和交互
GB/T364644一2018 6.2.2被测系统网络环境移动终端智能语音交互系统应具备在移动终端不同的网络环境条件下提供相应服务的能力,被测系统网络环境应符合表9的要求表9被测系统网络环境的要求网络编号运营商网络制式无离线 2G(GSM 移动移动 3G(TDSCDMA 移动 4G(TD1TE) 移动 wlan 联通 2G(GSM 3G;(wCDMA 联通 4G;(FDD-LTE 联通联通 Wan 10 电信 2G(CDMAD 1 电信 3G(CDMA2000) 12 电信 4G(FDDLTE) 13 电信 Wlan 6.2.3拾音距离要求测试所描述的拾音距离默认小于40cm 6.2.4语音测试集应按6.1.1和6,1.2要求,将录制得到的测试语音文件和其对应的语料,作为语音测试集 6.2.5测试场景要求典型环境噪声的测试场景要求见表10 表10典型环境噪声的测试场景要求传声器处的语音声压级传声器处的环境噪声声压级信噪比测试场景编号环境噪声场景 dB(A dB(A dB 测试场景1 噪声场景1 60~65 4045 20 55~70 5055 15 测试场景2 噪声场景2 5560 10 测试场景3 噪声场景3 6570 6.3测试方法 6.3.1语音识别分别在表10三种测试场景下,将移动终端被测系统调至待命状态,在拾音距离内使用回放设备播 10
GB:/T36464.4一2018 放语音识别测试语料,记录各场景下移动终端被测系统的识别结果,并与预期结果进行比对,统计结果并给出句识别率,其计算方法见式(1) 使用以上测试方法,测试验证是否满足5.2.2的要求 6.3.2语音合成选取20个体验人员,男女各10人,通过对移动终端被测系统语音唤醒或语音识别命令的反馈,测听合成语音同真人语音在音质、可懂度和自然度等方面的差异,并以平均意见得分(MOs分)量化进行主观测评,记录平均结果使用以上测试方法,测试验证是否满足5.2.3的要求 6.3.3交互成功率交互成功率测试方法如下将移动终端被测系统调至待命状态,使用回放设备在拾音距离内播放语音识别测试语料,记录当次语音交互会话是否成功和有效; 分别在表10三种测试场景下按上述步骤完成测试,按式(2)计算各测试场景下的语音交互成 b 功率使用以上测试方法,测试验证是否满足5.2.5的要求 6.3.4响应时间响应时间测试方法如下准备移动终端测试设备及其网络环境.开启被测系统拾音功能,用回放设备在拾音距离内播放 a 语音识别测试语料,记录当次成功的语音交互会话测试录音输人完成的时刻!.和返回服务结果的时刻t,,按式(3)计算当次语音交互会话的响应时间 b)分别在表9离线,2G,3G、4G和wlan网络环境下,按上述步骤完成测试,然后计算平均时间使用以上测试方法,测试验证是否满足5.2.6的要求 6.3.5声纹识别声纹识别测试包括声纹识别错误拒绝率和声纹识别错误接受率测试,方法如下声纹识别错误拒绝率;在表10测试场景1环境下,使用声纹识别语音测试集对移动终端被测 a 系统进行语音注册,注册人数50人(男女各25人),注册完毕后,将移动终端被测系统调至待命状态,在拾音距离内使用回放设备播放注册人语音测试集进行声纹验证,共验证50条,统计结果并给出错误拒绝率,其计算方法见式(4); 声纹识别错误接受率;在表10测试场景1环境下,使用声纹识别语音测试集对移动终端被测系统进行语音注册,注册人数50人(男女各25人),注册完毕后,将移动终端被测系统调至待命状态,在拾音距离内使用回放设备播放非注册人(男女各75人)的1句话进行冒认,累计共 150条冒认,统计结果并给出错误接受率,其计算方法见式(5). 使用以上测试方法,测试验证是否满足5.3.1的要求 6.3.6语音唤醒语音唤醒测试包括唤醒正确率测试和误唤醒频度测试,方法如下唤醒测试;分别在表10三种测试场景下,将移动终端被测系统调至待命状态,使用回放设备播 a 放唤醒测试语料,记录被测系统是否给出正确响应,统计各场景下的唤醒正确率,其计算方法见式(6); 1
GB/T364644一2018 b 误唤醒测试;分别在表3三种典型环境噪声场景下,将移动终端被测系统调至待命状态,等待 6h,记录被测系统被误唤醒次数,统计各场景下的误唤醒频度,其计算方法见式(7) 使用以上测试方法,测试验证是否满足5.3.2的要求 6.4测试结果测试报告应包括下述指标项的测试结果 a 语音识别句识别率; b 语音合成平均意见得分; 声纹识别错误拒绝率; d 声纹识别错误接受率; 语音唤醒正确率; f 语音唤醒误唤醒频度; 语音交互成功率; g h 语音交互响应时间 12
GB:/T36464.4一2018 参考文献 [1]GB/T5271.1一2000信息技术词汇第1部分;基本术语

移动终端GB/T36464.4-2018：信息技术智能语音交互系统第4部分

一、概述

移动终端GB/T36464.4-2018是国家标准化委员会发布的信息技术智能语音交互系统第4部分，它规定了在移动终端上实现语音交互的相关要求和技术指标。

二、应用场景

移动终端GB/T36464.4-2018适用于智能手机、平板电脑、手表等移动终端设备。这些设备可以通过语音指令实现各种功能，如打电话、发短信、查询天气、播放音乐、设置闹钟等。

三、关键特性

移动终端GB/T36464.4-2018定义了以下关键特性：

语音识别精度高：能够准确识别用户的语音指令。
多语言支持：支持多种语言的语音交互，包括汉语、英语、日语等。
自然语言理解：能够理解自然语言，如口语化表达、省略句式等。
个性化定制：支持用户自定义语音指令和个性化设置。
安全可靠：在保证语音交互的同时，保障用户信息安全和设备安全。

四、技术要求

移动终端GB/T36464.4-2018还规定了一些技术要求，如：

语音识别准确率不低于95%。
支持离线语音识别和在线语音识别。
响应时间不超过2秒。
支持远场语音识别。

五、结论

移动终端GB/T36464.4-2018为移动终端上的语音交互提供了标准化的技术要求和规范，使得各种移动终端设备可以实现高精度、高效率、安全可靠的语音交互功能。

信息技术智能语音交互系统第4部分：移动终端的相关资料

和信息技术智能语音交互系统第4部分：移动终端类似的标准

声明： 本站所有资源均来源于互联网，本站仅作为观摩学习的环境，将不对任何资源负法律责任。如果无意侵犯了您的权利，请及时发送邮件到“abc@gbbz.net”，本站会第一时间进行改正或删除处理，保证您的权利！本站资源仅供学习和参考，请勿用于商业用途，并请于下载后24小时内删除，否则产生的一切后果将由您承担！

GB/T36464.4-2018

信息技术智能语音交互系统第4部分：移动终端

Informationtechnology—Intelligentspeechinteractionsystem—Part4：Mobileterminal

以图片形式预览信息技术智能语音交互系统第4部分：移动终端

信息技术智能语音交互系统第4部分：移动终端

移动终端GB/T36464.4-2018：信息技术智能语音交互系统第4部分

一、概述

二、应用场景

三、关键特性

四、技术要求

五、结论

信息技术智能语音交互系统第4部分：移动终端的相关资料

和信息技术智能语音交互系统第4部分：移动终端类似的标准

相关推荐

计算机软件文档编制规范

信息技术软件工程术语

计算机软件测试文档编制规范

计算机软件需求规格说明规范

计算机软件测试规范

标签