GB/T36464.4-2018

信息技术智能语音交互系统第4部分:移动终端

Informationtechnology—Intelligentspeechinteractionsystem—Part4:Mobileterminal

本文分享国家标准信息技术智能语音交互系统第4部分:移动终端的全文阅读和高清PDF的下载,信息技术智能语音交互系统第4部分:移动终端的编号:GB/T36464.4-2018。信息技术智能语音交互系统第4部分:移动终端共有16页,发布于2019-01-01
  • 中国标准分类号(CCS)L77
  • 国际标准分类号(ICS)35.240.01
  • 实施日期2019-01-01
  • 文件格式PDF
  • 文本页数16页
  • 文件大小973.56KB

信息技术智能语音交互系统第4部分:移动终端


国家标准 GB/36464.4一2018 信息技术智能语音交互系统 第4部分:移动终端 nformationtechnology一Intel山igentspeechinteraetionsystem- Part4:Mobileterminal 2018-06-07发布 2019-01-01实施 国家市场监督管理总局 发布 币国国家标准化管理委员会国家标准
GB:/T36464.4一2018 目 次 前言 范围 2 规范性引用文件 3 术语和定义 系统框架 要求 5.1概述 5,2基本要求 5.3扩展要求 输人输出要求 5,4 测试方法 6.1测试准备 6,2测试环境 l0 6.3测试方法 6.4测试结果 13 参考文献
GB:/T36464.4一2018 前 言 GB/T36464《信息技术智能语音交互系统沙拟分为以下几个部分 第1部分:通用规范; 第2部分:智能家居; 第3部分:智能客服; 第4部分;移动终端; 第5部分:车载终端 本部分为GB/T36464的第4部分 本部分按照GB/T1.1一2009给出的规则起草 请注意本文件的某些内容可能涉及专利 本文件的发布机构不承担识别这些专利的责任 本部分由全国信息技术标准化技术委员会(sAc/TC28)提出并归口 本部分起草单位科大讯飞股份有限公司、电子技术标准化研究院、电信集团有限公司、中 一汽车股份有限公司、盲人协会、盲人出版社、安徽知学科技有限公司 国第- 本部分主要起草人;黄明登、刘庆峰、严酸、胡国平、郭正欧盛家见、胡修文,刘聪、李洪亮、王静 戴小兰,杨震、陈药翰
GB:/T36464.4一2018 信息技术智能语音交互系统 第4部分移动终端 范围 GB/T36464的本部分规定了移动终端智能语音交互系统的术语和定义、系统框架、要求和测试 方法 本部分适用于移动终端智能语音交互系统的设计、开发、应用和维护 规范性引用文件 下列文件对于本文件的应用是必不可少的 凡是注日期的引用文件,仅注日期的版本适用于本文 件 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 GB3096一2008声环境质量标准 GB/T210232007中文语音识别系统通用技术规范 GB/T21024中文语音合成系统通用技术规范 GB/T34083中文语音识别互联网服务接口规范 GB/T34145一2017中文语音合成互联网服务接口规范 S/T1l380自动声纹识别(说话人识别)技术规范 术语和定义 GB/T21023,GB/T21024.GB/T34083,s/T11380界定的以及下列术语和定义适用于本文件 为了便于使用,以下重复列出了GBT2023.GB/T21024.GB/T3083.sIT11380中的 些术语和 定义 3.1 语音交互speeehinteraction 人类和功能单元之间通过语音进行的信息传递和交流活动 3.2 语音交互系统speethinteractionsystemt 由功能单元(或其组合、数据资源等组成的能够实现与人类之间进行语音交互的系统 3.3 功能单元funetionalunit 能够完成特定任务的硬件实体,或软件实体,或硬件实体和软件实体 [[GB/T5271.1一2000,定义01.01.40 3.4 移动终端mobileterminal 可以在移动中使用的便携式计算机设备 注,常见的移动终淄有手机,平板电脑、笔记本电脑,可穿戴设备等
GB/T364644一2018 3.5 在线 online 处于跟互联网相连接的状态 3.6 离线ofine 处于跟互联网连接断开的状态 3.7 语音识别speeehrecognitionm 将人类的声音信号转化为文字或者指令的过程 [GB/T21023一2007,定义3.1] 3.8 语音合成speechsynthesis 通过机械的、电子的方法合成人类语言的过程 [GB/T21024一2007,定义3.1] 3.9 关键字识别keywordspotting 针对连续语音流中的特定关键字进行识别和检出 注:关键字识别不需要识别全部文字,只需要检测出关注的关键字在何处出现 3.10 命令字识别commandworlrecognitiom -种基于语音识别语法的语音识别方式,是在语音识别语法规则限定的范围内,对于给定的语音输 人,语音识别引擎给出语音识别语法覆盖范围内的文本或拒识作为识别结果 [[GB/T34083-2017,定义3.3] 3.11 连续语音识别contimuousspeeehreognition 识别任意的连续语音,并给出相对应的文本 注;连续语音识别不限制用户说话的词汇,内容和方式,用户可以以任意说的形式输人语音 [GB/T34083一2017,定义3.4] 3.12 语义理解 semanticunderstanding 使功能单元理解人说话的意图 3.13 interactiondeeision-mmakin 交互决策 ing 根据客观的可能性,以已知的信息和先验知识为基础,借助一定的方法对交互目标的诸多可能情况 进行分析、计算和选优后,做出的行动决定 3.14 声纹 voiceprint 对语音中所蕴含的能表征和标识说话人的语音特征,以及基于这些特征(参数)建立的数学模型的 总称 [SJ/T11380-2008,定义3.1.1] 3.15 声纹特征voieeprintfeature 从说话人的语音中所提取出来的,可以表征该说话人语音的个性特征的参数
GB:/T36464.4一2018 [[SJ/T11380一2008,定义3.1.2] 3.16 ition;VPR 声纹识别oteeprimt recogn 根据待识别语音的声纹特征识别该段语音所对应的说话人的过程 [[SI/T11380一2008,定义3.1.6] 3.17 语音唤醒speeehwakeup; oieetriger 处于音频流监听状态的语音交互系统,在检测到特定的特征或事件出现后,切换到命令字识别、连 续语音识别等其他处理状态的过程 3.18 误唤醒falsewakeup 语音唤醒过程中出现的,无音频流或者音频流中没有出现唤醒所需的特征或事件时,语音唤醒系统 被唤醒的现象 3.19 噪声noise 语音采集过程中,采集到的由非目标语音信号源发出的,能干扰、影响对目标语音信号的识别解或 处理的声学信号 3.20 平均意见得分meanopinionscore 语音质量的一种主观度量 系统框架 语音交互系统分为前端语音处理模块、语音处理模块和业务处理模块,其中 前端语音处理模块包括音频降噪模块、声纹识别模块,语音唤醒模块,负责将语音输人转化为 a 语音流,作为语音处理模块的输人 语音处理模块包括语音识别模块、语义理解模块、交互决策模块和语音合成模块,其中 b 语音识别模块负责将语音流转换为人类可识别的文本信息并直接输出到相关的应用模 块,或转换为计算机可识别的文本信息并输出到语义理解模块 语义理解模块负责对语音识别模块提供的文本信息做语义解析; 22 交互决策模块负责根据语义理解模块的语义解析结果做出交互决策,并依此向业务处理 3 模块下达控制指令并获取反馈信息; 语音合成模块负责将交互决策模块提供的计算机可识别的文本信息转换为语音流输出 4 语音处理模块中的各子模块可选择在本地、云端或融合实现 5 业务处理模块负责处理交互决策模块下发的控制命令并反馈结果 移动终端智能语音交互系统的逻辑结构,如图1所示
GB/T364644一2018 业务处理模块 交互决策模块 语义理解模块 语音合成模块 语音识别模块 语音唤醒模块 合成音频 声纹识别模块 音频降噪模块 语音 说明 前端语音处理模块获得输人的语音; 语音处理模块获得经过前端语音处理模块处理的音频数据 语音识别模块将由语音识别出来的文本传递给语义理解模块 -语义理解模块将解析出的语义传递给交互决策模块; 交互决策模块将决策信息传递给业务处理模块 6 业务处理模块将命令执行的响应信息反馈给交互决策模块; 交互决策模块将由反馈信息生成的合成文本传递给语音合成模块; 语音合成模块向系统调用者输出合成音频 图1移动终端智能语音交互系统的逻辑结构 要求 5 5.1概述 移动终端智能语音交互系统的能力要求,包括基本要求、扩展要求和输人输出要求,其中基本要求 是应具备的功能,扩展要求是宜具备的功能 移动终端智能语音交互服务提供商可在本能力集的基础 上扩展其他能力 其中部分能力要求涉及不同噪声环境,噪声等级划分见GB3096一2008的表1
GB:/T36464.4一2018 5.2基本要求 5.2.1语音采集 通过移动终端自备的麦克风或麦克风阵对语音进行采集 移动终端语音交互系统应支持拾音距离 小于40cm的语音采集 5.2.2语音识别 应支持离线识别,应支持命令字识别连续语音识别中的一种,宜支持方言识别 移动终端语音交互系统在不同噪声环境中的句识别率应满足表1要求 表1不同噪声环境下的句识别率 环境噪声等效声级 句识别率 声环境功能区类别 dB(A 0类 昼间50,夜间 40 90 85 1类 昼间55,夜间45 2类 昼间60,夜间50 80 其中句识别率的计算方法见式(1 P - 100% X N, 式中 句识别率 N. 移动终端智能语音交互系统正确识别的句数; N, -标注总句数 5.2.3语音合成 应支持离线语音合成,应支持汉语普通话,宜支持英语以及粤语或其他方言,宜支持多音色合成和 个性化合成,其要求包括 多音色,应支持青年女声和青年男声; a bb) 多方言,应支持汉语普通话; 混合语种,应支持中英文混读; c ) 多语种,应支持英语; 平均意见得分,应大于或等于4.0(满分5.0). e 5.2.4语义理解 应支持语义抽取、模糊识别、语义排序,其中 语义抽取;抽取用户的关键意图; aa b)语义排序;语义理解结果中给出多个排过顺序的理解结果供用户选择或二次确认 模糊识别正确处理用户说的错别字同义词,、多字少字问题 c 5.2.5交互成功率 移动终端语音交互系统的交互过程中,交互目的能够在既定交互轮次内完成,即可判定为本轮交互 成功;反之则判定为本轮交互失败
GB/T364644一2018 交互成功率的计算方法见式(2). P,=罚 ×100% sF 式中 P 交互成功率; s 交互成功的次数 F 交互失败的次数 交互成功率用于描述语音交互系统整体的可用性,移动终端语音交互系统在不同噪声环境中的交 互成功率应满足表2要求 表2不同噪声环境下的交互成功率 环境噪声等效声级 成功率 声环境功能区类别 dB(A 0类 昼间50,夜间 40 85 昼间55,夜间45 1类 80 2类 >75 昼间60,夜间50 5.2.6响应时间 响应时间用于评价语音交互系统整体的响应及时性,移动终端语音交互系统应支持不同网络制式 的终端接人,保证不同网络环境下的及时响应,其计算方法见式(3) T (3 ek=t,一t 式中 响应时间; 给出结果时刻; 语音输人结束时刻; 注,如语音交互系统支持识别结果分多次返回l,为第一部分识别结果返回的时刻 移动终端语音交互系统的平均响应时间应满足表3要求 表3不同网络环境下的平均响应时间 平均响应时间 网络编号 网络制式 离线 1.50 2G 5.00 3G 二3.50 4G 2.50 wlanm 二2.50 5.3扩展要求 5.3.1声纹识别 可支持声纹识别能力 声纹识别错误拒绝率应小于或等于10%,错误接受率应小于或等于5%,其
GB:/T36464.4一2018 中,声纹识别错误拒绝率的计算方法见式(4),错误接受率的计算方法见式(5). E,-台×100% 式中 E 错误拒绝率 P 目标说话人语音被误判为冒认者的次数 目标说话人语音测试的总次数 P M E ×100% 5 M 式中: E 错误接受率; M -冒认者语音被误判为目标说话人的次数 M -冒认者语音测试的总次数 5.3.2语音唤醒 可支持语音唤醒能力,不同噪声环境中的语音唤醒能力应满足表4要求 表4不同噪声环境下的唤醒能力要求 环境噪声等效声级 唤醒正确率 误唤醒频度 声环境功能区类别 dB(A 次/h 0类 昼间50,夜间40 >85 s0,2 1类 昼间55,夜间45 75 s0,15 2类 昼间60,夜间50 65 其中,唤醒正确率是指计算方法见式(6) ×100% P 式中: P -唤醒正确率; N -正确唤醒次数; 总唤醒次数 N 误唤醒频度计算方法见式(7). N F一 式中 F 误唤醒频度; N 误唤醒次数; T 总时长 5.4输入输出要求 5.4.1输入要求 输人要求包括:
GB/T364644一2018 应支持汉语普通话输人,宜支持英语; a b 可处理语音输人为180字/min300字/min的语速,单次语音输人时长不应超过30s,特殊 情况下不应超过60s; 发音单元的持续时间应不小于0.2s,发音单元间的间隔不超过2s;停顿时间超过2s,则认为 -次语音输人结束; 对于持续时间大于0.2s的语音输人,在信噪比在小于60dB大于10dB的背景环境条件下能 对语音做出有效识别 对于文本中的分汉字字符,包括数字、电话号码、标点符号,其朗读方法见GB/T210232007 中附录A 5.4.2输出要求 合成音频格式及要求见GB/T341452017中6.1 6 测试方法 6.1测试准备 6.1.1测试语料要求 测试语料应覆盖被测系统的核心词汇,并从被测系统词汇量覆盖、业务覆盖、音节覆盖,以及常用性 角度进行设计,具体要求应按GB/T210232007执行 6.1.2语音测试集要求 语音测试集应符合以下要求: 句识别率测试应至少由男女各20名发音人进行录制,语音唤醒功能测试应至少由50名发音 a 人录制,具体要求应按GB/T21023一2007执行 b 声纹识别测试应至少由50名发音人录制验证,具体要求应按GB/T21023一2007执行 6.1.3环境噪声要求 环境噪声采用真实的环境噪声或模拟真实的环境噪声,环境噪声等级划分见GB3096一2008的 表1,环境噪声录制要求噪声频谱保持稳定且噪声与命令词无类似发音,典型环境噪声的录制场景应符 合表5的要求 表5典型环境噪声的录制场景 传声器处的环境噪声声压级 环境噪声场景编号 声环境功能区类别 说明 dBA 4045 噪声场景1 0类 必备 5055 噪声场景2 1类 必备 5560 必备 噪声场景3 2类 6.1.4音频采样及回放设备要求 音频采样设备、传声器、回放设备的有关参数应符合表6、表7和表8的要求
GB:/T36464.4一2018 表6音频采样设备的要求 设备名称 参数要求 支持44.1kHH及以上的采样频率,16bit及以上的模数转换器和数模 可移动的声卡 转换器 波形采样范围为士5000 士10000smpl 录音软件 smpl一 计算机 支持录音软件的安装和使用 声压计 用于环境声压确认 表7传声器设备的要求 典型值 最大值 参数 最小值 符号 测试条件 灵敏度/(dBV/P) 94dBSPL@1kHz 15 42 39 NR 信噪比/dB 94dBSPL(@1kHz2 59 Zm 输出阻抗/Q 94dBSPL@1kHz声压级 400 100dBSPL(@1kHz TH+N总谐波失真/% 115dBSPL.@1kHa 10 反向衰减大于或等于15dB,最佳接 指向性 受范围为母线同咪头在传声器拾音 方向中垂线呈60"夹角的圆锥面内部 表8回放设备的要求 说明 设备名称 参数要求 计算机 支持音频播放软件的安装和使用 频率响应(士2.5dB):74Hz18kHz 播放器 推荐在无人工嘴的条件下使用 最大声压级;102dB(A 信噪比;90dB 增益控制0dB25dB 功率放大器和人工嘴 推荐在录音室内使用 频率响应:200Hzl0kHz 最大声压级:l10dB(A 仿真人体 根据音箱和人工嘴的尺寸和安装位置定制 6.2测试环境 6.2.1被测语音交互系统 部署被测语音交互系统,包括移动终端测试设备,应确保被测系统具有语音拾音功能,可通过对话 方式对其进行控制和交互
GB/T364644一2018 6.2.2被测系统网络环境 移动终端智能语音交互系统应具备在移动终端不同的网络环境条件下提供相应服务的能力,被测 系统网络环境应符合表9的要求 表9被测系统网络环境的要求 网络编号 运营商 网络制式 无 离线 2G(GSM 移动 移动 3G(TDSCDMA 移动 4G(TD1TE) 移动 wlan 联通 2G(GSM 3G;(wCDMA 联通 4G;(FDD-LTE 联通 联通 Wan 10 电信 2G(CDMAD 1 电信 3G(CDMA2000) 12 电信 4G(FDDLTE) 13 电信 Wlan 6.2.3拾音距离要求 测试所描述的拾音距离默认小于40cm 6.2.4语音测试集 应按6.1.1和6,1.2要求,将录制得到的测试语音文件和其对应的语料,作为语音测试集 6.2.5测试场景要求 典型环境噪声的测试场景要求见表10 表10典型环境噪声的测试场景要求 传声器处的语音声压级 传声器处的环境噪声声压级 信噪比 测试场景编号 环境噪声场景 dB(A dB(A dB 测试场景1 噪声场景1 60~65 4045 20 55~70 5055 15 测试场景2 噪声场景2 5560 10 测试场景3 噪声场景3 6570 6.3测试方法 6.3.1语音识别 分别在表10三种测试场景下,将移动终端被测系统调至待命状态,在拾音距离内使用回放设备播 10
GB:/T36464.4一2018 放语音识别测试语料,记录各场景下移动终端被测系统的识别结果,并与预期结果进行比对,统计结果 并给出句识别率,其计算方法见式(1) 使用以上测试方法,测试验证是否满足5.2.2的要求 6.3.2语音合成 选取20个体验人员,男女各10人,通过对移动终端被测系统语音唤醒或语音识别命令的反馈,测 听合成语音同真人语音在音质、可懂度和自然度等方面的差异,并以平均意见得分(MOs分)量化进行 主观测评,记录平均结果 使用以上测试方法,测试验证是否满足5.2.3的要求 6.3.3交互成功率 交互成功率测试方法如下 将移动终端被测系统调至待命状态,使用回放设备在拾音距离内播放语音识别测试语料,记录 当次语音交互会话是否成功和有效; 分别在表10三种测试场景下按上述步骤完成测试,按式(2)计算各测试场景下的语音交互成 b 功率 使用以上测试方法,测试验证是否满足5.2.5的要求 6.3.4响应时间 响应时间测试方法如下 准备移动终端测试设备及其网络环境.开启被测系统拾音功能,用回放设备在拾音距离内播放 a 语音识别测试语料,记录当次成功的语音交互会话测试录音输人完成的时刻!.和返回服务结 果的时刻t,,按式(3)计算当次语音交互会话的响应时间 b)分别在表9离线,2G,3G、4G和wlan网络环境下,按上述步骤完成测试,然后计算平均时间 使用以上测试方法,测试验证是否满足5.2.6的要求 6.3.5声纹识别 声纹识别测试包括声纹识别错误拒绝率和声纹识别错误接受率测试,方法如下 声纹识别错误拒绝率;在表10测试场景1环境下,使用声纹识别语音测试集对移动终端被测 a 系统进行语音注册,注册人数50人(男女各25人),注册完毕后,将移动终端被测系统调至待 命状态,在拾音距离内使用回放设备播放注册人语音测试集进行声纹验证,共验证50条,统计 结果并给出错误拒绝率,其计算方法见式(4); 声纹识别错误接受率;在表10测试场景1环境下,使用声纹识别语音测试集对移动终端被测 系统进行语音注册,注册人数50人(男女各25人),注册完毕后,将移动终端被测系统调至待 命状态,在拾音距离内使用回放设备播放非注册人(男女各75人)的1句话进行冒认,累计共 150条冒认,统计结果并给出错误接受率,其计算方法见式(5). 使用以上测试方法,测试验证是否满足5.3.1的要求 6.3.6语音唤醒 语音唤醒测试包括唤醒正确率测试和误唤醒频度测试,方法如下 唤醒测试;分别在表10三种测试场景下,将移动终端被测系统调至待命状态,使用回放设备播 a 放唤醒测试语料,记录被测系统是否给出正确响应,统计各场景下的唤醒正确率,其计算方法 见式(6); 1
GB/T364644一2018 b 误唤醒测试;分别在表3三种典型环境噪声场景下,将移动终端被测系统调至待命状态,等待 6h,记录被测系统被误唤醒次数,统计各场景下的误唤醒频度,其计算方法见式(7) 使用以上测试方法,测试验证是否满足5.3.2的要求 6.4测试结果 测试报告应包括下述指标项的测试结果 a 语音识别句识别率; b 语音合成平均意见得分; 声纹识别错误拒绝率; d 声纹识别错误接受率; 语音唤醒正确率; f 语音唤醒误唤醒频度; 语音交互成功率; g h 语音交互响应时间 12
GB:/T36464.4一2018 参 考文献 [1]GB/T5271.1一2000信息技术词汇第1部分;基本术语

移动终端GB/T36464.4-2018:信息技术智能语音交互系统第4部分

一、概述

移动终端GB/T36464.4-2018是国家标准化委员会发布的信息技术智能语音交互系统第4部分,它规定了在移动终端上实现语音交互的相关要求和技术指标。

二、应用场景

移动终端GB/T36464.4-2018适用于智能手机、平板电脑、手表等移动终端设备。这些设备可以通过语音指令实现各种功能,如打电话、发短信、查询天气、播放音乐、设置闹钟等。

三、关键特性

移动终端GB/T36464.4-2018定义了以下关键特性:

  • 语音识别精度高:能够准确识别用户的语音指令。
  • 多语言支持:支持多种语言的语音交互,包括汉语、英语、日语等。
  • 自然语言理解:能够理解自然语言,如口语化表达、省略句式等。
  • 个性化定制:支持用户自定义语音指令和个性化设置。
  • 安全可靠:在保证语音交互的同时,保障用户信息安全和设备安全。

四、技术要求

移动终端GB/T36464.4-2018还规定了一些技术要求,如:

  • 语音识别准确率不低于95%。
  • 支持离线语音识别和在线语音识别。
  • 响应时间不超过2秒。
  • 支持远场语音识别。

五、结论

移动终端GB/T36464.4-2018为移动终端上的语音交互提供了标准化的技术要求和规范,使得各种移动终端设备可以实现高精度、高效率、安全可靠的语音交互功能。

信息技术智能语音交互系统第4部分:移动终端的相关资料

    和信息技术智能语音交互系统第4部分:移动终端类似的标准

    信息技术智能语音交互系统第3部分:智能客服
    上一篇 本文分享国家标准信息技术智能语音交互系统第3部分:智能客服的全文阅读和高清PDF的下载,信息技术智能语音交互系统第3部分:智能客服的编号:GB/T36464.3-2018。信息技术智能语音交互系统第3部分:智能客服共有16页,发布于2019-01-01
    信息技术智能语音交互系统第5部分:车载终端
    本文分享国家标准信息技术智能语音交互系统第5部分:车载终端的全文阅读和高清PDF的下载,信息技术智能语音交互系统第5部分:车载终端的编号:GB/T36464.5-2018。信息技术智能语音交互系统第5部分:车载终端共有14页,发布于2019-01-01 下一篇
    相关推荐