国家标准 GB/36464.5一2018 信息技术智能语音交互系统第5部分车载终端 nformationtechnology一Intelligentspeechinteractionsystem- Part5:In-vehicleterminal 2018-06-07发布 2019-01-01实施国家市场监督管理总局发布币国国家标准化管理委员会国家标准
GB/T36464.5一2018 次目前言范围 2 规范性引用文件 3 术语和定义系统框架要求 5.1概述 5.2基本要求 5.3扩展要求 5.4输人准则和输出准则测试方法 6.1测试准备 6.2测试环境 6.3测试方法 6.4测试结果
GB;/T36464.5一2018 前言 GB/T36464《信息技术智能语音交互系统》拟分为以下几个部分第1部分:通用规范; 第2部分:智能家居; 第3部分:智能客服; 第4部分;移动终端; 第5部分:车载终端本部分为GB/T36464的第5部分本部分按照GB/T1.1一2009给出的规则起草请注意本文件的某些内容可能涉及专利本文件的发布机构不承担识别这些专利的责任本部分由全国信息技术标准化技术委员会(sAc/TC28)提出并归口本部分起草单位;第一汽车股份有限公司、科大讯飞股份有限公司、电子技术标准化研究院、苏州思必驰信息科技有限公司、上海交通大学苏州人工智能研究院、国家工业信息安全发展研究中心、电信集团有限公司本标准主要起草人;陈筠翰、战伟、陈树星、李丰军、雷琴辉、程美、张晓燕、施展、钟源、王静、戴小兰、周伟达,余凯、付万琳、张宇泽、杨震
GB;/T36464.5一2018 信息技术智能语音交互系统第5部分:车载终端范围 GB/T36464的本部分规范了车载终端智能语音交互系统的术语和定义、系统框架、要求和测试方法本部分适用于车载终端智能语音交互系统的设计、,开发,应用和维护规范性引用文件下列文件对于本文件的应用是必不可少的凡是注日期的引用文件,仅注日期的版本适用于本文件凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 GB/T210232007中文语音识别系统通用技术规范 GB/T21024中文语音合成系统通用技术规范 GB/T34083中文语音识别互联网服务接口规范 GB/T34145一2017中文语音合成互联网服务接口规范术语和定义 GB/T21024.,GB/T34083界定的以及下列术语和定义适用于本文件为了便于使用,以下重复列出了GB/T21024.GB/T34083中的一些术语和定义 3.1 车载终端智能语音交互系统in-vehieleterminalntelligentspeeehinteraectonsystem 用于实现智能语音交互功能的车载终端 3.2 交互决策interactiondeecision-makin 根据客观的可能性,以已知的信息和先验知识为基础,借助一定的方法对交互目标的诸多可能情况进行分析,计算和选优后,做出的行动决定 3.3 声源定位acousticsoureloealizatiom 对发声物体位置的判断过程 3,4 语音合成speeehsynthesis 通过机械的电子的方法合成人类语言的过程 [[GB/T21024一2007,定义3.1] 3.5 nition 命令字识别commandwordreog" -种基于语音识别语法的语音识别方式,是在语音识别语法规则限定的范围内,对于给定的语音输
GB/T36464.5一2018 人,语音识别引擎给出语音识别语法覆盖范围内的文本或拒识做为识别结果 [(GB/T340832017,定义3.3 3.6 连续语音识别 cntinousspeechrecgnitionm 识别任意的连续语音,并给出相对应的文本注:连续语音识别不限制用户说话的词汇、内容和方式,用户可以以任意说的形式输人语音 [GB/T34083一2017,定义3.4] 3.7 语音唤醒speeehwakeup;voicetrigger 处于音频流监听状态的语音交互系统,在检测到特定的特征或事件出现后,切换到命令字识别连续语音识别等其他处理状态的过程 3.8 唤醒命令字wakeupcommandwordi 用于唤醒处于关键字识别状态的语音交互系统所用的结构化关键字集 3.9 误唤醒ftalse" wakeup 语音唤醒过程中出现的,无音频流或者音频流中没有出现唤醒所需的特征或事件时,语音唤醒系统被唤醒的现象 3.10 语音打断speeehinterruption 语音交互系统在播放声音的过程中,当语音采集设备检测到有效语音输人时,中断播放声音,转到语音识别等其他处理过程系统框架车载终端智能语音交互系统可分为前端处理模块和语音处理模块,其中前端处理模块包括音频降噪模块,语音唤醒模块、声源定位模块,负责将语音输人转化成语音 a 流,作为语音处理模块的输人; b 语音处理模块包括语音识别模块,语义理解模块、交互决策模块和语音合成模块语音识别模块将语音流转换为人类可识别的文本信息直接输出到相关的应用,或转换为计算机可识别的文本信息输出到语义理解模块语义理解模块负责对语音识别模块提供的文本信息做语义解析交互决策模块负责根据语义理解模块的语义解析结果做出交互决策,依此向相关应用下达控制指令并获取反馈信息语音合成模块负责将交互决策模块或应用提供的计算机可识别的文本信息转换为语音流输出语音处理模块中的各子模块可选择在本地、云端或融合实现车载终端智能语音交互系统的逻辑结构,如图1所示
GB;/T36464.5一2018 语音合成模块交互决策模块应用语音处理模块语义理解模块语音识别模块声源定位模块前端处理模块语音唤醒模块音频降噪模块语音说明前端处理模块获得输人的语音; 音频降噪模块向语音唤醒模块输出语音流; 包 -语音唤模块向声源定位模块输出语音唤醒结果; 语音唤醒模块直接输出唤醒结果; 前端处理模块向语音识别模块输出语音流; 语音识别模块向应用输出文本信息，语音识别模块直接输出文本信息语音识别模块向语义理解模块输出文本信息; 语义理解模块向交互决策模块输出语音解析结果; 交互决策模块向应用输出交互决策应用向交互决策模块输出反馈信息应用向语音合成模块输出文本信息交互决策模块向语音合成模块输出文本信息 Q3 印语音合成模块输出语音流图1车载终端智能语音交互系统的逻辑结构 5 要求 5.1概述车载终端智能语音交互系统的功能集包括基本要求和扩展要求基本要求是应具备的功能扩展
GB/T36464.5一2018 要求是宜具备的功能车载终端智能语音交互系统供应商可在本功能集的基础上扩展其他功能此外,车载终端智能语音交互系统应满足相应的输人准则和输出准则 5.2基本要求 5.2.1控制对象可通过智能语音交互实现对车辆电气设备或车辆的控制例如:收音机操作、音视频播放器操作、蓝牙电话操作、导航软件操作,空调系统控制,座椅调节、后视镜控制等 5.2.2噪声环境的适应性车载终端智能语音交互系统应确保在表1和表2共同规范的典型应用场景中的可用性表1典型噪声环境传声器处的环境噪声声压级车速场景编号行车环境前车窗空调备注 km/h dB(A 45~50 场景1 安静必选场景2 闹市 40~6o 低档 50~65 必选场景3 高速 60~120 中档 65~75 必选典型噪声环境下的语音输入要求表2 传声器处的语音声压级信噪比场景编号 dB(A dB 场景1 5070 -25 55~70 15~25 场景2 场景3 6070 0l5 5.2.3拾音距离拾音设备与声源距离应为40em(顶灯)和70em(中控) 5.2.4语音识别车载终端智能语音交互系统应支持命令字识别和连续语音识别,并以句识别率评价车载终端智能语音交互系统对连续语音的正确识别情况,句识别率计算方法见式(1),句识别率评价标准见表3 nsR ×100% 0sR 式中句识别率 psR 车载终端智能语音交互系统正确识别的句数川sR 标注总句数 '
GB;/T36464.5一2018 表3句识别率评价标准句识别率评价 85% 优秀 <85%且>70% 可接受 <70% 不可接受针对表1和表2中的典型应用场景,句识别率应符合下列要求场景1的句识别率不应低于85%; 5 场景2的句识别率不应低于80%; 场景3的句识别率不应低于75% 5.2.5 语义理解车载终端智能语音交互系统应支持语义抽取、模糊识别语义排序 5.2.6交互成功率车载终端智能语音交互系统应支持车载终端的控制指令,全面覆盖日常生活中交互行为的语义意图理解交互成功率用于评价车载终端智能语音交互系统对语音交互任务的正确响应情况,交互任务包括语音识别语音唤醒、语音打断,语音合成若车载终端智能语音交互系统在既定的交互轮数内完成了语音交互任务,则此次语音交互成功,并以交互成功率或误操作率作为评价指标,其中,交互成功率计算方法见式(2),误操作率计算方法见式 3) s ×100% psIA IN 式中交互成功率 psIA -成功交互的次数 sIA 特定的语音交互任务次数 N1 F ×100% 3 ppIA N 式中误操作率 pFlA -交互失败(包括未在既定交互轮数内完成的交互、未完成前退出的交互、无响应的交互和 nFIA 错误的交互)的次数交互成功率与误操作率的关系见式(4). =l 9sIA十PHIA 式中: 交互成功率 ps1A 误操作率 PFA 交互成功率评价标准见表4
GB/T36464.5一2018 表4交互成功率评价标准交互成功率率评价 85% 优秀 85%且>70% 可接受 70% 不可接受针对表1和表2中的典型应用场景,交互成功率应符合下列要求场景1的交互成功率不应低于80% a b) 场景2的交互成功率不应低于75%; 场景3的交互成功率不应低于70% c 5.2.7响应时间对于特定的语音交互任务,平均响应时间用于评价车载终端智能语音交互系统的响应速度,其计算方法见式(5. Tk=/,一 5 式中响应时间 Tak 给出结果的时刻语音输人的结束时刻离线车载终端智能语音交互系统的平均响应时间不应大于2s;在线车载终端智能语音交互系统的平均响应时间不应大于5s 5.2.8语音反馈语音反馈功能包括针对不反馈结果的操作,应通过语音反馈操作结果,以确认控制是否被执行 a 示例:如车辆空调系统的开/关、循环模式、空调模式、加热/制冷、温度调节、座椅加热/通风等功能针对涉及车辆安全的操作,应通过文本二次确认 b 5.2.9语音合成车载终端智能语音交互系统应支持语音合成平均意见得分(MOs)的量化标准见表5,车载终端智能语肖交互系统语音合成的平均意见得分应不低于4.0(满分5.0) 表5主观MOS量化标准评分; 主观测听效果优秀,察觉不到任何不自然,音色接近播音员较好,仅能察觉若干不自然尚可,能察觉到不自然但可以接受,评分分界线较差,明显察觉不自然并不愿意接受极差,无法接受
GB;/T36464.5一2018 5.3扩展要求 5.3.1语音唤醒车载终端智能语音交互系统应支持命令字唤醒服务,包括自定义唤醒命令字,多唤醒命令字并以唤醒率评价车载智能语音交互系统对唤醒操作的正确响应情况,用误唤醒率评价车载智能语音交互系统误唤醒操作在单位时间内出现的频度,其中,唤醒率的计算方法见式(6),误唤醒率的计算方法见式(7). Ns ×100% 0sw= Nw 式中: 唤醒率 Psw N、成功唤醒次数; sw Nw" 次语音唤醒操作次数针对表1和表2中的典型应用场景,场景1的唤醒率应不低于92%;场景2的唤醒率应不低于 88%;场景3的唤醒率应不低于85% N fFw= 式中: 误唤醒率; Fw N 误唤醒次数; VFw T -时长针对表1和表2中的各典型应用场景,命令字唤醒的误唤醒频度不应高于0.5次/h 5.3.2语音打断应支持交互过程中的语音打断,实现交互速度与自然度的提高语音打断成功率用于评价车载智能语音交互系统对语音打断操作的正确响应情况,其计算方法见式(8 nsIK ×100% 0sI三 N IR 式中: -语音打断成功率; psIR 成功打断的次数 nsIR Nm 打断次数针对表1和表2中的典型应用场景,场景1的唤醒率应不低于92%;场景2的唤醒率应不低于 88%;场景3的唤醒率应不低于85% 语音打断误唤醒频度用于评价车载智能语音交互系统语音打断误唤醒操作在单位时间内出现的频度,其计算方法见式(9) nFIR fA= 式中: -语音打断误唤醒频度; IA -语音打断误唤次数; 川pIR T 时长
GB/T36464.5一2018 针对表1和表2中的各典型应用场景,语音打断的误唤醒频度不应高于6次/h， 5.3.3语音增强车载终端智能语音交互系统应支持噪声抑制和回声消除 5.4输入准则和输出准则 5.4.1输入准则车载终端智能语音交互系统语音输人准则包括: aa 支持汉语普通话输人,可选支持地方方言以及英语 b 可处理语速为180字/ 300字/min的语音输人,单次语音输人时长一般不超过20s; min 发音单元的持续时长不应小于0.2s,发音单元间的间隔时长不应超过0.4s;停顿时长超过 0.8s，则认为一次语音输人结束 d 对于持续时长大于0,2s且信噪比不低于10dlB(A)的语音输人,在车载环境噪声声压级不高于75dBA)的条件下,能做出有效识别; 对于文本中的部分汉字字符,包括数字、电话号码、标点符号,其朗读方法参见GB/T21023 2007中附录A 5.4.2输出准则合成音频格式及要求见GB/T34l45-2017中表1 测试方法 6 6.1测试准备 6.1.1测试语料要求测试语料应符合以下要求测试语料应从词汇量覆盖、开放业务覆盖、音节覆盖,以及常用性角度加以设计，具体要求应 a 按GB/T210232007中7.2执行; 对于命令字识别车载终端智能语音交互系统,测试语料应覆盖被测系统的所有词汇,测试语 b 料规模应不少于200句; 对于连续语音识别车载终端智能语音交互系统,测试语料应覆盖被测系统的常用词汇量,宜从音节覆盖和常用性角度挑选典型语料每种开放业务的测试语料的规模应不少于200句 6.1.2语音测试集要求语音测试集应符合以下要求测试发音人的选择应在符合系统对发音人限制的条件下,选择具有代表性和统计分布规律的 a 发音人,特别是应考虑不同性别,不同口音、不同年龄、不同语速、不同教育背景、不同发音韵律等因素; 句识别率测试应至少由男女各20名发音人进行录制;语音唤醒测试应至少由男女各30名发 b 音人进行录制;具体要求应按GB/T21023一2007中7.3执行; 环境噪声应以行车实际噪声为主(包括行车环境、车速、前车窗、空调.
GB;/T36464.5一2018 6.1.3音频采样设备及回放设备要求音频采样设备、传声器、回放设备的有关参数应符合表6,表7和表8的要求表6音频采样设备的要求设备名称参数要求可移动的声卡支持44.lkHa及以上的采样频率,16bit及以上的模数转换器和数模转换器录音软件一士10000spl 波形采样范围为土5000 smpl 计算机支持录音软件的安装和使用声压计用于环境声压确认表7传声器的参数要求符号参数测试条件最小值典型值最大值灵敏度/(dBV/P 1kHz纯音,94dBSPL 42 -39 信噪比/dB(A) kHz纯音,94dBSPIl SNR 输出阻抗/Q 400 Zmn 1kHz纯音,94dBSPI 1kHz纯音,100dBsP THD+N 总谐波失真/% 1kH&纯音,115dlBsP 10 指向性全指向性表8回放设备的要求说明设备名称参数要求计算机支持音频播放软件的安装和使用频率响应(土2.5dB):74Hz18kHz 播放器推荐无人工嘴的条件下使用最大声压级:102dBA 信噪比90dB 增益控制;0dB25dB 功率放大器和人工嘴推荐在测试环境内使用频率响应;200Hz10kHz 最大声压级;l10dBA 仿真人体根据播放器和人工嘴的尺寸和安装位置定制 6.2 测试环境 6.2.1被测语音交互系统以车载终端作为载体部署被测系统,应确保被测系统具有语音拾音功能,可通过对话方式对其进行控制和交互 6.2.2被测系统网络环境应提供被测系统所需的移动互联网服务,网络条件应满足上行带宽不低于100kbit/s、下行带宽不
GB/T36464.5一2018 低于50kbit/s,并保持稳定的连通状态 6.2.3个性化识别列表导入需导人设计语料所依赖的个性化识别列表至被测系统,如联系人列表、音乐信息列表 6.2.4语音测试回放应按6.1.2要求,回放叠加环境噪声的语音测试文件,或在回放纯净的测试语音文件的同时叠加环境噪声 6.2.5拾音距离测试所描述的拾音距离方法如下被测系统传声器布置在顶灯:40cm; a) b被测系统传声器布置在中控:70cm. 6.2.6测试场景要求采用表1中典型应用场景的真实行车的环境噪声或模拟真实行车的环境噪声,要求噪声频谱保持稳定且噪声与命令词无类似发音 6.3测试方法 6.3.1语音识别测试在表1和表2的典型应用场景下,将被测系统调至待命状态,使用播放器或人工嘴按拾音距离和回放要求播放语音测试集,记录各场景下被测系统的识别结果,计算句识别率使用以上测试方法,测试验证是否满5.2.4的要求 6.3.2语音唤醒测试语音唤醒测试包括唤醒率和误唤醒频度测试,方法如下唤醒率测试;在表1和表2的典型应用场景下,将被测系统调至待命状态,使用播放器或人工 a 嘴按回放距离和回放要求播放唤醒语音测试集,记录各场景下被测系统的成功唤醒次数,计算唤醒率; b)误唤醒频度测试;在表1和表2的典型应用场景下,将被测系统调至待命状态6h,记录各场景下被测系统的误唤醒次数,计算误唤醒频度使用以上测试方法,测试验证是否满足5.3.1的要求 6.3.3语音打断测试语音打断测试包括语音打断成功率测试和语音打断误唤醒频度测试,方法如下 a 语音打断成功率测试;在表1和表2三种的典型应用场景下,将被测系统车载终端调至语音打断待命状态,使用播放器或人工嘴按拾音距离和回放要求播放打断语音测试集,车载终端传送器的语音声压级和信噪比见表2,记录各场景下被测系统车载终端的成功打断次数,计算各场景下被测系统的语音打断成功率; b 语音打断误唤醒频度测试:在表1和表2的典型应用场景下,将被测系统调至语音打断状态待命6h,记录各场景下被测系统的误唤醒次数,计算语音打断误唤醒频度使用以上测试方法,测试验证是否满足5.3.2的要求 10
GB;/T36464.5一2018 6.3.4语音合成测试应至少由男女各5人,通过测听被测系统输出的语音流,评价其音质、可懂度和自然度等,并以 MOs分量化进行主观测评,记录平均结果使用以上测试方法,测试验证是否满足5.2.9的要求 6.3.5交互成功率测试根据上述6.3.1,6.3.2,6.3.3,6.3.4的结果对被测系统的基本交互功能进行统计分析,给出交互成功率使用以上测试方法,测试验证是否满足5.2.6的要求 6.3.6 平均响应时间测试根据以上6.3.1.6.3.2.6.3.4的测试结果对产品的基本交互时间进行统计分析,给出离线和在线网络条件下的车载终端系统交互响应时间使用以上测试方法,测试验证是否满足5.2.7的要求 6.3.7语义理解测试交互决策功能实现代表该功能存在 6.4测试结果测试报告应包括下述指标项的测试结果句识别率 a b 唤醒率; 误唤醒频度; c 语音打断成功率; d 语音打断误唤醒频度; e 语音合成平均意见得分; 离线平均响应时间; g h)在线平均响应时间; 交互成功率

车载终端GB/T36464.5-2018：信息技术智能语音交互系统第5部分

一、概述

车载终端GB/T36464.5-2018是国家标准化委员会发布的信息技术智能语音交互系统第5部分，它规定了在车辆上实现语音交互的相关要求和技术指标。

二、应用场景

车载终端GB/T36464.5-2018适用于汽车、公交车、地铁等车辆设备，在驾车过程中可以通过语音控制实现各种功能，如导航、音乐播放、电话接听和控制车辆等。

三、关键特性

车载终端GB/T36464.5-2018定义了以下关键特性：

语音识别精度高：能够在嘈杂的环境中准确识别用户的语音指令。
语音交互自然流畅：能够理解自然语言，如口语化表达、省略句式等，并给出自然的回应。
多语言支持：支持多种语言的语音交互，包括汉语、英语、日语等。
个性化定制：支持用户自定义语音指令和个性化设置。
安全可靠：在保证语音交互的同时，保障车辆驾驶安全。

四、技术要求

车载终端GB/T36464.5-2018还规定了一些技术要求，如：

语音识别准确率不低于95%。
支持离线语音识别和在线语音识别。
响应时间不超过2秒。
支持远场语音识别。

五、结论

车载终端GB/T36464.5-2018为车载设备上的语音交互提供了标准化的技术要求和规范，使得驾车过程中可以实现高精度、高效率、安全可靠的语音交互功能，提高了驾乘者的舒适性和安全性。

信息技术智能语音交互系统第5部分：车载终端的相关资料

和信息技术智能语音交互系统第5部分：车载终端类似的标准

声明： 本站所有资源均来源于互联网，本站仅作为观摩学习的环境，将不对任何资源负法律责任。如果无意侵犯了您的权利，请及时发送邮件到“abc@gbbz.net”，本站会第一时间进行改正或删除处理，保证您的权利！本站资源仅供学习和参考，请勿用于商业用途，并请于下载后24小时内删除，否则产生的一切后果将由您承担！

GB/T36464.5-2018

信息技术智能语音交互系统第5部分：车载终端

Informationtechnology—Intelligentspeechinteractionsystem—Part5：In-vehicleterminal

以图片形式预览信息技术智能语音交互系统第5部分：车载终端

信息技术智能语音交互系统第5部分：车载终端

车载终端GB/T36464.5-2018：信息技术智能语音交互系统第5部分

一、概述

二、应用场景

三、关键特性

四、技术要求

五、结论

信息技术智能语音交互系统第5部分：车载终端的相关资料

和信息技术智能语音交互系统第5部分：车载终端类似的标准

相关推荐

计算机软件文档编制规范

信息技术软件工程术语

计算机软件测试文档编制规范

计算机软件需求规格说明规范

计算机软件测试规范

标签