GB/T36464.5-2018

信息技术智能语音交互系统第5部分:车载终端

Informationtechnology—Intelligentspeechinteractionsystem—Part5:In-vehicleterminal

本文分享国家标准信息技术智能语音交互系统第5部分:车载终端的全文阅读和高清PDF的下载,信息技术智能语音交互系统第5部分:车载终端的编号:GB/T36464.5-2018。信息技术智能语音交互系统第5部分:车载终端共有14页,发布于2019-01-01
  • 中国标准分类号(CCS)L77
  • 国际标准分类号(ICS)35.240.01
  • 实施日期2019-01-01
  • 文件格式PDF
  • 文本页数14页
  • 文件大小1,008.40KB

信息技术智能语音交互系统第5部分:车载终端


国家标准 GB/36464.5一2018 信息技术智能语音交互系统 第5部分车载终端 nformationtechnology一Intelligentspeechinteractionsystem- Part5:In-vehicleterminal 2018-06-07发布 2019-01-01实施 国家市场监督管理总局 发布 币国国家标准化管理委员会国家标准
GB/T36464.5一2018 次 目 前言 范围 2 规范性引用文件 3 术语和定义 系统框架 要求 5.1概述 5.2基本要求 5.3扩展要求 5.4输人准则和输出准则 测试方法 6.1测试准备 6.2测试环境 6.3测试方法 6.4测试结果
GB;/T36464.5一2018 前 言 GB/T36464《信息技术智能语音交互系统》拟分为以下几个部分 第1部分:通用规范; 第2部分:智能家居; 第3部分:智能客服; 第4部分;移动终端; 第5部分:车载终端 本部分为GB/T36464的第5部分 本部分按照GB/T1.1一2009给出的规则起草 请注意本文件的某些内容可能涉及专利 本文件的发布机构不承担识别这些专利的责任 本部分由全国信息技术标准化技术委员会(sAc/TC28)提出并归口 本部分起草单位;第一汽车股份有限公司、科大讯飞股份有限公司、电子技术标准化研究 院、苏州思必驰信息科技有限公司、上海交通大学苏州人工智能研究院、国家工业信息安全发展研究中 心、电信集团有限公司 本标准主要起草人;陈筠翰、战伟、陈树星、李丰军、雷琴辉、程美、张晓燕、施展、钟源、王静、戴小兰、 周伟达,余凯、付万琳、张宇泽、杨震
GB;/T36464.5一2018 信息技术智能语音交互系统 第5部分:车载终端 范围 GB/T36464的本部分规范了车载终端智能语音交互系统的术语和定义、系统框架、要求和测试 方法 本部分适用于车载终端智能语音交互系统的设计、,开发,应用和维护 规范性引用文件 下列文件对于本文件的应用是必不可少的 凡是注日期的引用文件,仅注日期的版本适用于本文 件 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 GB/T210232007中文语音识别系统通用技术规范 GB/T21024中文语音合成系统通用技术规范 GB/T34083中文语音识别互联网服务接口规范 GB/T34145一2017中文语音合成互联网服务接口规范 术语和定义 GB/T21024.,GB/T34083界定的以及下列术语和定义适用于本文件 为了便于使用,以下重复列 出了GB/T21024.GB/T34083中的一些术语和定义 3.1 车载终端智能语音交互系统in-vehieleterminalntelligentspeeehinteraectonsystem 用于实现智能语音交互功能的车载终端 3.2 交互决策interactiondeecision-makin 根据客观的可能性,以已知的信息和先验知识为基础,借助一定的方法对交互目标的诸多可能情况 进行分析,计算和选优后,做出的行动决定 3.3 声源定位acousticsoureloealizatiom 对发声物体位置的判断过程 3,4 语音合成speeehsynthesis 通过机械的电子的方法合成人类语言的过程 [[GB/T21024一2007,定义3.1] 3.5 nition 命令字识别commandwordreog" -种基于语音识别语法的语音识别方式,是在语音识别语法规则限定的范围内,对于给定的语音输
GB/T36464.5一2018 人,语音识别引擎给出语音识别语法覆盖范围内的文本或拒识做为识别结果 [(GB/T340832017,定义3.3 3.6 连续语音识别 cntinousspeechrecgnitionm 识别任意的连续语音,并给出相对应的文本 注:连续语音识别不限制用户说话的词汇、内容和方式,用户可以以任意说的形式输人语音 [GB/T34083一2017,定义3.4] 3.7 语音唤醒speeehwakeup;voicetrigger 处于音频流监听状态的语音交互系统,在检测到特定的特征或事件出现后,切换到命令字识别连 续语音识别等其他处理状态的过程 3.8 唤醒命令字wakeupcommandwordi 用于唤醒处于关键字识别状态的语音交互系统所用的结构化关键字集 3.9 误唤醒ftalse" wakeup 语音唤醒过程中出现的,无音频流或者音频流中没有出现唤醒所需的特征或事件时,语音唤醒系统 被唤醒的现象 3.10 语音打断speeehinterruption 语音交互系统在播放声音的过程中,当语音采集设备检测到有效语音输人时,中断播放声音,转到 语音识别等其他处理过程 系统框架 车载终端智能语音交互系统可分为前端处理模块和语音处理模块,其中 前端处理模块包括音频降噪模块,语音唤醒模块、声源定位模块,负责将语音输人转化成语音 a 流,作为语音处理模块的输人; b 语音处理模块包括语音识别模块,语义理解模块、交互决策模块和语音合成模块 语音识别 模块将语音流转换为人类可识别的文本信息直接输出到相关的应用,或转换为计算机可识别 的文本信息输出到语义理解模块 语义理解模块负责对语音识别模块提供的文本信息做语义 解析 交互决策模块负责根据语义理解模块的语义解析结果做出交互决策,依此向相关应用 下达控制指令并获取反馈信息 语音合成模块负责将交互决策模块或应用提供的计算机可识 别的文本信息转换为语音流输出 语音处理模块中的各子模块可选择在本地、云端或融合 实现 车载终端智能语音交互系统的逻辑结构,如图1所示
GB;/T36464.5一2018 语音合成模块 交互决策模块 应用 语音处理模块 语义理解模块 语音识别模块 声源定位模块 前端处理模块 语音唤醒模块 音频降噪模块 语音 说明 前端处理模块获得输人的语音; 音频降噪模块向语音唤醒模块输出语音流; 包 -语音唤模块向声源定位模块输出语音唤醒结果; 语音唤醒模块直接输出唤醒结果; 前端处理模块向语音识别模块输出语音流; 语音识别模块向应用输出文本信息, 语音识别模块直接输出文本信息 语音识别模块向语义理解模块输出文本信息; 语义理解模块向交互决策模块输出语音解析结果; 交互决策模块向应用输出交互决策 应用向交互决策模块输出反馈信息 应用向语音合成模块输出文本信息 交互决策模块向语音合成模块输出文本信息 Q3 印 语音合成模块输出语音流 图1车载终端智能语音交互系统的逻辑结构 5 要求 5.1概述 车载终端智能语音交互系统的功能集包括基本要求和扩展要求 基本要求是应具备的功能扩展
GB/T36464.5一2018 要求是宜具备的功能 车载终端智能语音交互系统供应商可在本功能集的基础上扩展其他功能 此 外,车载终端智能语音交互系统应满足相应的输人准则和输出准则 5.2基本要求 5.2.1控制对象 可通过智能语音交互实现对车辆电气设备或车辆的控制 例如:收音机操作、音视频播放器操作、 蓝牙电话操作、导航软件操作,空调系统控制,座椅调节、后视镜控制等 5.2.2噪声环境的适应性 车载终端智能语音交互系统应确保在表1和表2共同规范的典型应用场景中的可用性 表1典型噪声环境 传声器处的环境噪声声压级 车速 场景编号 行车环境 前车窗 空调 备注 km/h dB(A 45~50 场景1 安静 必选 场景2 闹市 40~6o 低档 50~65 必选 场景3 高速 60~120 中档 65~75 必选 典型噪声环境下的语音输入要求 表2 传声器处的语音声压级 信噪比 场景编号 dB(A dB 场景1 5070 -25 55~70 15~25 场景2 场景3 6070 0l5 5.2.3拾音距离 拾音设备与声源距离应为40em(顶灯)和70em(中控) 5.2.4语音识别 车载终端智能语音交互系统应支持命令字识别和连续语音识别,并以句识别率评价车载终端智能 语音交互系统对连续语音的正确识别情况,句识别率计算方法见式(1),句识别率评价标准见表3 nsR ×100% 0sR 式中 句识别率 psR 车载终端智能语音交互系统正确识别的句数 川sR 标注总句数 '
GB;/T36464.5一2018 表3句识别率评价标准 句识别率 评价 85% 优秀 <85%且>70% 可接受 <70% 不可接受 针对表1和表2中的典型应用场景,句识别率应符合下列要求 场景1的句识别率不应低于85%; 5 场景2的句识别率不应低于80%; 场景3的句识别率不应低于75% 5.2.5 语义理解 车载终端智能语音交互系统应支持语义抽取、模糊识别语义排序 5.2.6交互成功率 车载终端智能语音交互系统应支持车载终端的控制指令,全面覆盖日常生活中交互行为的语义意 图理解 交互成功率用于评价车载终端智能语音交互系统对语音交互任务的正确响应情况,交互任务包括 语音识别语音唤醒、语音打断,语音合成 若车载终端智能语音交互系统在既定的交互轮数内完成了语音交互任务,则此次语音交互成功,并 以交互成功率或误操作率作为评价指标,其中,交互成功率计算方法见式(2),误操作率计算方法见式 3) s ×100% psIA IN 式中 交互成功率 psIA -成功交互的次数 sIA 特定的语音交互任务次数 N1 F ×100% 3 ppIA N 式中 误操作率 pFlA -交互失败(包括未在既定交互轮数内完成的交互、未完成前退出的交互、无响应的交互和 nFIA 错误的交互)的次数 交互成功率与误操作率的关系见式(4). =l 9sIA十PHIA 式中: 交互成功率 ps1A 误操作率 PFA 交互成功率评价标准见表4
GB/T36464.5一2018 表4交互成功率评价标准 交互成功率率 评价 85% 优秀 85%且>70% 可接受 70% 不可接受 针对表1和表2中的典型应用场景,交互成功率应符合下列要求 场景1的交互成功率不应低于80% a b) 场景2的交互成功率不应低于75%; 场景3的交互成功率不应低于70% c 5.2.7响应时间 对于特定的语音交互任务,平均响应时间用于评价车载终端智能语音交互系统的响应速度,其计算 方法见式(5. Tk=/,一 5 式中 响应时间 Tak 给出结果的时刻 语音输人的结束时刻 离线车载终端智能语音交互系统的平均响应时间不应大于2s;在线车载终端智能语音交互系统的 平均响应时间不应大于5s 5.2.8语音反馈 语音反馈功能包括 针对不反馈结果的操作,应通过语音反馈操作结果,以确认控制是否被执行 a 示例:如车辆空调系统的开/关、循环模式、空调模式、加热/制冷、温度调节、座椅加热/通风等功能 针对涉及车辆安全的操作,应通过文本二次确认 b 5.2.9语音合成 车载终端智能语音交互系统应支持语音合成 平均意见得分(MOs)的量化标准见表5,车载终端智能语肖交互系统语音合成的平均意见得分应 不低于4.0(满分5.0) 表5主观MOS量化标准 评分; 主观测听效果 优秀,察觉不到任何不自然,音色接近播音员 较好,仅能察觉若干不自然 尚可,能察觉到不自然但可以接受,评分分界线 较差,明显察觉不自然并不愿意接受 极差,无法接受
GB;/T36464.5一2018 5.3扩展要求 5.3.1语音唤醒 车载终端智能语音交互系统应支持命令字唤醒服务,包括自定义唤醒命令字,多唤醒命令字 并以 唤醒率评价车载智能语音交互系统对唤醒操作的正确响应情况,用误唤醒率评价车载智能语音交互系 统误唤醒操作在单位时间内出现的频度,其中,唤醒率的计算方法见式(6),误唤醒率的计算方法见 式(7). Ns ×100% 0sw= Nw 式中: 唤醒率 Psw N、 成功唤醒次数; sw Nw" 次语音唤醒操作次数 针对表1和表2中的典型应用场景,场景1的唤醒率应不低于92%;场景2的唤醒率应不低于 88%;场景3的唤醒率应不低于85% N fFw= 式中: 误唤醒率; Fw N 误唤醒次数; VFw T -时长 针对表1和表2中的各典型应用场景,命令字唤醒的误唤醒频度不应高于0.5次/h 5.3.2语音打断 应支持交互过程中的语音打断,实现交互速度与自然度的提高 语音打断成功率用于评价车载智能语音交互系统对语音打断操作的正确响应情况,其计算方法见 式(8 nsIK ×100% 0sI三 N IR 式中: -语音打断成功率; psIR 成功打断的次数 nsIR Nm 打断次数 针对表1和表2中的典型应用场景,场景1的唤醒率应不低于92%;场景2的唤醒率应不低于 88%;场景3的唤醒率应不低于85% 语音打断误唤醒频度用于评价车载智能语音交互系统语音打断误唤醒操作在单位时间内出现的频 度,其计算方法见式(9) nFIR fA= 式中: -语音打断误唤醒频度; IA -语音打断误唤次数; 川pIR T 时长
GB/T36464.5一2018 针对表1和表2中的各典型应用场景,语音打断的误唤醒频度不应高于6次/h, 5.3.3语音增强 车载终端智能语音交互系统应支持噪声抑制和回声消除 5.4输入准则和输出准则 5.4.1输入准则 车载终端智能语音交互系统语音输人准则包括: aa 支持汉语普通话输人,可选支持地方方言以及英语 b 可处理语速为180字/ 300字/min的语音输人,单次语音输人时长一般不超过20s; min 发音单元的持续时长不应小于0.2s,发音单元间的间隔时长不应超过0.4s;停顿时长超过 0.8s,则认为一次语音输人结束 d 对于持续时长大于0,2s且信噪比不低于10dlB(A)的语音输人,在车载环境噪声声压级不高 于75dBA)的条件下,能做出有效识别; 对于文本中的部分汉字字符,包括数字、电话号码、标点符号,其朗读方法参见GB/T21023 2007中附录A 5.4.2输出准则 合成音频格式及要求见GB/T34l45-2017中表1 测试方法 6 6.1测试准备 6.1.1测试语料要求 测试语料应符合以下要求 测试语料应从词汇量覆盖、开放业务覆盖、音节覆盖,以及常用性角度加以设计,具体要求应 a 按GB/T210232007中7.2执行; 对于命令字识别车载终端智能语音交互系统,测试语料应覆盖被测系统的所有词汇,测试语 b 料规模应不少于200句; 对于连续语音识别车载终端智能语音交互系统,测试语料应覆盖被测系统的常用词汇量,宜从 音节覆盖和常用性角度挑选典型语料 每种开放业务的测试语料的规模应不少于200句 6.1.2语音测试集要求 语音测试集应符合以下要求 测试发音人的选择应在符合系统对发音人限制的条件下,选择具有代表性和统计分布规律的 a 发音人,特别是应考虑不同性别,不同口音、不同年龄、不同语速、不同教育背景、不同发音韵律 等因素; 句识别率测试应至少由男女各20名发音人进行录制;语音唤醒测试应至少由男女各30名发 b 音人进行录制;具体要求应按GB/T21023一2007中7.3执行; 环境噪声应以行车实际噪声为主(包括行车环境、车速、前车窗、空调.
GB;/T36464.5一2018 6.1.3音频采样设备及回放设备要求 音频采样设备、传声器、回放设备的有关参数应符合表6,表7和表8的要求 表6音频采样设备的要求 设备名称 参数要求 可移动的声卡 支持44.lkHa及以上的采样频率,16bit及以上的模数转换器和数模转换器 录音软件 一士10000spl 波形采样范围为土5000 smpl 计算机 支持录音软件的安装和使用 声压计 用于环境声压确认 表7传声器的参数要求 符号 参数 测试条件 最小值 典型值 最大值 灵敏度/(dBV/P 1kHz纯音,94dBSPL 42 -39 信噪比/dB(A) kHz纯音,94dBSPIl SNR 输出阻抗/Q 400 Zmn 1kHz纯音,94dBSPI 1kHz纯音,100dBsP THD+N 总谐波失真/% 1kH&纯音,115dlBsP 10 指向性 全指向性 表8回放设备的要求 说明 设备名称 参数要求 计算机 支持音频播放软件的安装和使用 频率响应(土2.5dB):74Hz18kHz 播放器 推荐无人工嘴的条件下使用 最大声压级:102dBA 信噪比90dB 增益控制;0dB25dB 功率放大器和人工嘴 推荐在测试环境内使用 频率响应;200Hz10kHz 最大声压级;l10dBA 仿真人体 根据播放器和人工嘴的尺寸和安装位置定制 6.2 测试环境 6.2.1被测语音交互系统 以车载终端作为载体部署被测系统,应确保被测系统具有语音拾音功能,可通过对话方式对其进行 控制和交互 6.2.2被测系统网络环境 应提供被测系统所需的移动互联网服务,网络条件应满足上行带宽不低于100kbit/s、下行带宽不
GB/T36464.5一2018 低于50kbit/s,并保持稳定的连通状态 6.2.3个性化识别列表导入 需导人设计语料所依赖的个性化识别列表至被测系统,如联系人列表、音乐信息列表 6.2.4语音测试回放 应按6.1.2要求,回放叠加环境噪声的语音测试文件,或在回放纯净的测试语音文件的同时叠加环 境噪声 6.2.5拾音距离 测试所描述的拾音距离方法如下 被测系统传声器布置在顶灯:40cm; a) b被测系统传声器布置在中控:70cm. 6.2.6测试场景要求 采用表1中典型应用场景的真实行车的环境噪声或模拟真实行车的环境噪声,要求噪声频谱保持 稳定且噪声与命令词无类似发音 6.3测试方法 6.3.1语音识别测试 在表1和表2的典型应用场景下,将被测系统调至待命状态,使用播放器或人工嘴按拾音距离和回 放要求播放语音测试集,记录各场景下被测系统的识别结果,计算句识别率 使用以上测试方法,测试验证是否满5.2.4的要求 6.3.2语音唤醒测试 语音唤醒测试包括唤醒率和误唤醒频度测试,方法如下 唤醒率测试;在表1和表2的典型应用场景下,将被测系统调至待命状态,使用播放器或人工 a 嘴按回放距离和回放要求播放唤醒语音测试集,记录各场景下被测系统的成功唤醒次数,计算 唤醒率; b)误唤醒频度测试;在表1和表2的典型应用场景下,将被测系统调至待命状态6h,记录各场景 下被测系统的误唤醒次数,计算误唤醒频度 使用以上测试方法,测试验证是否满足5.3.1的要求 6.3.3语音打断测试 语音打断测试包括语音打断成功率测试和语音打断误唤醒频度测试,方法如下 a 语音打断成功率测试;在表1和表2三种的典型应用场景下,将被测系统车载终端调至语音打 断待命状态,使用播放器或人工嘴按拾音距离和回放要求播放打断语音测试集,车载终端传送 器的语音声压级和信噪比见表2,记录各场景下被测系统车载终端的成功打断次数,计算各场 景下被测系统的语音打断成功率; b 语音打断误唤醒频度测试:在表1和表2的典型应用场景下,将被测系统调至语音打断状态待 命6h,记录各场景下被测系统的误唤醒次数,计算语音打断误唤醒频度 使用以上测试方法,测试验证是否满足5.3.2的要求 10
GB;/T36464.5一2018 6.3.4语音合成测试 应至少由男女各5人,通过测听被测系统输出的语音流,评价其音质、可懂度和自然度等,并以 MOs分量化进行主观测评,记录平均结果 使用以上测试方法,测试验证是否满足5.2.9的要求 6.3.5交互成功率测试 根据上述6.3.1,6.3.2,6.3.3,6.3.4的结果对被测系统的基本交互功能进行统计分析,给出交互成 功率 使用以上测试方法,测试验证是否满足5.2.6的要求 6.3.6 平均响应时间测试 根据以上6.3.1.6.3.2.6.3.4的测试结果对产品的基本交互时间进行统计分析,给出离线和在线网 络条件下的车载终端系统交互响应时间 使用以上测试方法,测试验证是否满足5.2.7的要求 6.3.7语义理解测试 交互决策功能实现代表该功能存在 6.4测试结果 测试报告应包括下述指标项的测试结果 句识别率 a b 唤醒率; 误唤醒频度; c 语音打断成功率; d 语音打断误唤醒频度; e 语音合成平均意见得分; 离线平均响应时间; g h)在线平均响应时间; 交互成功率

车载终端GB/T36464.5-2018:信息技术智能语音交互系统第5部分

一、概述

车载终端GB/T36464.5-2018是国家标准化委员会发布的信息技术智能语音交互系统第5部分,它规定了在车辆上实现语音交互的相关要求和技术指标。

二、应用场景

车载终端GB/T36464.5-2018适用于汽车、公交车、地铁等车辆设备,在驾车过程中可以通过语音控制实现各种功能,如导航、音乐播放、电话接听和控制车辆等。

三、关键特性

车载终端GB/T36464.5-2018定义了以下关键特性:

  • 语音识别精度高:能够在嘈杂的环境中准确识别用户的语音指令。
  • 语音交互自然流畅:能够理解自然语言,如口语化表达、省略句式等,并给出自然的回应。
  • 多语言支持:支持多种语言的语音交互,包括汉语、英语、日语等。
  • 个性化定制:支持用户自定义语音指令和个性化设置。
  • 安全可靠:在保证语音交互的同时,保障车辆驾驶安全。

四、技术要求

车载终端GB/T36464.5-2018还规定了一些技术要求,如:

  • 语音识别准确率不低于95%。
  • 支持离线语音识别和在线语音识别。
  • 响应时间不超过2秒。
  • 支持远场语音识别。

五、结论

车载终端GB/T36464.5-2018为车载设备上的语音交互提供了标准化的技术要求和规范,使得驾车过程中可以实现高精度、高效率、安全可靠的语音交互功能,提高了驾乘者的舒适性和安全性。

信息技术智能语音交互系统第5部分:车载终端的相关资料

    和信息技术智能语音交互系统第5部分:车载终端类似的标准

    信息技术智能语音交互系统第4部分:移动终端
    上一篇 本文分享国家标准信息技术智能语音交互系统第4部分:移动终端的全文阅读和高清PDF的下载,信息技术智能语音交互系统第4部分:移动终端的编号:GB/T36464.4-2018。信息技术智能语音交互系统第4部分:移动终端共有16页,发布于2019-01-01
    网络终端操作系统总体技术要求
    本文分享国家标准网络终端操作系统总体技术要求的全文阅读和高清PDF的下载,网络终端操作系统总体技术要求的编号:GB/T36465-2018。网络终端操作系统总体技术要求共有8页,发布于2019-01-01 下一篇
    相关推荐