GB/T36464.2-2018

信息技术智能语音交互系统第2部分:智能家居

Informationtechnology—Intelligentspeechinteractionsystem—Part2:Intelligenthomeappliances

本文分享国家标准信息技术智能语音交互系统第2部分:智能家居的全文阅读和高清PDF的下载,信息技术智能语音交互系统第2部分:智能家居的编号:GB/T36464.2-2018。信息技术智能语音交互系统第2部分:智能家居共有14页,发布于2019-01-01
  • 中国标准分类号(CCS)L77
  • 国际标准分类号(ICS)35.240.01
  • 实施日期2019-01-01
  • 文件格式PDF
  • 文本页数14页
  • 文件大小934.46KB

信息技术智能语音交互系统第2部分:智能家居


国家标准 GB/36464.2一2018 信息技术智能语音交互系统 第2部分:智能家居 nformationteehnology一Inteligenspeechinteraetionsystemr Part2:Intel山igenthomeapplianees 2018-06-07发布 2019-01-01实施 国家市场监督管理总局 发布 币国国家标准化管理委员会国家标准
GB/T36464.2一2018 目 次 前言 范围 2 规范性引用文件 3 术语和定义 系统框架 要求 5.1概述 5.2基本要求 5.3扩展要求 5.!输人准则和输出准则 测试方法 6.1测试准备 6.2测试环境 10 6.3测试方法 6.4测试结果
GB;/T36464.2一2018 前 言 GB/T36464《信息技术智能语音交互系统拟分为以下几个部分 第1部分:通用规范; 第2部分:智能家居; 第3部分:智能客服; 第4部分;移动终端; 第5部分:车载终端 本部分为GB/T36464的第2部分 本部分按照GB/T1.1一2009给出的规则起草 请注意本文件的某些内容可能涉及专利 本文件的发布机构不承担识别这些专利的责任 本部分由全国信息技术标准化技术委员会(sAc/TC28)提出并归口 本部分起草单位;科大讯飞股份有限公司、电子技术标准化研究院、电信集团有限公司 一汽车股份有限公司、盲人协会、盲人出版社、合肥淘云科技有限公司 第- 本部分主要起草人胡修文、刘庆峰、胡国平,严峻,于继栋、徐进、李洪亮、张陈、刘聪、王静、戴小兰 杨震、陈笃翰
GB;/T36464.2一2018 信息技术智能语音交互系统 第2部分智能家居 范围 GB/T36464的本部分规定了智能家居语音交互系统的术语和定义、系统框架、要求和测试方法 本部分适用于智能家居语音交互系统的设计、开发、应用和维护 注智能交互系统具备对其他非语音形式的输人的支持,如触摸,手势等,以作为对人机智能交互形式的补充 规范性引用文件 下列文件对于本文件的应用是必不可少的 凡是注日期的引用文件,仅注日期的版本适用于本文 件 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 中文语音识别系统通用技术规范 GB/T210232007 GB/T21024中文语音合成系统通用技术规范 GB/T34083中文语音识别互联网服务接口规范 GB/T341452017中文语音合成互联网服务接口规范 SJ/T11380自动声纹识别(说话人识别)技术规范 术语和定义 GB/T21023、GB/T21024、GB/T34083、s/T11380界定的以及下列术语和定义适用于本文件 为了便于使用,以下重复列出了GB/T21023,GB/T21024,GB/T34083,s/T11380中的一些术语和 定义 3.1 语音交互speeehinteraetionm 人类和功能单元之间通过语音进行的信息传递和交流活动 3.2 语音交互系统speeehinteraetionsystem 由功能单元(或其组合、数据资源等组成的能够实现与人类之间进行语音交互的系统 3.3 在线online 处于跟互联网相连接的状态 离线oftline 处于跟互联网连接断开的状态
GB/T36464.2一2018 3.5 语音识别speeehrecognition 将人类的声音信号转化为文字或者指令的过程 [GB/T21023一2007,定义3.1] 3.6 语音合成speeehsynthesis 通过机械的、电子的方法合成人类语言的过程 [GB/T21024一2007,定义3.1] 3.7 命令字识别eommandwordreeognitionm --种基于语音识别语法的语音识别方式,是在语音识别语法规则限定的范围内,对于给定的语音输 人,语音识别引擎给出语音识别语法覆盖范围内的文本或拒识做为识别结果 [[GB/T34083-2017,定义3.3] 3.8 连续语音识别 continuousspeechrecognition 识别任意的连续语音,并给出相对应的文本 注:连续语音识别不限制用户说话的词汇,内容和方式,用户可以以任意说的形式输人语音 [GB/T34083一2017,定义3.打] 3.9 声纹voiceprint 对语音中所蕴含的、能表征和标识说话人的语音特征,以及基于这些特征(参数)所建立的语音模型 的总称 [s]/T113802008,定义3.1.1] 3.10 声纹特征voiceprintfeature 从说话人的语音中所提取出来的,可以表征该说话人语音的个性特征的参数 [SJ/T11380-2008,定义3.1.2] 3.11 声纹识别voiceprintrecognition;VPR 根据待识别语音的声纹特征识别该段语音所对应的说话人的过程 [[SJ/T11380-2008,定义3.1.67 3.12 错误拒绝率falserejeectionrate 声纹识别测试)过程中错误拒绝的数目占测试集合中应被接受的测试数目的百分率 3.13 语音唤醒speechwakeup;voicetrigger 处于音频流监听状态的语音交互系统,在检测到特定的特征或事件出现后,切换到命令字识别,连 续语音识别等其他处理状态的过程 3.14 误唤醒falsewakeup 语音唤醒过程中出现的,无音频流或者音频流中没有出现唤醒所需的特征或事件时,语音唤醒系统
GB;/T36464.2一2018 被唤醒的现象 3.15 传声器阵列microphonearray 由具有确定空间拓扑结构的多个传声器组成的,对信号的空间特性进行采样并滤波的系统 3.16 噪声noise 语音采集过程中,采集到的由非目标语音信号源发出的,能干扰、影响对目标语音信号的识别、理解 或处理的声学信号 3.17 混响reverberation 声源发音停止后声音继续存在的声学现象 注,其产生原因在于声波的传播需要被墙壁或周围障碍物所阻碍并反射,其消失也就滞后于发声 3.18 语音打断speeehinterruptonm 语音交互系统在播放声音的过程中,当语音采集设备检测到有效语音输人时,中断播放声音,转到 语音识别等其他处理过程 3.19 智能家居intel山igenthomeappliances 以住宅为平台安装有智能家居系统的居住环境,包括智能主机、设备节点,通信技术和软件应用等 在内的一整套系统 3.20 交互决策interaectondeeisio-making 根据客观的可能性,以已知的信息和先验知识为基础,借助一定的方法对交互目标的诸多可能情况 进行分析、计算和选优后,做出的行动决定 3.21 近场nearfield 拾音设备与声源距离在1m(含)之内 3.22 远场ftarfied 拾音设备与声源距离在1m之外 3.23 近场拾音nearfiedpiek-up 拾音设备与声源距离在1m(含)之内进行录音 3.24 远场拾音farfieldpiek-p 拾音设备与声源距离在1m之外进行录音 3.25 回声消除acousticeehocancelling 透过音波干扰方式消除传声器与喇叭因空气产生回受路径而产生的杂音 3.26 opinn 平均意见得分 mean sc0re 语音质量的一种主观度量
GB/T36464.2一2018 系统框架 智能家居语音交互系统分为前端语音处理模块,语音处理模块和应用处理模块,其中 前端语音处理模块包括音频降噪模块、语音唤醒模块、声纹识别模块,负责将语音输人转化为 a 语音流,作为语音处理模块的输人 其中,音频降噪模块负责对拾音器拾取到的音频进行降 噪、去混响回声消除等处理 b 语音处理模块包括语音识别模块、语义理解模块、交互决策模块和语音合成模块 其中 语音识别模块负责将语音流转换为人类可识别的文本信息并直接输出到相关的应用模 块,或转换为计算机可识别的文本信息并输出到语义理解模块; 22 语义理解模块负责对语音识别模块提供的文本信息做语义解析 3 交互决策模块负责根据语义理解模块的语义解析结果,结合其他模态输人(手势或其他辅 助信息)做出交互决策,并依此向相关应用模块下达控制指令并获取反馈信息; 语音合成模块负责将交互决策模块或应用模块提供的计算机可识别的文本信息转换为语 音流输出 语音处理模块中的各子模块可选择在本地、云糊或胜合实现 5 应用处理模块包含指令转换模块和家居应用 其中,指令转换模块负责把交互决策模块获得 的用户意图转换成家居硬件设备支持的命令 家居应用负责实际控制家电设备并给出响应 信息 智能家居语音交互系统逻辑结构见图1
GB;/T36464.2一2018 家居应用 指令转换模块 语义理解模块 交互决策模块 语音合成模块 语音识别模块 声纹识别模块 手势 其他辅助信息 合成音频 语音唤醒模块 音频降噪模块 语音 说明: 前端语音处理模块获得输人的语音" 语音处理模块获得经过前端语音处理模块处理的音频数据 语音识别模块将由语音识别出来的文本传递给语义理解模块; 语义理解模块将解析出的语义传递给交互决策模块; 交互决策模块获得手势输人 王决策模块获得其他辅助信息 交互决策模块将决策信息传递给指令转换模块; 指令转换模块将指令传递给家居应用 家居应用将指令执行的响应信息反馈给指令转换模块 指令转换模块将家居应用的响应信息传递给交互决策模块; 交互决策模块将由反馈信息生成的合成文本传递给语音合成模块; -语音合成模块向系统调用者输出合成音频, 图1智能家居语音交互系统的逻辑结构
GB/T36464.2一2018 5 要求 5.1概述 智能家居语音交互系统的功能集包括输人,智能决策阶段中的基本能力要求和扩展能力要求 基 本要求是应具备的功能,扩展要求是宜具备的功能 智能家居语音交互系统服务提供商可在本功能集 的基础上扩展其他功能 5.2基本要求 5.2.1语音采集 通过传声器或传声器阵列等具备语音采集能力的硬件设备对语音进行采集 智能家居语音交互系 统的语音采集应支持远场语音采集,可支持近场语音采集 5.2.2语音识别 语音识别基本要求包括: 识别引擎应支持远场音频处理,可支持近场音频处理 应支持命令字识别,连续语音识别中的 a 一种 b) 在低噪家居环境(声音强度在50dB以下)中,语音识别句识别正确率应大于或等于85% 在高噪家居环境(声音强度在60dB65dB)中,语音识别句识别正确率应大于或等于80% c 5.2.3语音合成 应支持汉语普通话,宜支持英语以及粤语或其他方言,宜支持多音色合成和个性化合成 主要要求 包括 多音色,应支持青年女声和青年男声; a 多方言,应支持汉语普通话; b 混合语种,应支持中英文混读; c 多语种,应支持英语; d 平均意见得分,应大于或等于4.0(满分5.0) 5.2.4交互决策 应支持智能家居的控制指令,全面覆盖日常生活的交互行为的语义意图理解 不同的个性化数据 应可导致不同的智能决策结果 5.2.5交互成功率 智能家居语音交互系统的交互过程中,交互目的能够在既定交互轮次内完成,即可判定为本轮交互 成功反之则判定为本轮交互失败 交互成功率的计算方法见式(1 Ps ,×100% s干F 式中 P 交互成功率; 交互成功的次数;
GB;/T36464.2一2018 -交互失败的次数 在低噪家居环境中,交互成功率应大于或等于80% 在高噪家居环境中,交互成功率应大于或等于75% 5.2.6响应时间 平均响应时间应小于或等于2s 其中,响应时间的计算方法见式(2) T'nk=t,一t 式中 Tm 响应时间; 给出结果时刻; 语音输人结束的时刻 注如语音交互系统支持识别结果分多次返回为第一部分识别结果返回的时刻 5.3扩展要求 5.3.1触控 应支持通过触摸实体或虚拟控制键,实现对设备的控制 5.3.2手势识别 应支持通过理解静态手势,动态手势,实现对设备的控制 5.3.3语音唤醒 应在家庭嘈杂环境下可用,其要求包括 在低噪家居环境中,唤醒成功率应大于或等于80%,误唤醒频度应小于或等于0.2次/h; a b)在高噪家居环境中,唤醒成功率应大于或等于65%,误唤醒频度应小于或等于0.1次/Ah 5.3.4声纹识 应可根据声纹识别的结果,实现对不同身份用户的差异化反馈,如:系统访问权限、系统响应内 容等 声纹识别错误拒绝率应小于或等于10%,错误接受率应小于或等于5% 5.3.5语音打断 应支持交互过程中的语音打断,实现交互速度与自然度的提高 在语音交互过程中,语音打断成功率的计算方法见式(3) P ×100% N 式中: 语音打断成功率; P 交互内容中需要执行打断操作的次数; N N 被语音交互系统正确响应的次数 5.3.6指令转换 应支持将用户意图转换成家电设备支持的控制命令,实现对设备的控制
GB/T36464.2一2018 5.4输入准则和输出准则 5.4.1输入准则 智能家居语音交互系统语音输人准则包括 应支持汉语普通话输人,宜支持英语; a b 可处理语音输人为180字/min300字/min的语速,单次语音输人时长不应超过30s,特殊 情况下不超过60s; 发音单元的持续时间不应小于0.2s,发音单元间的间隔不应超过2s;停顿时间超过2s,则认 为一次语音输人结束; d 对于持续时间大于0.2s的语音输人,在小于60dB的家居环境信噪比不低于10dB的背景环 境条件下,应符合5.2.2,5.2.5中对于识别率和交互成功率的要求 对于文本中的分汉字字符,包括数字、电话号码、标点符号,其朗读方法见GB/T210232007 中附录A 5.4.2输出准则 合成音频格式及要求见GB/T341452017中6,l 6 测试方法 6.1测试准备 6.1.1测试语料要求 测试语料应覆盖被测智能家居的核心词汇,并从待测智能家居词汇量覆盖、业务覆盖、音节覆盖,以 及常用性角度进行设计,具体要求参照GB/T21023一2007中7.2执行 6.1.2语音测试集要求 语音测试集应符合以下要求 句识别率测试应至少由男女各20名发音人进行录制,语音唤醒功能测试应至少由50名发音 a 人进行录制,声纹识别测试应至少由50名发音人进行录制,具体要求参照GB/T210232007 中7.3执行; b 环境噪音集录制以家居环境实际噪声为主(包括客厅、卧室、厨房环境噪声) 6.1.3音频采样设备及回放设备要求 音频采样设备、传声器、回放设备的有关参数应符合表1、表2和表3的要求 表1音频采样设备要求 设备名称 参数要求 支持44.lkH2及以上的采样频率,16bit及以上的模数转换器和数模转换器 可移动的声卡 被形采样范围为士5000smpl士10000smpl 录音软件 计算机 应支持录音软件的安装和使用 声压计 可用于环境声压确认
GB;/T36464.2一2018 表2传声器的参数要求 符号 参数 测试条件 最小值 典型值 最大值 单位 灵敏度 一45 42 一39 dBV/P 1kHz纯音,94dBSP1 SNR dB(A 信噪比 lkHz纯音,94dBsPL 59 400 Z 输出阻抗 lkHz纯音,94dBsP Q kHz纯音,100dBSPI % THD+N 总谐波失真 lkHz纯音,ll5dBSPIL. 10 % 反向衰减>15dB,最佳接受范 围为母线同咪头在传声器拾音 指向性 方向中垂线呈60"夹角的圆锥面 内部 表3回放设备要求 设备名称 参数要求 说明 计算机 支持音频插放软件的安装和使用 频率响应(土2.5dB):;74Hz~18kHz 播放器 推荐无人工嘴的条件下使用 dB(A 最大声压级l02 信噪比:90dB 功率放大器和人增益控制;0dB~25dB 推荐在测试环境内使用 频率响应:200Hz一10kH 工嘴 最大声压级:110dB(A 仿真人体 根据音箱和人工嘴的尺寸和安装位置定制 6.2测试环境 6.2.1被测语音交互系统 部署被测语音交互系统,包括智能家居设备,应确保被测系统具有语音拾音功能,可通过对话方式 对其进行控制和交互 6.2.2被测系统网络环境 针对智能家居语音交互系统,应提供其所需的移动互联网服务,网络条件应满足上行带宽不低于 100kbit/s、下行带宽不低于50kbit/s,应保持稳定的连通状态 6.2.3远场拾音距离要求 测试所描述远场拾音距离默认为3" m 6.2.4语音测试集 应按6.1.2要求,在家居环境场景下回放得到的测试语音文件和其对应的语料,作为语音测试集
GB/T36464.2一2018 6.2.5测试场景要求 测试场景采用真实家居环境噪声或模拟家居的环境噪声,分为低噪环境和高噪环境,要求噪音频谱 保持稳定且噪音与命令词无类似发音,具体见表4 表4典型的环境噪声的录音场景 传声器处的环境 传声器处的环境 场景 家居 房间 电视 抽油烟机 空调 信噪比 噪声声压级 备注 混响要求 编号 环境 门窗 可选 可选 可选 dB dB(A 15 低噪 二45 必备 场景1 混响时间0.65 关 关 开 开 10 场景2 高噪 开 开 混响时间0.65 45~60 可选 6.3测试方法 6.3.1语音识别测试 在表4测试环境场景下,将智能家居调至待命状态,在远场距离使用回放设备播放语音识别测试语 料,当智能家居传声器的语音声压级为55dB(A)时,记录低噪环境SNR=15dB)及高噪环境(SNR= 10dBB)下智能家居的识别结果,并与预期结果进行比对,统计结果并给出句识别率 使用以上测试方法,测试验证是否满足5.2.2的要求 6.3.2回音消除 使用同一首歌曲,分别用待测设备播放和非待测设备播放,对比两种情况下的唤醒率信噪 比=0dB),若待测设备播放情况下唤醒率高于非待测设备播放,说明回声消除生效 使用以上测试方法,测试验证是否满足5.3.3的要求 6.3.3语音唤醒测试 语音唤醒测试包括唤醒正确率和误唤醒频度测试,方法如下 唤醒测试;在表4测试环境场景下,将智能家居调至待命状态,使用回放设备在远场距离播放 a 唤醒测试语料,当智能家居传声器的语音声压级为55dB(A)时,记录低噪环境(sNR=20dB) 及高噪环境(sNR=一15dB)下智能家居是否给出正确响应,分别统计低噪环境和高噪环境下 智能家居唤醒正确率 误唤醒频度测试;在表4测试环境场景下,将智能家居调至待命状态6h,记录低噪环境及高噪 b 环境下智能家居被误唤醒频度 使用以上测试方法,测试验证是否满足5.3.3的要求 6.3.4声纹识别测试 声纹识别测试包括声纹识别错误拒绝率和声纹识别错误接受率测试,方法如下 a 声纹识别错误拒绝率;使用智能家居进行语音注册,测试人数50人(男女各25人),注册完毕 后,在远场距离下让测试人使用本人注册语句进行声纹验证,共验证50条,统计结果并给出错 误拒绝率 b 声纹识别错误接受率:;使用声纹识别语料对智能家居进行语音注册,注册人数50人(男女各 25人),注册完毕后,在远场距离下使用回放设备播放非本人同性别3人的1句话进行冒认, 10
GB;/T36464.2一2018 当智能家居传声器的语音声压级为55dB(A)时,累计150条冒认,统计结果并给出错误接 受率 具体人员选择要求参照GB/T21023一2007中7.3 使用以上测试方法,测试验证是否满足5.3.4的要求 6.3.5语音合成测试 选取10个体验人员,男女各5人,通过对智能家居人为的唤醒或识别命令反馈,测听合成语音同真 人语音在音质,可懂度和自然度等方面的差异,并以平均意见得分对主观测评进行量化,记录平均结果 使用以上测试方法,测试验证是否满足5.2.3的要求 6.3.6交互成功率 根据以上6.3.16.3.2,6.3.3,6.3.4的测试结果对产品的基本交互功能进行统计分析,给出整体交互 成功率 使用以上测试方法,测试验证是否满足5.2.5的要求 6.3.7响应时间 根据以上6.3.1,.6.3.2.6.3.3,.6.3.4测试方法对产品的基本交互时间进行统计分析,给出离线和在线 网络条件下的家居交互响应时间 使用以上测试方法,测试验证是否满足5.2.6的要求 6.3.8语音打断成功率 选取已定制的命令词,在语音交互的过程中,通过回放设备进行播放,记录在1h内被语音交互系 统正确响应及播放的次数,根据5.3.5所给出的公式进行统计分析,给出该命令词的语音打断成功率 6.4测试结果 测试报告应包括下述指标项的测试结果 声纹识别错误拒绝率; a 声纹识别错误接受率; b 语音合成平均意见得分; c 离线平均响应时间; d 在线平均响应时间; e 语音唤醒正确率; 语音唤醒误唤醒频度; g h 语音识别句识别率; 交互成功率

智能家居GB/T36464.2-2018: 信息技术智能语音交互系统第2部分

随着科学技术的不断发展,越来越多的人开始意识到智能家居的重要性。智能家居是指通过各种互联设备实现家庭自动化控制,从而使家居生活更加便捷、舒适、安全、节能等。

GB/T36464.2-2018是智能家居领域的重要标准之一,该标准主要涉及信息技术智能语音交互系统第2部分,即基于语音交互的智能家居控制系统。这一标准规定了智能家居控制系统的总体架构、功能模块、工作流程、接口定义、性能指标等。

总体架构

GB/T36464.2-2018规定了智能家居控制系统的总体架构,包括语音交互终端、智能家居网关、云服务平台三个层次。其中,语音交互终端负责接收用户的语音指令,智能家居网关则负责接受和解析语音指令,并将控制指令发送给相应的智能设备;云服务平台则提供数据存储、处理、分析等服务。

功能模块

GB/T36464.2-2018标准中规定了智能家居控制系统的主要功能模块,包括语音识别、语义理解、对话管理、智能家居控制等。这些模块相互协作,实现了语音交互控制智能家居的目的。

工作流程

智能家居控制系统的工作流程符合一般的语音交互过程,包括语音采集、语音识别、语义理解、对话管理、智能家居控制等环节。

接口定义

GB/T36464.2-2018标准中明确规定了各个功能模块之间的接口定义,包括语音输入输出接口、智能家居网关接口、云服务平台接口等,保证了不同厂商的智能家居设备之间可以互相兼容、互相配合。

性能指标

GB/T36464.2-2018标准中对智能家居控制系统的性能指标也作出了明确规定。其中包括语音识别率、识别速度、语义理解准确率、命令响应时间等,这些指标反映了一个优秀的智能家居控制系统所需具备的功能和性能。

综上所述,GB/T36464.2-2018标准中关于信息技术智能语音交互系统第2部分,为智能家居领域的发展提供了重要的规范和标准,帮您继续完善文章。

智能家居的优点

智能家居的主要优点是可以提高生活的便利性和舒适度。通过智能家居系统,用户可以实现远程控制和监测,不管身在何处都可以随时随地了解家中情况并进行控制。此外,智能家居还可以实现场景模式,即根据用户需求自动完成多种操作,如早晨起床时自动开启电视、音响等设备;晚上睡觉时自动关闭灯光、空调等设备。这些功能可以极大地提高生活质量。

智能家居的未来发展趋势

智能家居领域的发展前景非常广阔。未来,智能家居将会更加智能化、人性化,并且向着全面、无缝集成的方向发展。同时,智能家居的应用范围也会更加广泛,不仅仅局限于居住领域,还将延伸到商业、医疗、教育等领域。

结论

GB/T36464.2-2018标准中关于信息技术智能语音交互系统第2部分,为智能家居领域的发展提供了重要的规范和标准。未来,智能家居将会更加成熟和普及,可以带给人们更多便捷、舒适、安全、节能的生活。

信息技术服务咨询设计第1部分:通用要求
上一篇 本文分享国家标准信息技术服务咨询设计第1部分:通用要求的全文阅读和高清PDF的下载,信息技术服务咨询设计第1部分:通用要求的编号:GB/T36463.1-2018。信息技术服务咨询设计第1部分:通用要求共有18页,发布于2019-01-01
信息技术智能语音交互系统第3部分:智能客服
本文分享国家标准信息技术智能语音交互系统第3部分:智能客服的全文阅读和高清PDF的下载,信息技术智能语音交互系统第3部分:智能客服的编号:GB/T36464.3-2018。信息技术智能语音交互系统第3部分:智能客服共有16页,发布于2019-01-01 下一篇
相关推荐