国家标准 GB/T35312一2017 中文语音识别终端服务接口规范 SpeeificationofprogramminginterfaceforChiesespeeehreeognition terminalservice 2017-12-29发布 2018-07-01实施中华人民共利国国家质量监督检验检疙总局发布国家标准化管理委员会国家标准
GB/35312一2017 目次前言范围 2 规范性引用文件术语和定义中文语音识别终端服务系统能力范围 4.1概述 4.2基本功能 4.3扩展功能 5 输人数据描述 5.1前端信号处理 .2语音唤醒 5.3语音识别输出数据描述 6 6.1前端信号处理 6.2语音唤 6.3语音识别服务接口描述 7.1概述 7.2前端信号处理服务 7.3语音唤醒服务 7.4语音识别服务附录A(规范性附录)中文语音识别终端服务系统性能指标定义和测试基本要求 12 附录B(资料性附录)语音唤醒和语音识别结果消息示例 14 参考文献 l6
GB/35312一2017 前言本标准按照GB/T1.1一2009给出的规则起草请注意本文件的某些内容可能涉及专利本文件的发布机构不承担识别这些专利的责任本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口本标准起草单位:科学院声学研究所、电子技术标准化研究院、电信集团公司、中兴通讯股份有限公司、科大讯飞股份有限公司、上海计算机软件技术开发中心本标准主要起草人:付强、颜永红、董滨、国雁萌、王晓飞、黎塔、杨智慧、韩卫生、赵菁华、杨震、赵孙平、李洪亮、蔡立志
GB/35312一2017 中文语音识别终端服务接口规范范围本标准规定了在终端设备(如移动电话、,平板电脑、,无线音箱、车载导航仪和机器人等)上的中文语音识别系统所提供服务的功能集合,包括服务系统能力范围、输人/输出数据描述和服务接口的基本要求本标准适用于终端设备上的中文语音识别系统的设计和开发规范性引用文件下列文件对于本文件的应用是必不可少的凡是注日期的引用文件,仅注日期的版本适用于本文件凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 GB/T13000信息技术通用多八位编码字符集(UCsS GB18030信息技术中文编码字符集 RFC5646语言识别标签(Tagsforidentifyinglanguages) 术语和定义下列术语和定义适用于本文件 3.1 前端信号处理frontendsignalprocessing 在语音终端进行语音识别处理前,对输人声音信号进行增强、检测和规整处理的过程,其有助于提高语音识别终端服务系统在复杂环境中的性能 3.2 目标语音targetspeeeh 用户对语音识别终端所发出的有用语音,即希望语音识别终端服务系统识别的语音信号 3.3 背景噪声backgrndnoise 语音识别终端应用环境中的噪声 3.4 干扰声音interferingsond 语音识别终端应用环境中的声音,会引起语音识别的错误或虚警 3.5 房间混响 r00mmreverberation 室内声源发出的声波在各方向来回被房间壁面反射,而又逐渐衰减的现象 3.6 声学回波aeousticecho 由语音识别终端上的扬声器所发出的,又被该终端上的语音采集设备所采集到的声音信号
GB/T35312一2017 3.7 参考回波信号refereneeeehosignal 语音识别终端的扬声器播放的声音的源信号 3.8 传声器阵列mierophonearray 具有特定的空间分布拓扑结构,可以获取空间信息的一组传声器 3.9 近讲模式 cl0se talkingde 语音终端的一种使用模式,拾取用户语音时,传声器靠近用户嘴部注:例如手持话简、蓝牙耳机等场景 3.10 远讲模式distanttalkinm ingmode 语音终端的一种使用模式,用户在与传声器有较大距离的情况下拾取用户语音注:随着用户与传声器距离的增大,环境噪声、干扰声音、房间混响和声学回波对拾音信号质量的影响也会增大 3.11 按键采音pushtotalk 用户按下指定按键后,终端开始采音.并启动识别系统 3.12 语音唤醒 voicewakeup 对特定的唤醒命令词进行语音识别,根据识别结果从而决定是否唤醒正在休眠或者待机的语音识别服务 3.13 唤醒命令词wake-upwordi 用来语音唤醒识别服务的命令词，一般为一句话或者短语 3.14 语音识别speech roentn 将人类的声音信号转化为文字或者指令的过程 [GB/T21023一2007,定义3.1] 3.15 tdBhk-Nurrwm;.ABNP 扩展巴科斯范式Augmente -种用于描述给定源语言语法的增强形式符号 [[RFc523们 3.16 .soN数据交互格式JavaseriptohujeetNtaton.;JsoN -种基于文本,完全独立于语言的轻量级数据交换格式 [ECMA-404] 3.17 语音识别语法speeehreeogmitiongrammar 识别语法reeognitiongrammmar 语法 grammar 语音识别引擎进行识别所需的语句形式和语法要素,语法要素包括词汇、词汇模式、词汇语言等
GB/35312一2017 中文语音识别终端服务系统能力范围 4.1概述本章内容定义终端设备上的中文语音识别服务系统的功能集,包括基本功能和扩展功能两大类,基本功能是应具备的功能,扩展功能是宜具备的功能语音识别终端服务提供商可在此基础上扩展其他的功能中文语音识别终端服务系统(相应的性能指标定义及测试基本要求见附录A的A.1、A.2)主要由三个服务模块组成;前端信号处理,语音唤醒和语音识别其中语音识别服务模块为必备模块,前端信号处理和语音唤醒服务模块为可选模块除语音唤醒服务模块外,还可采用其他方式来唤醒语音识别服务,如按键采音每个服务模块具体描述如下 -前端语音处理是指对输人的原始语音信号进行消噪、增强和规整处理,输出处理后的语音流从而有效抑制环境噪声和回声混响等干扰源对语音唤醒和语音识别的影响 -语音唤醒是指在终端系统待机的情况下,通过用户说出指定的语音唤醒命令词可以唤醒语音识别功能操作语音识别是指对用户说出的命令词进行语音识别转化为终端能理解的命令 4.2基本功能 4.2.1语音端点检测根据输人的单通道或多通道连续音频流,给出目标语音的起点和尾点 4.2.2语音识别服务语音识别服务是语音识别系统提供的基础服务,服务接受特定格式的语音输人,将结果返回给用户 4.2.3自定义识别命令词语音识别服务根据用户自定义的命令词生成相应的识别语法 4.2.4识别命令词语音识别服务返回与语法中对应的识别命令词 4.2.5识别命令词多候选对于识别结果不唯一的识别文本,语音识别服务根据用户的需求返回多个识别命令词结果供用户选择 4.3扩展功能 4.3.1语音增强对输人信号中的背景噪声和干扰声音进行抑制或消除,以提高前端信号处理的输出信噪比,并提升终端服务系统的在实际环境中的准确率可分为单通道和多通道语音增强两类
GB/T35312一2017 4.3.2识别拼音信息语音识别服务返回与识别命令词对应的拼音信息 4.3.3声学回波控制利用终端的参考回波信号对输人信号中的声学回波成分进行抑制或消除 4.3.4中文语音唤醒服务语育唤醒服务是中文语音识别系统提供的基础服务服务接受特定的唤醒命令词语音输人.进行语音唤醒处理,唤醒休眠的语音识别服务 4.3.5唤醒命令词定制唤醒命令词可根据需求进行定制化处理 4.3.6音频格式多样化语音识别服务系统对多种音频格式的识别处理,用户可选择合适的音频格式进行识别 4.3.7识别模型多样化语音识别服务系统提供多样化的识别模型供用户选择,如成年人模型、儿童模型等 4.3.8个性化识别语音识别服务系统支持用户训练个性化模型并使用个性化模型进行语音唤醒及识别 4.3.9多读音处理语音识别服务系统对多读音字的识别备选处理 4.3.10识别文本评分信息语音识别服务系统返回与对应输人语音的置信度分数,以便于供用户参考 4.3.11音频信息语音识别服务系统返回音频与识别结果对应的起止时间信息,语速快慢以及语调等信息 5 输入数据描述 5.1前端信号处理 5.1.1 单通道或多通道音频流传声器或传声器阵列采集的数字化音频信号,采样率固定,范围为8000Hz~48000Hz,量化方式是线性量化,位数不小于16 前端信号处理支持的音频格式见表1
GB/35312一2017 表1音频数据格式媒体类型音频格式描述是否必须支持 audio/L16;rate=8000 PCM,采样率8000,l6bit,小端次序是否 audio/L16;rate=l1025 PCM,采样率l1025,16bit,小端次序 PCM,采样率16000,l6bit,小端次序是 audio/Ll6;rate=16000 audio/Ll6;rate=22050 PCM,采样率22050,l6bit,小端次序 audio/Ll6;rate=44100 PCM,采样率44100,l6bit,小端次序否 audio/116;rate=48000 PCM,采样率48000,16bit,小端次序 5.1.2参考回波音频流扬声器播放声音的源信号采样率固定,范围为8000Hz一48000Hz,量化方式是线性量化,位数不小于16 只有在终端上自带扬声器播放声音时,才需要该输人 5.2语音唤醒 5.2.1语音唤醒音频数据格式语音唤醒服务输人的音频数据格式见表1 5.2.2工作路径取值;字符串说明;语音唤醒服务的工作路径,此路径下将存储唤醒服务所用的资源文件 5.2.3唤醒命令词字符编码方式取值;字符串,默认支持GB18030，宜支持GB/T13000 说明:输人唤醒命令词的字符编码方式 5.2.4唤醒命令词取值;字符串说明用户定制的用来语音唤醒识别服务的命令词 5.2.5唤醒词文件取值:字符串说明;存储唤醒命令词列表的文件名称,可设置一个或多个唤醒命令词拾育模式 5.2.6 取值;整数,主要分为.0一近讲模式,l一远讲模式说明:表明识别前端用户拾音的使用模式 5.2.7静音时长取值;整数,单位为毫秒(ms),取值范围为300一3000,可根据用户实际需求进行定义
GB/T35312一2017 说明:尾点语音的静音长度 5.2.8等待时长取值:整数,单位为毫秒(ms),取值范围为30005000,可根据用户实际需求进行定义说明:有效语音之前的等待时长 5.3语音识别 5.3.1识别语法在命令词识别中,根据语法文件生成的,用来限定识别结果的范围,语法类型默认为ABNF 5.3.2语音识别音频数据格式语音识别服务输人的音频数据格式见表1 5.3.3语言取值字符申,取值规范符合RFC5646 必须支持中文“小CN",其他语种不做限制说明;待识别语音所属的语种 53.4工作路径取值;字符串说明语音识别服务的工作路径,此路径下将存储识别所用的资源文件 5.3.5语法文件取值;字符串,识别语法的文件名称,文件中为用户自定义的待识别命令词说明;用户根据ABNF规范,将语音识别服务中待识别的命令词按规范编写合成语法文件 5.3.6静音时长取值;整数,单位为毫秒(ms),取值范围为3003000,可根据用户实际需求进行定义说明;尾点语音的静音长度 5.3.7等待时长取值:整数,单位为毫秒(ms),取值范围为3000~5000,可根据用户实际需求进行定义说明;有效语音之前的等待时长 5.3.8拾音模式取值:整数,主要分为:0近讲模式,1一远讲模式说明;表明识别前端用户使用的拾音模式 5.3.9最大候选数目取值:整数说明:表明语音识别服务可返回结果的最大候选数目
GB/35312一2017 输出数据描述 6.1前端信号处理 6.1.1单通道或多通道音频流在尽可能保持目标语音失真最小的前提下,对电路噪声,环境噪声和回波噪声都进行抑制处理后的单通道语音数据流采样率固定,线性量化 6.1.2 目标语音时间端点取值:整数数组,单位为毫秒(ms) 说明:目标语音出现的起止时间点根据具体服务模块,可以是一段语音的端点,也可以包含多段语音该输出项可选 6.2语音唤醒 6.2.1唤醒结果信号取值;布尔值,true表示唤醒成功,false表示唤醒失败说明:表明是否唤醒成功 6.2.2语音起点取值;整数,单位为毫秒(ms). 说明;语音数据中有效语音的起始点,表明输人语音的起始点信息 6.2.3语音尾点取值:整数,单位为毫秒(ms). 说明;语音数据中有效语音的结束点,表明输人语音的结束点信息 6.2.4置信度分数取值;浮点数,取值范围为0.0~100.0 说明:表明在此语音唤醒服务中语音数据与唤醒模型之间的匹配程度,以百分制的形式输出,供用户对唤醒结果进行参考 6.3语音识别 6.3.1识别文本取值;字符串说明:语音识别服务识别结果的文字内容 6.3.2实际候选数目取值:整数，l到输人的最大候选数目之间的正整数说明;最大候选数目和实际候选数目是以同一个参数为载体,作为输人和输出值输出值表明实际语音识别服务返回的识别命令词个数
GB/T35312一2017 6.3.3置信度分数取值;浮点数,取值范围为0.0~100.0. 说明;表明在此语音识别服务中语音数据与识别模型之间的匹配程度,以百分制的形式输出,供用户对识别结果进行参考 6.3.4语音起点取值:整数,单位为毫秒(ms). 说明;语音数据中有效语音的起始点,表明输人语音的起始点信息 6.3.5语音尾点取值:整数,单位为毫秒(ms) 说明:语音数据中有效语音的结束点,表明输人语音的结束点信息服务接口描述 7.1概述本章内容给出了终端设备的中文语音识别服务系统必要的接口,用户调用此类接口可以获取前端信号处理服务,语音唤醒服务和中文语音识别服务表2表4列出了各接口必备参数和可选参数 7.2前端信号处理服务 7.2.1初始化语音前端信号处理服务行为描述初始化语音前端信号处理服务,可以同时设置参数,参数有效范围为设置成功时起至语音前端信号处理服务工作结束输出:会话句柄、返回值(正确执行时返回值取0,执行出错时返回值取非0,不同的非0值对应不同的错误原因,下同)等 7.2.2开启语音前端信号处理行为描述:开始处理音频数据;设置参数,参数有效范围为设置成功时起至语音前端信号处理停止输出:返回值等 7.2.3写入语音数据行为描述;写人前端信号处理所用的音频输出:返回值等 7.2.4获取前端信号处理后音频数据行为描述:获取前端信号处理后的音频数据输出:处理后音频数据,返回值等 7.2.5停止语音前端信号处理行为描述:停止音频数据处理,与开启语音前端信号处理成对调用输出;返回值等
GB/35312一2017 7.2.6退出语音前端信号处理服务行为描述:关闭当前运行的语音前端信号处理服务,释放服务所有资源,此接口与初始化语音前端服务成对调用,可以再次调用初始化接口,进行语音前端信号处理操作输出;返回值等 7.2.7前端语音处理服务输入参数说明前端语音处理服务输人参数说明见表2 表2前端语音处理服务输入参数功能必备项可选项初始化前端信号处理服务会话句柄,前端信号处理相关的多个参数开启语音前端信号处理会话句柄此次前端信号处理的参数获取前端服务处理后音频数据会话句柄写人语音数据会话句柄,音频数据块,音频长度停止语音前端信号处理会话句柄退出语音前端信号处理服务会话句柄 7.3语音唤醒服务 7.3.1初始化语音唤醒服务行为描述:初始化语音唤醒服务,设置参数输出:会话句柄、返回值等创建唤醒命令词字典 7.3.2 行为描述;将唤醒词添加到语音唤醒服务实例中,并生成相应语法字典句柄输出:返回值等 7.3.3启动语音唤醒行为描述:开启一次语音唤醒输出:会话句柄,返回值等 7.3.4写入数据行为描述，写人经前端服务处理后的音频数据输出;返回值等 7.3.5获取唤醒结果行为描述;获取语音唤醒服务结果输出;唤醒结果、返回值等 7.3.6停止语音唤醒行为描述:停止当次语音唤醒
GB/T35312一2017 输出;返回值等 7.3.7退出语音唤醒服务行为描述;结束语音唤醒服务,释放资源输出;返回值等 7.3.8语音唤醒服务输入参数说明语音唤醒模块输人参数说明见表3 表3语音唤醒服务输入参数功能必备项可选项初始化语音唤醒服务会话句柄,采样率,数据路径静音时长,等待时长创建唤醒命令词字典会话句柄,唤醒命令词条启动语音唤醒会话句柄写人数据会话句柄,音频数据块,音频长度获取唤醒结果会话句柄停止语音唤醒会话句柄退出语音唤醒服务会话句树 7.4语音识别服务 7.4.1初始化语音识别服务行为描述;初始化语音识别服务,可以同时设置识别参数,参数有效范围为设置成功时起至语音识别服务结束输出:会话句柄,返回值等 7.4.2添加语音识别语法行为描述:添加语音识别服务所用语法,语法的有效范围为添加成功时至移除识别语法输出;返回值等 7.4.3启动语音识别行为描述;启动一次语音识别服务,语音识别服务开始语音识别处理输出:返回值等 7.4.4发送语音数据行为描述:给当前启动的识别任务发送语音数据,此接口可重复调用,直到语音发送完毕或当次语音识别结束即返回识别结果为止输出:返回值等 7.4.5语音识别计算行为描述:对发送的语音数据进行识别计算,此接口与发送语音数据接口配合重复多次调用,从而 10
GB/35312一2017 对服务接收到的语音数据进行识别计算,直到计算完成或返回识别结果输出:识别计算过程中的服务运行状态信息及识别结果,如语音起点,语音尾点,语音太短和识别失败等 7.4.6获取识别结果行为描述:获取识别结果,此接口在服务返回有识别结果时调用,以便获取详细的识别结果信息本接口为用户以格式化的形式返回识别结果,用户可以对其进行解析,从而获取所需的结果信息,进行下一步的应用操作处理输出识别结果(格式参照附录B) 7.4.7停止语音识别行为描述:停止当次的语音识别,此接口必须在识别处理已经结束,并获取识别结果后调用,表示当次语音识别结束,释放本次识别所需的资源需要与启动语音识别成对调用,此接口调用后,再次调用启动语音识别可以进行下一次的语音识别输出;停止结果,返回值等 7.4.8移除识别语法行为描述;从语音识别服务中移除识别语法,调用此接口移除后,下次启动识别前,可以再次调用添加识别语法接口添加其他识别语法到识别服务中此接口与添加语法接口需要成对调用输出;移除结果,返回值等 7.4.9退出语音识别服务行为描述;退出语音识别服务,释放服务所有资源输出:返回值等 7.4.10语音识别服务输入参数说明语音识别服务输人参数说明见表4 表4语音识别服务输入参数功能必备项可选项会话句柄,设置多个识别参数,如识别初始化语音识别服务语法等吞加语音识别语法会话句柄,识别语法文件语法数据长度,类型等启动语音识别会话句柄发送语音数据会话句柄,音频数据块音频长度语音识别计算会话句柄获取识别结果会话句柄停止语音识别会话句柄移除识别语法会话句柄退出语音识别服务会话句柄 1
GB/T35312一2017 附录规范性附录中文语音识别终端服务系统性能指标定义和测试基本要求 A.1语音识别终端服务系统性能指标定义 A.1.1语音唤醒 A.1.1.1唤醒率语音唤醒正确的唤醒命令能够唤醒成功的次数与总次数之比 A.1.1.2拒识率拒识率指用户发出唤醒命令,语音唤醒没有成功唤醒的情况统计 A.1.1.3虚警率虚警率又称误识率,是指用户在未发出唤醒命令的情况下,语音唤醒错误地唤醒的情况统计 A.1.1.4实时率语音唤醒服务响应速度的衡量指标,具体为唤醒服务的处理时间与输人语音时间长度的比值该指标值越低,表示响应速度越快 A.1.2语音识别 A.1.2.1识别率语音识别的准确率,识别正确的次数除以识别总次数，一般以百分比的形式表示此性能受外围的多个因素影响,如性别,语速,发音准确度、环境噪声和传声器质量等 A.1.2.2拒识率拒识率是指语音识别的失败率,识别失败的次数除以识别总次数，一般以百分比的形式表示此性能与识别服务内部参数相关,可进行相应的调整 .1.2.3实时率 A 实时率是用来衡量语音识别速度的性能指标,用开始识别处理到返回识别结果所耗费的时间与输人语音的总时长之比来计算,一般以几倍实时,如1.2倍实时,来表示实时率指标 A.2语音识别终端服务系统测试基本要求 A.2.1测试环境测试环境尽量接近真实的使用环境参考指标;房间混响、平均噪声等级和噪声性质等 A.2.2环境噪声语音识别服务使用时,周围环境干扰识别的噪声 12
GB/35312一2017 A.2.3回声源回声源选取终端设备可能播放的典型内容 A.2.4测试条件中文语音识别终端测试主要是采用具有统计意义的测试用户数量,男女比例各半,年龄分布能涵盖主要用户群测试人数至少在30人以上录音模式分为近讲和远讲近讲模式,用户利用近讲传声器进行录音,要求传声器接近用户口唇建议小于0.15m;远讲模式,用户在远讲传声器的有效拾取距离内进行录音,建议大于1" m A.2.5语音唤醒测试 A.2.5.1唤醒测试唤醒测试主要是指测试用户对特定的唤醒词在不同测试环境如商场、会议室等)下进行多次重复的唤醒操作,统计唤醒成功的正确率,并除以测试总次数,即可得出语音唤醒服务的唤醒率同时,记录唤醒失败的次数,即可得出拒识率 A.2.5.2虚警测试语音唤醒的虚警测试是在有嗓声干扰的环境(包括环境噪声和终端设备回声)下,开启语音唤醒服务,连续测试24h以上(无用户测试),统计服务唤醒即误识别的平均次数,以去掉随机性干扰 A.2.5.3实时率测试唤醒服务自动统计每次唤醒语音的时长及唤醒服务对语音处理的时长,然后进行统计分析,可得出语音唤醒服务的实时率结果 A.2.6语音识别测试 A.2.6.1识别率测试识别率测试主要是测试用户对测试命令词表(根据识别语法中涵盖的命令词进行均匀抽样组成,要求覆盖所有样式的命令词)进行语音识别测试,并统计正确率要求在不同测试环境下,进行多组重复测试,统计每个测试环境下不同用户的正确率,然后进行统计分析,从而得出综合识别率 A.2.6.2拒识率测试在识别率测试的过程中,对语音识别服务返回拒识的结果进行单独统计,并除以总的识别次数,就可得出拒识率 A.2.6.3实时率测试在识别率测试的过程中,服务中可自动统计每次识别语音的时长以及识别服务对语音识别处理的时长,然后进行统计分析,可得出语音识别服务的实时率结果 13
GB/T35312一2017 附录 B 资料性附录) 语音唤醒和语音识别结果消息示例 B.1 语音唤醒结果消息示例以下为JsON结构的唤醒结果示例 "version""1.0" "sentence-number':l 300， "beEin" "end":1000 "error-code":0 "workupresult" : "work- -up":true "score";90 B.2语音识别结果消息示例以下为JsON结构的识别结果示例 "version";"1.0" 'sentence-number"':l "begin".800. "nd" ":l1400 erorcode".o "ecognition-resul";[ "candidatesentenee":[ ""识别终端服务" 'sentence "score";90 14
GB/35312一2017 "eandidatesentenee" "识别中断服务" 'sentence" "core";8o 15
GB/T35312一2017 考文献参 [1]GB/T21023一2007中文语音识别系统通用技术规范 [[2] RFC5234语法规范的扩展巴科斯范式(AugmentedBNFforSyntaxSpeeifications:AB NF Format [[3]StandardECMA-404TheJsONDat atainterchange 16

中文语音识别终端服务接口规范GB/T35312-2017

随着智能化、便携化需求的增加，中文语音识别技术的发展越来越受到关注，而如何保证不同厂家的产品有良好的兼容性和互通性则成为了一个重要的问题。为此，国家质量监督检验检疫总局发布了中文语音识别终端服务接口规范GB/T35312-2017。

该规范的制定旨在为不同厂家提供统一的语音识别服务接口，以实现各种语音识别设备之间的互联互通，方便用户进行语音控制、语音输入等操作。

规范的主要内容

中文语音识别终端服务接口规范GB/T35312-2017主要包含以下内容：

术语和定义
接口设计原则和基本要求
接口规范和功能定义
接口参数说明和调用流程
错误码及其含义
附录：示例代码

其中，术语和定义部分为统一不同厂家之间的交流，避免因语言表述不同而带来的误解；接口设计原则和基本要求部分则为各厂家提供一个共同的规范标准，以保障设备的互通性；接口规范和功能定义部分则详细规定了各种语音识别服务接口的具体实现方式和应用场景。

规范的应用场景

中文语音识别终端服务接口规范GB/T35312-2017适用于各种语音识别设备和服务，例如：

智能家居控制系统
车载语音控制系统
语音输入法
智能机器人等

通过引入该规范，不同厂家的产品可以进行互联互通，为用户提供更加方便、快捷的服务体验。