GB/T35312-2017

中文语音识别终端服务接口规范

SpecificationofprogramminginterfaceforChinesespeechrecognitionterminalservice

本文分享国家标准中文语音识别终端服务接口规范的全文阅读和高清PDF的下载,中文语音识别终端服务接口规范的编号:GB/T35312-2017。中文语音识别终端服务接口规范共有19页,发布于2018-07-01
  • 中国标准分类号(CCS)L77
  • 国际标准分类号(ICS)35.080
  • 实施日期2018-07-01
  • 文件格式PDF
  • 文本页数19页
  • 文件大小1.17M

中文语音识别终端服务接口规范


国家标准 GB/T35312一2017 中文语音识别终端服务接口规范 SpeeificationofprogramminginterfaceforChiesespeeehreeognition terminalservice 2017-12-29发布 2018-07-01实施 中华人民共利国国家质量监督检验检疙总局 发布 国家标准化管理委员会国家标准
GB/35312一2017 目 次 前言 范围 2 规范性引用文件 术语和定义 中文语音识别终端服务系统能力范围 4.1概述 4.2基本功能 4.3扩展功能 5 输人数据描述 5.1前端信号处理 .2语音唤醒 5.3语音识别 输出数据描述 6 6.1前端信号处理 6.2语音唤 6.3语音识别 服务接口描述 7.1概述 7.2前端信号处理服务 7.3语音唤醒服务 7.4语音识别服务 附录A(规范性附录)中文语音识别终端服务系统性能指标定义和测试基本要求 12 附录B(资料性附录)语音唤醒和语音识别结果消息示例 14 参考文献 l6
GB/35312一2017 前 言 本标准按照GB/T1.1一2009给出的规则起草 请注意本文件的某些内容可能涉及专利 本文件的发布机构不承担识别这些专利的责任 本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口 本标准起草单位:科学院声学研究所、电子技术标准化研究院、电信集团公司、中兴通 讯股份有限公司、科大讯飞股份有限公司、上海计算机软件技术开发中心 本标准主要起草人:付强、颜永红、董滨、国雁萌、王晓飞、黎塔、杨智慧、韩卫生、赵菁华、杨震、 赵孙平、李洪亮、蔡立志
GB/35312一2017 中文语音识别终端服务接口规范 范围 本标准规定了在终端设备(如移动电话、,平板电脑、,无线音箱、车载导航仪和机器人等)上的中文语 音识别系统所提供服务的功能集合,包括服务系统能力范围、输人/输出数据描述和服务接口的基本 要求 本标准适用于终端设备上的中文语音识别系统的设计和开发 规范性引用文件 下列文件对于本文件的应用是必不可少的 凡是注日期的引用文件,仅注日期的版本适用于本文 件 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 GB/T13000信息技术通用多八位编码字符集(UCsS GB18030信息技术中文编码字符集 RFC5646语言识别标签(Tagsforidentifyinglanguages) 术语和定义 下列术语和定义适用于本文件 3.1 前端信号处理frontendsignalprocessing 在语音终端进行语音识别处理前,对输人声音信号进行增强、检测和规整处理的过程,其有助于提 高语音识别终端服务系统在复杂环境中的性能 3.2 目标语音targetspeeeh 用户对语音识别终端所发出的有用语音,即希望语音识别终端服务系统识别的语音信号 3.3 背景噪声backgrndnoise 语音识别终端应用环境中的噪声 3.4 干扰声音interferingsond 语音识别终端应用环境中的声音,会引起语音识别的错误或虚警 3.5 房间混响 r00mmreverberation 室内声源发出的声波在各方向来回被房间壁面反射,而又逐渐衰减的现象 3.6 声学回波aeousticecho 由语音识别终端上的扬声器所发出的,又被该终端上的语音采集设备所采集到的声音信号
GB/T35312一2017 3.7 参考回波信号refereneeeehosignal 语音识别终端的扬声器播放的声音的源信号 3.8 传声器阵列mierophonearray 具有特定的空间分布拓扑结构,可以获取空间信息的一组传声器 3.9 近讲模式 cl0se talkingde 语音终端的一种使用模式,拾取用户语音时,传声器靠近用户嘴部 注:例如手持话简、蓝牙耳机等场景 3.10 远讲模式distanttalkinm ingmode 语音终端的一种使用模式,用户在与传声器有较大距离的情况下拾取用户语音 注:随着用户与传声器距离的增大,环境噪声、干扰声音、房间混响和声学回波对拾音信号质量的影响也会增大 3.11 按键采音pushtotalk 用户按下指定按键后,终端开始采音.并启动识别系统 3.12 语音唤醒 voicewakeup 对特定的唤醒命令词进行语音识别,根据识别结果从而决定是否唤醒正在休眠或者待机的语音识 别服务 3.13 唤醒命令词wake-upwordi 用来语音唤醒识别服务的命令词,一般为一句话或者短语 3.14 语音识别speech roentn 将人类的声音信号转化为文字或者指令的过程 [GB/T21023一2007,定义3.1] 3.15 tdBhk-Nurrwm;.ABNP 扩展巴科斯范式Augmente -种用于描述给定源语言语法的增强形式符号 [[RFc523们 3.16 .soN数据交互格式JavaseriptohujeetNtaton.;JsoN -种基于文本,完全独立于语言的轻量级数据交换格式 [ECMA-404] 3.17 语音识别语法speeehreeogmitiongrammar 识别语法reeognitiongrammmar 语法 grammar 语音识别引擎进行识别所需的语句形式和语法要素,语法要素包括词汇、词汇模式、词汇语言等
GB/35312一2017 中文语音识别终端服务系统能力范围 4.1概述 本章内容定义终端设备上的中文语音识别服务系统的功能集,包括基本功能和扩展功能两大类,基 本功能是应具备的功能,扩展功能是宜具备的功能 语音识别终端服务提供商可在此基础上扩展其他 的功能 中文语音识别终端服务系统(相应的性能指标定义及测试基本要求见附录A的A.1、A.2)主要由 三个服务模块组成;前端信号处理,语音唤醒和语音识别 其中语音识别服务模块为必备模块,前端信 号处理和语音唤醒服务模块为可选模块 除语音唤醒服务模块外,还可采用其他方式来唤醒语音识别 服务,如按键采音 每个服务模块具体描述如下 -前端语音处理是指对输人的原始语音信号进行消噪、增强和规整处理,输出处理后的语音流 从而有效抑制环境噪声和回声混响等干扰源对语音唤醒和语音识别的影响 -语音唤醒是指在终端系统待机的情况下,通过用户说出指定的语音唤醒命令词可以唤醒语音 识别功能操作 语音识别是指对用户说出的命令词进行语音识别转化为终端能理解的命令 4.2基本功能 4.2.1语音端点检测 根据输人的单通道或多通道连续音频流,给出目标语音的起点和尾点 4.2.2语音识别服务 语音识别服务是语音识别系统提供的基础服务,服务接受特定格式的语音输人,将结果返回给 用户 4.2.3自定义识别命令词 语音识别服务根据用户自定义的命令词生成相应的识别语法 4.2.4识别命令词 语音识别服务返回与语法中对应的识别命令词 4.2.5识别命令词多候选 对于识别结果不唯一的识别文本,语音识别服务根据用户的需求返回多个识别命令词结果供用户 选择 4.3扩展功能 4.3.1语音增强 对输人信号中的背景噪声和干扰声音进行抑制或消除,以提高前端信号处理的输出信噪比,并提升 终端服务系统的在实际环境中的准确率 可分为单通道和多通道语音增强两类
GB/T35312一2017 4.3.2识别拼音信息 语音识别服务返回与识别命令词对应的拼音信息 4.3.3声学回波控制 利用终端的参考回波信号对输人信号中的声学回波成分进行抑制或消除 4.3.4中文语音唤醒服务 语育唤醒服务是中文语音识别系统提供的基础服务服务接受特定的唤醒命令词语音输人.进行语 音唤醒处理,唤醒休眠的语音识别服务 4.3.5唤醒命令词定制 唤醒命令词可根据需求进行定制化处理 4.3.6音频格式多样化 语音识别服务系统对多种音频格式的识别处理,用户可选择合适的音频格式进行识别 4.3.7识别模型多样化 语音识别服务系统提供多样化的识别模型供用户选择,如成年人模型、儿童模型等 4.3.8个性化识别 语音识别服务系统支持用户训练个性化模型并使用个性化模型进行语音唤醒及识别 4.3.9多读音处理 语音识别服务系统对多读音字的识别备选处理 4.3.10识别文本评分信息 语音识别服务系统返回与对应输人语音的置信度分数,以便于供用户参考 4.3.11音频信息 语音识别服务系统返回音频与识别结果对应的起止时间信息,语速快慢以及语调等信息 5 输入数据描述 5.1前端信号处理 5.1.1 单通道或多通道音频流 传声器或传声器阵列采集的数字化音频信号,采样率固定,范围为8000Hz~48000Hz,量化方式 是线性量化,位数不小于16 前端信号处理支持的音频格式见表1
GB/35312一2017 表1音频数据格式 媒体类型 音频格式描述 是否必须支持 audio/L16;rate=8000 PCM,采样率8000,l6bit,小端次序 是 否 audio/L16;rate=l1025 PCM,采样率l1025,16bit,小端次序 PCM,采样率16000,l6bit,小端次序 是 audio/Ll6;rate=16000 audio/Ll6;rate=22050 PCM,采样率22050,l6bit,小端次序 audio/Ll6;rate=44100 PCM,采样率44100,l6bit,小端次序 否 audio/116;rate=48000 PCM,采样率48000,16bit,小端次序 5.1.2参考回波音频流 扬声器播放声音的源信号 采样率固定,范围为8000Hz一48000Hz,量化方式是线性量化,位数 不小于16 只有在终端上自带扬声器播放声音时,才需要该输人 5.2语音唤醒 5.2.1语音唤醒音频数据格式 语音唤醒服务输人的音频数据格式见表1 5.2.2工作路径 取值;字符串 说明;语音唤醒服务的工作路径,此路径下将存储唤醒服务所用的资源文件 5.2.3唤醒命令词字符编码方式 取值;字符串,默认支持GB18030,宜支持GB/T13000 说明:输人唤醒命令词的字符编码方式 5.2.4唤醒命令词 取值;字符串 说明用户定制的用来语音唤醒识别服务的命令词 5.2.5唤醒词文件 取值:字符串 说明;存储唤醒命令词列表的文件名称,可设置一个或多个唤醒命令词 拾育模式 5.2.6 取值;整数,主要分为.0一近讲模式,l一远讲模式 说明:表明识别前端用户拾音的使用模式 5.2.7静音时长 取值;整数,单位为毫秒(ms),取值范围为300一3000,可根据用户实际需求进行定义
GB/T35312一2017 说明:尾点语音的静音长度 5.2.8等待时长 取值:整数,单位为毫秒(ms),取值范围为30005000,可根据用户实际需求进行定义 说明:有效语音之前的等待时长 5.3语音识别 5.3.1识别语法 在命令词识别中,根据语法文件生成的,用来限定识别结果的范围,语法类型默认为ABNF 5.3.2语音识别音频数据格式 语音识别服务输人的音频数据格式见表1 5.3.3语言 取值字符申,取值规范符合RFC5646 必须支持中文“小CN",其他语种不做限制 说明;待识别语音所属的语种 53.4工作路径 取值;字符串 说明语音识别服务的工作路径,此路径下将存储识别所用的资源文件 5.3.5语法文件 取值;字符串,识别语法的文件名称,文件中为用户自定义的待识别命令词 说明;用户根据ABNF规范,将语音识别服务中待识别的命令词按规范编写合成语法文件 5.3.6静音时长 取值;整数,单位为毫秒(ms),取值范围为3003000,可根据用户实际需求进行定义 说明;尾点语音的静音长度 5.3.7等待时长 取值:整数,单位为毫秒(ms),取值范围为3000~5000,可根据用户实际需求进行定义 说明;有效语音之前的等待时长 5.3.8拾音模式 取值:整数,主要分为:0近讲模式,1一远讲模式 说明;表明识别前端用户使用的拾音模式 5.3.9最大候选数目 取值:整数 说明:表明语音识别服务可返回结果的最大候选数目
GB/35312一2017 输出数据描述 6.1前端信号处理 6.1.1单通道或多通道音频流 在尽可能保持目标语音失真最小的前提下,对电路噪声,环境噪声和回波噪声都进行抑制处理后的 单通道语音数据流 采样率固定,线性量化 6.1.2 目标语音时间端点 取值:整数数组,单位为毫秒(ms) 说明:目标语音出现的起止时间点 根据具体服务模块,可以是一段语音的端点,也可以包含多段 语音 该输出项可选 6.2语音唤醒 6.2.1唤醒结果信号 取值;布尔值,true表示唤醒成功,false表示唤醒失败 说明:表明是否唤醒成功 6.2.2语音起点 取值;整数,单位为毫秒(ms). 说明;语音数据中有效语音的起始点,表明输人语音的起始点信息 6.2.3语音尾点 取值:整数,单位为毫秒(ms). 说明;语音数据中有效语音的结束点,表明输人语音的结束点信息 6.2.4置信度分数 取值;浮点数,取值范围为0.0~100.0 说明:表明在此语音唤醒服务中语音数据与唤醒模型之间的匹配程度,以百分制的形式输出,供用 户对唤醒结果进行参考 6.3语音识别 6.3.1识别文本 取值;字符串 说明:语音识别服务识别结果的文字内容 6.3.2实际候选数目 取值:整数,l到输人的最大候选数目之间的正整数 说明;最大候选数目和实际候选数目是以同一个参数为载体,作为输人和输出值 输出值表明实际 语音识别服务返回的识别命令词个数
GB/T35312一2017 6.3.3置信度分数 取值;浮点数,取值范围为0.0~100.0. 说明;表明在此语音识别服务中语音数据与识别模型之间的匹配程度,以百分制的形式输出,供用 户对识别结果进行参考 6.3.4语音起点 取值:整数,单位为毫秒(ms). 说明;语音数据中有效语音的起始点,表明输人语音的起始点信息 6.3.5语音尾点 取值:整数,单位为毫秒(ms) 说明:语音数据中有效语音的结束点,表明输人语音的结束点信息 服务接口描述 7.1概述 本章内容给出了终端设备的中文语音识别服务系统必要的接口,用户调用此类接口可以获取前端 信号处理服务,语音唤醒服务和中文语音识别服务 表2表4列出了各接口必备参数和可选参数 7.2前端信号处理服务 7.2.1初始化语音前端信号处理服务 行为描述初始化语音前端信号处理服务,可以同时设置参数,参数有效范围为设置成功时起至语 音前端信号处理服务工作结束 输出:会话句柄、返回值(正确执行时返回值取0,执行出错时返回值取非0,不同的非0值对应不同 的错误原因,下同)等 7.2.2开启语音前端信号处理 行为描述:开始处理音频数据;设置参数,参数有效范围为设置成功时起至语音前端信号处理停止 输出:返回值等 7.2.3写入语音数据 行为描述;写人前端信号处理所用的音频 输出:返回值等 7.2.4获取前端信号处理后音频数据 行为描述:获取前端信号处理后的音频数据 输出:处理后音频数据,返回值等 7.2.5停止语音前端信号处理 行为描述:停止音频数据处理,与开启语音前端信号处理成对调用 输出;返回值等
GB/35312一2017 7.2.6退出语音前端信号处理服务 行为描述:关闭当前运行的语音前端信号处理服务,释放服务所有资源,此接口与初始化语音前端 服务成对调用,可以再次调用初始化接口,进行语音前端信号处理操作 输出;返回值等 7.2.7前端语音处理服务输入参数说明 前端语音处理服务输人参数说明见表2 表2前端语音处理服务输入参数 功能 必备项 可选项 初始化前端信号处理服务 会话句柄,前端信号处理相关的多个参数 开启语音前端信号处理 会话句柄 此次前端信号处理的参数 获取前端服务处理后音频数据 会话句柄 写人语音数据 会话句柄,音频数据块,音频长度 停止语音前端信号处理 会话句柄 退出语音前端信号处理服务 会话句柄 7.3语音唤醒服务 7.3.1初始化语音唤醒服务 行为描述:初始化语音唤醒服务,设置参数 输出:会话句柄、返回值等 创建唤醒命令词字典 7.3.2 行为描述;将唤醒词添加到语音唤醒服务实例中,并生成相应语法字典句柄 输出:返回值等 7.3.3启动语音唤醒 行为描述:开启一次语音唤醒 输出:会话句柄,返回值等 7.3.4写入数据 行为描述,写人经前端服务处理后的音频数据 输出;返回值等 7.3.5获取唤醒结果 行为描述;获取语音唤醒服务结果 输出;唤醒结果、返回值等 7.3.6停止语音唤醒 行为描述:停止当次语音唤醒
GB/T35312一2017 输出;返回值等 7.3.7退出语音唤醒服务 行为描述;结束语音唤醒服务,释放资源 输出;返回值等 7.3.8语音唤醒服务输入参数说明 语音唤醒模块输人参数说明见表3 表3语音唤醒服务输入参数 功能 必备项 可选项 初始化语音唤醒服务 会话句柄,采样率,数据路径 静音时长,等待时长 创建唤醒命令词字典 会话句柄,唤醒命令词条 启动语音唤醒 会话句柄 写人数据 会话句柄,音频数据块,音频长度 获取唤醒结果 会话句柄 停止语音唤醒 会话句柄 退出语音唤醒服务 会话句树 7.4语音识别服务 7.4.1初始化语音识别服务 行为描述;初始化语音识别服务,可以同时设置识别参数,参数有效范围为设置成功时起至语音识 别服务结束 输出:会话句柄,返回值等 7.4.2添加语音识别语法 行为描述:添加语音识别服务所用语法,语法的有效范围为添加成功时至移除识别语法 输出;返回值等 7.4.3启动语音识别 行为描述;启动一次语音识别服务,语音识别服务开始语音识别处理 输出:返回值等 7.4.4发送语音数据 行为描述:给当前启动的识别任务发送语音数据,此接口可重复调用,直到语音发送完毕或当次语 音识别结束即返回识别结果为止 输出:返回值等 7.4.5语音识别计算 行为描述:对发送的语音数据进行识别计算,此接口与发送语音数据接口配合重复多次调用,从而 10
GB/35312一2017 对服务接收到的语音数据进行识别计算,直到计算完成或返回识别结果 输出:识别计算过程中的服务运行状态信息及识别结果,如语音起点,语音尾点,语音太短和识别失 败等 7.4.6获取识别结果 行为描述:获取识别结果,此接口在服务返回有识别结果时调用,以便获取详细的识别结果信息 本接口为用户以格式化的形式返回识别结果,用户可以对其进行解析,从而获取所需的结果信息,进行 下一步的应用操作处理 输出识别结果(格式参照附录B) 7.4.7停止语音识别 行为描述:停止当次的语音识别,此接口必须在识别处理已经结束,并获取识别结果后调用,表示当 次语音识别结束,释放本次识别所需的资源 需要与启动语音识别成对调用,此接口调用后,再次调用 启动语音识别可以进行下一次的语音识别 输出;停止结果,返回值等 7.4.8移除识别语法 行为描述;从语音识别服务中移除识别语法,调用此接口移除后,下次启动识别前,可以再次调用添 加识别语法接口添加其他识别语法到识别服务中 此接口与添加语法接口需要成对调用 输出;移除结果,返回值等 7.4.9退出语音识别服务 行为描述;退出语音识别服务,释放服务所有资源 输出:返回值等 7.4.10语音识别服务输入参数说明 语音识别服务输人参数说明见表4 表4语音识别服务输入参数 功能 必备项 可选项 会话句柄,设置多个识别参数,如识别 初始化语音识别服务 语法等 吞加语音识别语法 会话句柄,识别语法文件 语法数据长度,类型等 启动语音识别 会话句柄 发送语音数据 会话句柄,音频数据块音频长度 语音识别计算 会话句柄 获取识别结果 会话句柄 停止语音识别 会话句柄 移除识别语法 会话句柄 退出语音识别服务 会话句柄 1
GB/T35312一2017 附 录 规范性附录 中文语音识别终端服务系统性能指标定义和测试基本要求 A.1语音识别终端服务系统性能指标定义 A.1.1语音唤醒 A.1.1.1唤醒率 语音唤醒正确的唤醒命令能够唤醒成功的次数与总次数之比 A.1.1.2拒识率 拒识率指用户发出唤醒命令,语音唤醒没有成功唤醒的情况统计 A.1.1.3虚警率 虚警率又称误识率,是指用户在未发出唤醒命令的情况下,语音唤醒错误地唤醒的情况统计 A.1.1.4实时率 语音唤醒服务响应速度的衡量指标,具体为唤醒服务的处理时间与输人语音时间长度的比值 该 指标值越低,表示响应速度越快 A.1.2语音识别 A.1.2.1识别率 语音识别的准确率,识别正确的次数除以识别总次数,一般以百分比的形式表示 此性能受外围的 多个因素影响,如性别,语速,发音准确度、环境噪声和传声器质量等 A.1.2.2拒识率 拒识率是指语音识别的失败率,识别失败的次数除以识别总次数,一般以百分比的形式表示 此性 能与识别服务内部参数相关,可进行相应的调整 .1.2.3实时率 A 实时率是用来衡量语音识别速度的性能指标,用开始识别处理到返回识别结果所耗费的时间与输 人语音的总时长之比来计算,一般以几倍实时,如1.2倍实时,来表示实时率指标 A.2语音识别终端服务系统测试基本要求 A.2.1测试环境 测试环境尽量接近真实的使用环境 参考指标;房间混响、平均噪声等级和噪声性质等 A.2.2环境噪声 语音识别服务使用时,周围环境干扰识别的噪声 12
GB/35312一2017 A.2.3回声源 回声源选取终端设备可能播放的典型内容 A.2.4测试条件 中文语音识别终端测试主要是采用具有统计意义的测试用户数量,男女比例各半,年龄分布能涵盖 主要用户群 测试人数至少在30人以上 录音模式分为近讲和远讲 近讲模式,用户利用近讲传声器进行录音,要求传声器接近用户口唇 建议小于0.15m;远讲模式,用户在远讲传声器的有效拾取距离内进行录音,建议大于1" m A.2.5语音唤醒测试 A.2.5.1唤醒测试 唤醒测试主要是指测试用户对特定的唤醒词在不同测试环境如商场、会议室等)下进行多次重复 的唤醒操作,统计唤醒成功的正确率,并除以测试总次数,即可得出语音唤醒服务的唤醒率 同时,记录 唤醒失败的次数,即可得出拒识率 A.2.5.2虚警测试 语音唤醒的虚警测试是在有嗓声干扰的环境(包括环境噪声和终端设备回声)下,开启语音唤醒服 务,连续测试24h以上(无用户测试),统计服务唤醒即误识别的平均次数,以去掉随机性干扰 A.2.5.3实时率测试 唤醒服务自动统计每次唤醒语音的时长及唤醒服务对语音处理的时长,然后进行统计分析,可得出 语音唤醒服务的实时率结果 A.2.6语音识别测试 A.2.6.1识别率测试 识别率测试主要是测试用户对测试命令词表(根据识别语法中涵盖的命令词进行均匀抽样组成,要 求覆盖所有样式的命令词)进行语音识别测试,并统计正确率 要求在不同测试环境下,进行多组重复 测试,统计每个测试环境下不同用户的正确率,然后进行统计分析,从而得出综合识别率 A.2.6.2拒识率测试 在识别率测试的过程中,对语音识别服务返回拒识的结果进行单独统计,并除以总的识别次数,就 可得出拒识率 A.2.6.3实时率测试 在识别率测试的过程中,服务中可自动统计每次识别语音的时长以及识别服务对语音识别处理的 时长,然后进行统计分析,可得出语音识别服务的实时率结果 13
GB/T35312一2017 附录 B 资料性附录) 语音唤醒和语音识别结果消息示例 B.1 语音唤醒结果消息示例 以下为JsON结构的唤醒结果示例 "version""1.0" "sentence-number':l 300, "beEin" "end":1000 "error-code":0 "workupresult" : "work- -up":true "score";90 B.2语音识别结果消息示例 以下为JsON结构的识别结果示例 "version";"1.0" 'sentence-number"':l "begin".800. "nd" ":l1400 erorcode".o "ecognition-resul";[ "candidatesentenee":[ ""识别终端服务" 'sentence "score";90 14
GB/35312一2017 "eandidatesentenee" "识别中断服务" 'sentence" "core";8o 15
GB/T35312一2017 考文献 参 [1]GB/T21023一2007中文语音识别系统通用技术规范 [[2] RFC5234语法规范的扩展巴科斯范式(AugmentedBNFforSyntaxSpeeifications:AB NF Format [[3]StandardECMA-404TheJsONDat atainterchange 16

中文语音识别终端服务接口规范GB/T35312-2017

随着智能化、便携化需求的增加,中文语音识别技术的发展越来越受到关注,而如何保证不同厂家的产品有良好的兼容性和互通性则成为了一个重要的问题。为此,国家质量监督检验检疫总局发布了中文语音识别终端服务接口规范GB/T35312-2017。

该规范的制定旨在为不同厂家提供统一的语音识别服务接口,以实现各种语音识别设备之间的互联互通,方便用户进行语音控制、语音输入等操作。

规范的主要内容

中文语音识别终端服务接口规范GB/T35312-2017主要包含以下内容:

  • 术语和定义
  • 接口设计原则和基本要求
  • 接口规范和功能定义
  • 接口参数说明和调用流程
  • 错误码及其含义
  • 附录:示例代码

其中,术语和定义部分为统一不同厂家之间的交流,避免因语言表述不同而带来的误解;接口设计原则和基本要求部分则为各厂家提供一个共同的规范标准,以保障设备的互通性;接口规范和功能定义部分则详细规定了各种语音识别服务接口的具体实现方式和应用场景。

规范的应用场景

中文语音识别终端服务接口规范GB/T35312-2017适用于各种语音识别设备和服务,例如:

  • 智能家居控制系统
  • 车载语音控制系统
  • 语音输入法
  • 智能机器人等

通过引入该规范,不同厂家的产品可以进行互联互通,为用户提供更加方便、快捷的服务体验。

和中文语音识别终端服务接口规范类似的标准

中文新闻图片内容描述元数据规范
上一篇 本文分享国家标准中文新闻图片内容描述元数据规范的全文阅读和高清PDF的下载,中文新闻图片内容描述元数据规范的编号:GB/T35311-2017。中文新闻图片内容描述元数据规范共有28页,发布于2018-04-01
模块化存储系统通用规范
本文分享国家标准模块化存储系统通用规范的全文阅读和高清PDF的下载,模块化存储系统通用规范的编号:GB/T35313-2017。模块化存储系统通用规范共有18页,发布于2018-07-01 下一篇
相关推荐