国家标准 GB/T34083一2017 中文语音识别互联网服务接口规范 SpeeificationofprogramminginterfaceforChiesespeeehreeognition iinternetservice 2017-07-31发布 2018-02-01实施国家质量监督检验检疫总局发布国家标准化管理委员会国家标准
GB/34083一2017 前言本标准按照GB/T1.1一2009给出的规则起草请注意本文件的某些内容可能涉及专利本文件的发布机构不承担识别这些专利的责任本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口本标准起草单位:科大讯飞股份有限公司电信集团公司、电子技术标准化研究院、苏州思必驰信息科技有限公司、北京慧听科技有限公司、阿里云计算有限公司、哈尔滨工业大学、科学院声学研究所本标准主要起草人:李洪亮、严峻、于继栋、朱恩德、程彩锋、张陈、胡修文、杨震、赵菁华、周伟达
GB/34083一2017 中文语音识别互联网服务接口规范范围本标准规定了中文语音识别服务系统在互联网环境下提供服务的能力范围、输人数据、输出数据、服务接口、接口返回值要求等本标准适用于基于互联网的中文语音识别服务系统接口的设计、开发和应用规范性引用文件下列文件对于本文件的应用是必不可少的凡是注日期的引用文件,仅注日期的版本适用于本文件凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 GB13000信息技术通用多八位编码字符集(U(CS)(GB13000一2010,IsO/IEC10646;2003,T 信息技术中文编码字符集 GB18030 中文语音识别系统通用技术规范 GB/T210232007 汉语拼音方案(第一届全国人民代表大会第五次会议决议通过 RFc2045多用途互联网邮件扩展第1部分;互联网消息体格式(MultipurposeIntermetMail Extensions(MIME)PartOne:FormatofInternetMessageBodies) RFC2586多用途互联网邮件扩展内容类型(TheAudio/116MIMEcontenttype) BNFfo forSyntaxSpeeifieations;ABNF RFr5234语法规范的扩展巴科斯范式(Augmented RFC5646语言标识标签(TagsforldentifyingLanguages) sRGs1.0语音识别语法规范(SpeehRecognmitionGrammar SpeeifieationVversionl.0) A 国际语音学会手册:国际音标使用指南(HandbookoftheInternationalPhoneticAssociation: GuidetotheUseofInternationalPhoneticAlphabet) 术语和定义下列术语和定义适用于本文件 3.1 语音识别speeehrecognitionm 将人类的声音信号转化为文字或者指令的过程 [GB/T210232007,定义3.1] 3.2 语音识别语法speechreeogmitiongrammau 识别语法recognitiongrammmar 语法 grammar 语音识别引擎进行语音识别所需的语句形式和语法要索,语法要素包括词汇、词汇模式、词汇语言等 3.3 命令字识别 commandwordrecognition -种基于语音识别语法的语音识别方式,是在语音识别语法规则限定的范围内,对于给定的语音输
GB/T34083一2017 ,语音识别引擎给出语音识别语法覆盖范围内的文本或拒识作为识别结果人 3.4 nition 连续语音识别 continuousspeechrecogni 识别任意的连续语音,并给出相对应的文本注:连续语音识别不限制用户说话的词汇、内容和方式,用户可以以任意说的形式输人语音 3.5 语音识别结果speeehrecognitionresult 识别结果reeognitionresult 语音信号经语音识别后得到的文字或指令 3.6 热词集howords 由用户或应用程序定义的结构化关键词集合 3.7 扩展巴科斯范式AugmentelBaekus-NaurForm;ABNF -种用于描述给定源语言语法的增强形式化符号注:扩展巴科斯范式相对于巴科斯范式在命名规则、取值范围等方面做了很多改进 3.8 可扩展置标语言语法grammarextensiblemmarkuplanguage;GRXML -种基于可扩展置标语言(XML)的语音识别语法规范 3.9 个性化识别personalizedrecognitionm 分为应用级个性化识别和用户级个性化识别应用级个性化识别是面向应用程序的个性化定制,既包括应用程序开发者通过构建识别语法和热词集提升识别效果,又包括应用程序开发者根据自己应用程序的定位,选择不同年龄、性别的用户群体提取出声学模型,对识别效果进行优化用户级个性化识别是面向终端用户的个性化定制,既包括用户上传自己的热词集来优化识别效果又包括语音识别引擎针对用户提取声学模型,提升识别效果 3.10 JsoN数据交换格式javaseriptobjeetnotation;Jso --种基于文本,独立于语言的简便数据交换格式注JsoN定义了一套小规模的结构化规则来描述轻量级的结构化数据,以文字为基础,易于阅读和计算机分析 3.11 置信度阔值confidencethreshod 判定语音识别语法中某词条是否为识别结果的最低匹配度得分注，置信度阔值越高,识别结果越可信语音识别服务系统能力范围 4.1概述基于互联网的中文语音识别服务系统的能力范围指通过其接口能实现或驱动的功能集,包括基本功能和扩展功能两大类,基本功能是应具备的功能,扩展功能是宜具备的功能语音识别服务提供商可在本功能集的基础上扩展其他功能语音识别一般流程的示意图参见图1 图1自上而下表示一个完整的连续语音识别会话,主要包
GB/34083一2017 括开启会话,定义热词集、激活热词集、写人识别音频,获取语音识别结果和结束会话命令字识别一般流程与此类似语音识别引擎客户端组件服务器服务组件开自语音识别会话,没置会话参数 For0,NM, 定义热训集编详热词集激活热词集加截热词集 For0,M,1 写入识别音频语音产识别识别结果结束语音识别会话注1;定义热词集和激活热词集流程用虚线表示意即定义热词集和激活热词集不是必要的注2，虚线框内的“or0,N,1”表示起始值0,上限N,步长为1的循环图1语音识别一般流程示意图 4.2基本功能 4.2.1中文语音识别服务包括命令字识别和连续语音识别两种语音识别服务自定义语法 4.2.2 包括应用程序自定义语法和用户自定义语法 4.2.3网络交互语音识别服务系统提供具备网络交互功能的客户端组件,或提供可进行网络调用的接口 4.2.4音频端点检测语音识别服务系统对识别音频进行有效语音前后端点的检测,从音频流中分离出有效的语音 4.3扩展功能 4.3.1音频压缩和解压缩语音识别服务系统在发送端对识别音频进行压缩,在网络传输中使用压缩格式的音频,在接收端对接收到的压缩格式的音频进行解压缩 4.3.2个性化识别包括应用级个性化识别和用户级个性化识别某个用户的个性化识别相关数据不应对其他用户和
GB/T34083一2017 整个应用程序生效 4.3.3识别结果多候选语音识别结果中给出多个候选的识别结果供用户选择 4.3.4 自定义热词包括应用程序自定义热词集和用户自定义热词集语音识别服务系统在识别结果中给出是否为自定义热词的信息 4.3.5噪声抑制语音识别服务系统对识别音频进行噪声抑制,提高识别率 4.3.6识别结果进阶在语音识别结果分多次返回时,可用后继的识别结果对之前的结果进行修正,如插人、删除或修改部分内容 4.3.7语言信息语音识别结果中给出识别音频所对应的语言信息,如语种,方言种类等 4.3.8说话者信息语音识别结果中给出说话者信息,如性别、年龄段等输入数据 S 5.1语音识别音频数据格式要求语音识别服务系统的语音识别引擎应至少支持表1的音频数据格式表1音频数据格式音频数据格式音频数据格式描述无音频头8kHz采样率16位单声道小端次序PCM audio/116;rate=8000 无音频头16kHa采样率16位单声道小端次序PCM audio/Il6;rate=l6000 注:在进行语音识别时,音频数据格式由独立的参数写人语音识别引擎,引擎以此参数来获知将要进行识别的音频数据格式 5.2语音识别语法识别语法用在命令字识别中使用识别语法的过程包括定义语法和激活语法两个步骤定义语法指写人语音识别语法数据并经语音识别服务系统编译通过. 激活语法指加载一个已定义的识别语法，使之在语音识别过程中生效 -路语音识别会话应至少激活一个语法一路语音识别会话可定义和激活多个语法语法类型取值见表2 语音识别服务系统应支持abnf和grxml,宜支持buildin和key-words
GB/34083一2017 表2识别语法的类型语法类型取值规范使用规范 abnf 两种语法均为国际标准语法,其编写规范分在定义这两类语法时,每次应只定义一个别符合RFC5234和sRGs1.0 语法 grxml 一次激活多个本类型语法,此时多个语法可 buildin 语音识别引擎内置语法之间应以“,”(半角逗号)或“\r\n"回车换行符)隔开关键词列表,语音识别引擎据此生成标准格式的语法(abnf或grxml)激活后使用 key-words 格式规范和使用规范由语音识别服务提供商自定义注一路会话中激活多个语法时,每个语法被赋予一个权重值语音识别引擎优先匹配权重较大的语法,权重相同的语法按激活的顺序匹配语法的类型和权重分别在定义和激活语法时各自通过独立的参数写人语音识别引擎 5.3热词集热词集用在连续语音识别中,用来优化识别结果热词集是构建个性化应用的重要手段,是用户自定义词的方式识别结果应优先从热词集中选取使用热词集的过程包括定义热词集和激活热词集两个步骤定义热词集指写人热词集数据并经语音识别服务系统编译通过激活热词集指加载一个已定义的热词集,使之在语音识别过程中生效热词集的结构属性和格式规范由语音识别服务提供商自定义 5.4语音识别参数 5.4.1概述语音识别参数见表3 语音识别服务系统应支持基本集中的参数,宜支持扩展集中的参数 5.4定义的参数及其取值不应区分字母大小写表3语音识别参数参数序号功能定义集基本集指明会话类型 sessio-type/sst 指明网络交互超时间隔基本集 net-timeOut/ntt speek-timeout/stt 指明语音写人超时间隔基本集 confidencethreshold/efd 指明置信度阔值基本集指明识别结果格式 resultformat 基本集指明识别结果字符编码格式 result-encode/rse 基本集指明识别语法类型基本集 grammar-type/grt 指明识别语法权重基本集 grammmar-weight/grw grammar-encode/gre 基本集指明识别语法字符编码格式 10 vad-enable 开启音频端点检测基本集 11 audio-format/auf 指明识别音频数据格式基本集
GB/T34083一2017 表3(续序号参数功能定义集 12 audio-eneode/aue 指明识别音频压缩算法扩展集扩展集 13 iinput-eneode 指明输人音频所用压缩算法指明候选结果最大数量扩展集 14 nbest 15 指明识别音频所属语种扩展集 language/lang 16 dialect 指明识别音频所属方言扩展集 17 指明识别音频内容所属领域扩展集 dommain 18 service-mode 指明服务模式扩展集 19 vad-timeout 指明语音等待超时时长扩展集指明语音尾部静音长度扩展集 20 vadineomplete-timeout 21 denoiseenale 启用噪声抑制扩展集 22 指明识别结果类型扩展集 result-type/rst 23 指明会话是否为进阶模式扩展集 progressivemode 24 指明是否自动添加标点符号扩展集 punctuation 25 result-info 指明识别结果中的信息种类扩展集 26 hotwords-type 指明热词集类型扩展集扩展集 27 hotwords-encode 指明热词集字符编码格式扩展集 28 vendorx 自定义参数注:凡是以A/B形式出现的参数表示A与B的写法等价 5.4.2会话类型参数名;session-type 别名;sst 取值:字符串,取值包括continuous和command.continuous表示连续语音识别.command表示命令字识别缺省值为continuous 说明;语音识别会话类型 5.4.3网络交互超时参数名:nettimeout 别名;ntt 取值;整数,单位毫秒(ms>) 取值范围为-1和1一30000的整数，一1表示无超时限制缺省值为 10000 说明网络交互操作中,服务器在设定的时间内无响应即为超时 5.4.4语音写入超时参数名speak-time 2out 别名:st
GB/34083一2017 取值;整数,单位毫秒(ms) 取值范围为-1和1~30000的整数,-1表示无超时限制缺省值为 10000. 说明:用户写人语音未结束时在设定的时长内未继续写人语音即为超时 5.4.5置信度阙值参数名;confidence-threshold 别名;cfd 取值;浮点数,取值范围为0.0~100.0 缺省值为90.0 说明:本次语音识别所用置信度闵值,用于命令字识别中 5.4.6识别结果格式参数名;result-format 取值:字符串,取值包括plain(纯文本)json(JsON格式)和xml(XML格式) 应支持plain和 json 缺省值为json 说明识别结果的文本格式 5.4.7识别结果编码参数名;resultr-encode 别名;rse 取值:字符串,取值包括GB18030,GB13000等应支持GB18030,宜支持GB13000 缺省值为 GB18030 说明识别结果的字符编码格式 5.4.8语法类型参数名;grammar-type 别名:grt 取值:字符串,取值范围、各值含义和使用规范见5.2 缺省值为abnf 说明:识别语法的类型,用于命令字识别中 5.4.9语法权重参数名;grammarweight 别名:grw 取值:整数,取值范围为09 缺省值为5 说明识别语法的权重,用于命令字识别中 5.4.10语法编码参数名;grammarencode 别名:gre 取值;字符串,取值规范同5.4.7参数resulrencode 说明;识别语法的字符编码格式,用于命令字识别中如果识别语法结构包含其字符编码格式,则本参数无效 5.4.11开启音频端点检测参数名:vadenable
GB/T34083一2017 取值;布尔值,取值包括true和false true表示开启,false表示关闭缺省值为true. 说明:是否开启音频端点检测 5.4.12音频数据格式参数名:audio-format 别名:auf 取值:字符串,取值格式规范同RFC2045的Con ontent- t-Type参数,其各子参数取值规范符合RFC ;rate=8000、audio/Il6;rate e=1so0等应支持audio/LI6G;ste- e=8000和 2586 取值包括audio/L16; audio/Il6;rate=l6000 缺省值为audio/Ll6;rate=l6000 语音识别服务提供商可扩展支持其他采样率,也可扩展支持其他子参数说明;识别音频数据格式 5.4.13音频压缩算法参数名:audio-encode 别名;aue 取值字符串,取值格式规范同RFC2045的Content-Type参数,其中的type取值为audio .celt、silk等，其中raw表 suhusype取值包括taw 、pcma、pcmu、amr、amr-wb、speex、speex-wb、mp3、aac 示不压缩,pema和pemu分别表示Alaw和mulaw 对于支持可变码率编码的压缩算法,使用子参数 level(或简写为lvl)指定压缩等级如取值为“audio/amrwb;ll=7”时,语音识别服务系统在网络传输中使用amrwb算法的等级7压缩识别音频 subtype的取值除raw外,宜支持以上音颗压缩算达中的 -种或多种 subtype和level的缺省值由语音识别服务提供商自定义语音识别服务提供商可在此基础上扩展支持其他音频压缩算法说明;本参数用来指明使用何种压缩算法对识别音频压缩后进行网络传输如果语音识别服务系统不是通过客户端开发组件的方式提供服务,例如通过能直接进行网络调用的接口提供服务,则本参数无效 5.4.14输入音频压缩算法参数名:input-encode 取值;字符串,取值格式规范同5.4.13参数audio-encode,取值范围为语音识别服务提供商支持的 audioencode参数值集缺省值为audio/raw 说明;本参数在用户将压缩格式的音频写人语音识别服务系统时用来声明压缩音频所用压缩算法其源音频数据格式由参数audio-format(见5.4.12)指定 5.4.15多候选数量参数名;nbest 取值;整数,取值范围为130 缺省值为10. 说明:当识别结果包含多个候选的结果时,本参数指明允许的候选结果的最大数量 5.4.16语种参数名:language 别名:lang 取值;字符串,取值规范符合RFC5646 应支持中文zh-CN 缺省值为2h-CN 说明:识别音频所属的语种本标准包含此参数是为了保持与其他语种的语音识别系统的兼容性
GB/34083一2017 5.4.17方言参数名:dialect 取值:字符串,取值包括mandarin(普通话,cantonese(粤语等应支持mandarin 缺省值为中文语音识别服务提供商可扩展支持其他方言 mandarin 说明:识别音频所属的方言 5.4.18领域参数名:domain messa4ge(文本消息),weather(天气),mediceal医疗).scienceteehmology 取值:字符串,取值包括" 科技)等应支持message 缺省值为" message 中文语音识别服务提供商可扩展支持其他领域说明:不同领域有不同的词汇集,指明所属领域更有利于提高识别率 5.4.19服务模式参数名:servieemode 取值字符串,取值包括cdloud(云端识别,loceal(本地识别)和cloud十loeal(云十端混合模式》应支持cloud 缺省值为cloud 说明;服务模式,用户可选择本地提取识别音频特征数据然后发送到云端进行识别的云十端混合模式,也可在无网络的情况下选择本地识别音频等待超时时长 5,4.20 参数名;vadtimeout 取值;整数,单位毫秒(ms) 取值范围为一1和1~60000的整数,一1表示无超时限制缺省值为 10000 说明;有效语音等待超时时长如果用户写人的音频在指定的时长内未发现有效语音,即视为超时本参数在开启音频端点检测时有效 5.4.21音频尾部静音长度参数名;:vadincomplete-timeout 取值;整数,单位毫秒ms) 取值范围为一1和1一60000的整数，-1表示无超时限制缺省值为 10000 说明;有效语音尾部静音长度如果用户写人的音频在检测到有效语音后在指定的时长内未发现有效语音,即视为有效语音输人结束本参数在开启音频端点检测时有效 5.4.22开启噪音抑制参数名;denoise-enable 取值:布尔值,取值包括true和false,true表示开启,false表示关闭缺省值为true 说明:指明是否开启噪声抑制 5.4.23结果类型参数名:result-type 别名:rst 取值:字符串,取值包括word(字或词),sentence(整句)和paragraph(段落) 应支持word和 sen
GB/T34083一2017 tenee 缺省值为word 说明:识别结果的类型 5.4.24进阶模式参数名;progressive-mode 取值;布尔值,取值包括true和false,true表示进阶模式,false表示非进阶模式缺省值为false 说明指明识别会话是否为进阶模式非进阶模式下,多个识别结果按先后顺序拼接在一起组成完整的识别结果进阶模式下,可使用后继的识别结果对之前的识别结果进行修改、插人、删除等操作 5.4.25标点符号参数名:punetuation 取值;布尔值,取值包括true和false,true表示自动添加标点符号,false表示不添加缺省值为 true 说明:在识别结果中是否自动添加标点符号 5.4.26识别结果信息参数名;result-info 取值;字符串,取值为表4中所列参数或其组合,表中所列均为识别结果包含的信息参数当取值为多个参数的组合时,参数之间应由“|”(半角竖线)隔开缺省获取完整的识别结果及描述信息说明;用户使用本参数来指明识别结果中包含的信息种类表4resut-info取值允许的结果描述参数集合序号参数序号参数 confidencethreshold/efd SNR anguage/lang eror-reason dialect pinyin 10 score gender 11 age user-word role 注:凡是以A/B形式出现的参数表示A与B的写法等价 5.4.27热词集类型参数名:hotwords-type 取值;字符串,取值包括ID热词集标识符),text(热词集数据) 应支持ID 缺省值为ID 语音识别服务提供商可扩展其他热词集类型说明:热词集的类型 5.4.28热词集编码参数名;hot-words-encode 取值:字符串,取值规范同5.4.7参数result-encode 说明;热词集数据的字符编码格式如果语音识别服务提供商定义的热词集结构包含其字符编码 10
GB/34083一2017 格式,则本参数无效 5.4.29 自定义参数参数名;vendor-x 取值:字符串说明;语音识别服务提供商自定义的识别参数在自定义参数时用一个字符串替换参数名称中的 ,组成新的参数名,同时定义该参数的使用规范可自定义多个参数输出数据 6.1语音识别结果格式语音识别结果格式包括纯文本、JsON格式文本和XML格式文本三种 JsON格式的语音识别结果消息示例参见附录A,纯文本和XML格式的消息从略 6.2语音识别结果描述参数 6.2.1概述识别结果描述参数见表5 语音识别服务系统应支持基本集中的参数,宜支持扩展集中的参数 6.2定义的参数及其取值不应区分字母大小写如果用户使用参数resultinfo(见5.4.26)指明识别结果中包含的信息种类,语音识别服务系统在组织识别结果数据时,应符合62规定的结构表5语音识别结果描述参数序号参数定义集协议版本号基本集 version/ver sentence-number/sn 句子序号基本集 lastsentence/Is 是否为最后一句基本集开始识别时间基本集 begin end 结束识别时间基本集结果类型基本集 result-type/rst 错误码基本集 error-code 识别结果对象基本集 recognition-result eandidatewords 候选字集基本集 10 word 识别结果内容基本集 11 识别结果得分基本集 score 匹配的实例基本集 12 instance 13 匹配的语法基本集 grammmar 14 用户说话内容基本集 user-input 15 错误原因描述扩展集 error-reason 16 置信度阀值扩展集 confidencethreshold/efd 识别音频所属语种扩展集 17 language/lang 1
GB/T34083一2017 表5(续序号参数含义定义集 18 dialeet 识别音频所属方言扩展集 19 gender 说话者性别扩展集说话者年龄 age 20 扩展集说话者角色扩 "展集 21 role 22 进阶类型扩 "展集 progressive-type 23 进阶范围扩展集 progressiverange 24 SNR 信噪比扩展集 25 识别结果拼音扩展集 pinyin 26 user-word 是否为用户自定义热词扩展集 27 vendor-x 自定义参数扩展集注凡是以A/B形式出现的参数表示A与B的写法等价 6.2.2协议版本号参数名;version 别名:ver 取值:字符串,当前取值为0.1 说明:当前协议规范的版本号允许的父参数:无允许的子参数;无句子序号 6.2.3 参数名:sentence-number 别名;sn 取值:整数,从1开始,每次递增加1 说明:描述当前识别结果是整个识别结果的第几部分允许的父参数:无允许的子参数;无 6.2.4最后一句参数名:last-sentence 别名:ls 取值;布尔值,取值为true或false 说明;指明当前识别结果是否为最后一部分识别结果允许的父参数;无允许的子参数;无 6.2.5开始识别时间参数名:begin 12
GB/34083一2017 取值;正整数,单位毫秒(ms). 说明:当前识别结果对应的音频数据起始时间本参数可出现在不同的层次描述不同的对象允许的父参数:candidate-words 允许的子参数;无 6.2.6结束识别时间参数名:end 取值:正整数,单位毫秒(ms). 说明当前识别结果对应的音频数据结束时间本参数可出现在不同的层次描述不同的对象允许的父参数:candidatewords 允许的子参数;无 6.2.7结果类型参数名;result-type 别名: rSt 取值;字符串,取值包括word(字或词),sentence(整句)和paragraph(段落) 说明:当前识别结果的类型允许的父参数;无允许的子参数:;无 6.2.8 错误码参数名:errorcode 取值;整数说明:指明识别过程成功与否,0值表示成功,非0值表示错误,不同的非0值对应不同的错误原因允许的父参数无允许的子参数:;无 6.2.9识别结果对象参数名;recognition-result 取值:对象数组说明:识别结果的文本内容及其描述信息允许的父参数:无允许的子参数:candidate-words、grammar、 ,user-input 6.2.10候选字集参数名:candidate-words 取值:对象数组本参数在识别会话为进阶模式(见5.4.24)时,不应有多于1个的元素说明;本参数表明当前数组对象内部的结果是同- 段音频的多个候选结果,用户可从中选择允许的父参数;recognition-result 允许的子参数:word,begin,end,userword,instance、score、pinyin 6.2.11 识别结果内容参数名;word 13
GB/T34083一2017 取值字符串说明:表示一段音频识别结果的文字内容允许的父参数:candidate- -words 允许的子参数:无 6.2.12识别结果得分参数名:score 取值:浮点数,取值范围为0.0~100.0. 说明识别结果内容对应的匹配得分识别结果得分越高就越可信允许的父参数:candidatewords 允许的子参数;无 6.2.13匹配实例参数名:instance 取值:字符串说明;匹配到的语法中的词条用于命令字识别中允许的父参数:candidate-words 允许的子参数;无 6.2.14匹配语法参数名;grammar 取值;字符串说明;匹配到的词条所在的语法用于命令字识别中允许的父参数;recognition-result 允许的子参数;无 6.2.15用户说话内容参数名:user-input 取值;字符串说明;用户说话的内容用于命令字识别中允许的父参数;recognition=result 允许的子参数;无 6.2.16错误原因描述参数名:error-reason 取值字符串说明:在error-code(见6.2.8)为非0值时,eror-reason描述发生错误的原因允许的父参数;无允许的子参数;无 6.2.17置信度闭值参数名:confidence-threshold 别名:cd 14
GB/34083一2017 取值:浮点数,取值范围为0.0~100.0 说明;本次识别所用的置信度囤值用于命令字识别中允许的父参数:无允许的子参数;无 6.2.18 语种参数名:language 别名:lang 取值;字符串,取值规范符合RFC5646 说明:识别音频所属的语种本标准包含此参数是为了保持与其他语种语音识别系统的兼容性允许的父参数;无允许的子参数:无 6.2.19方言参数名:dialect 取值:字符串说明识别音频所属的方言允许的父参数;无允许的子参数;无 6.2.20 性别参数名;gender 取值;字符串,取值包括male(男、.female(女) 说明说话人的性别允许的父参数;无允许的子参数;无 6.2.21年龄参数名;age 取值;字符串,取值包括child(少年),youth(青年),adult(成年)、elder(老人). 说明说话人的年龄允许的父参数;无允许的子参数;无 6.2.22角色参数名;role 取值:整数,取值范围大于等于1,序数含义说明;指明在多人说话的场景中,当前识别结果是哪个人说的内容允许的父参数:;无允许的子参数:无 6.2.23进阶类型参数名;progressive-type 15
GB/T34083一2017 取值;字符串,取值包括append(附加),overwrite(盖写),insert(插人)和delete(删除) append表示将当前识别结果直接追加在之前的识别结果之后;overwrite表示用当前识别结果覆盖之前的部分或全部识别结果;insert表示将当前识别结果插人到之前识别结果的某个位置;delete表示删除之前的部分或全部识别结果,此时当前识别结果中recognition-resul ult(见6.2.9)字段不应包含任何元素盖写删除的范围和插人的位置由参数progressive-range(见6.2.24)指定说明:本参数在本路识别会话为进阶模式时有效(见5.4.24),描述当前识别结果相对于之前识别结果的进阶类型允许的父参数:无允许的子参数:无 6.2.24进阶范围 progressive-range 参数名:p 取值;对象,两个整数组成的范围,单位均为字节(B) 第一个整数表示起点,第二个整数表示从起点算起的长度说明;本参数在识别会话为进阶模式且 progresiveype(见6.2.23)值不为apend时有效 prO pe值为overwrite或delete时,本参数指明盖写或删除的范围; essive-type值为insert prOgre: gressIVe-tyP 时,本参数指明插人的位置,此时第二个整数为0 允许的父参数;无允许的子参数;无 6.2.25信噪比参数名:sNR 取值;浮点数,单位分贝(dB) 说明;识别音频的信噪比信噪比定义见GB/T21023一2007中4.6 允许的父参数;无允许的子参数;无 6.2.26识别结果拼音参数名;pinyinm 取值:字符串,描述的文本为中文字符时,取值应为每一个字符对应的汉语拼音按字符先后顺序拼接起来的字符串,中间不加分隔符每一个字符对应的汉语拼音声韵组合规律应符合《汉语拼音方案》声调中的阴平、阳平、上声、去声和轻声应分别用1、2、3、4和0表示,如“北京”的普通话汉语拼音表示为 bei3jing1l” 普通话声母和韵母见《汉语拼音方案》中的声母表和韵母表,其他汉语方言的声母和韵母见国际语音学会编著的《国际语音学会手册;国际音标使用指南》非中文字符可不进行拼音标注,省略参数或取值为空说明:识别结果内容对应的拼音允许的父参数:candidatc-words 允许的子参数:无 6.2.27 用户自定义热词参数名:user word 取值:布尔值,取值包括true或false. 说明:描述的对象是否为应用程序或用户自定义的热词 16
GB/34083一2017 允许的父参数;candidate-words 允许的子参数;无 6.2.28自定义参数参数名;vendor-r 取值:字符串说明:中文语音识别服务提供商自定义的识别结果描述参数在自定义参数时用一个字符串替换参数名称中的“”,组成新的参数名,同时定义该参数的使用规范可自定义多个参数允许的父参数;不做定义允许的子参数;不做定义服务接口 7.1概述服务接口包括基础语音识别服务接口和数据操作接口在一路会话中定义的识别语法或热词集不应在该路会话之外激活,通过数据操作接口定义的识别语法或热词集在删除之前可在不同的会话中激活 7.3.2定义的接口不应被用于大数据量识别语法数据的上载 7.3.4定义的接口不应被用于大数据量热词集数据的上载大数据量识别语法数据或热词集数据的上载、编辑等操作应通过其他方式如网页进行 “大数据量数据”指因数据量大须分多次才能完成上载、下载等操作的数据 7.2语音识别服务接口 7.2.1初始化组件接口行为;初始化语音识别服务系统客户端组件,或客户端组件语音识别部分如果语音识别服务系统不是通过客户端开发组件的方式提供服务,则本接口可省略本接口应和逆初始化组件见 7.2.10接口配对使用接口输人:不做定义接口输出:返回值等 7.2.2创建语音识别会话接口行为;创建一路语音识别会话,可同时设置会话参数,参数有效范围应为设置成功时起至本路会话结束接口输人:可选;识别会话参数等可一次设置多个会话参数接口输出:会话句柄、返回值等 7.2.3设置语音识别会话参数接口行为;设置一路语音识别会话的参数,参数有效范围应为设置成功时起至本路会话结束接口输人:必备:会话句柄,识别会话参数可一次设置多个会话参数接口输出:返回值等 7.2.4定义,激活识别语法接口行为:当写人的是识别语法数据时,本接口定义并激活该语法当写人的是build-in语法(见 17
GB/T34083一2017 表2)或已定义语法的标识符(ID)时,本接口激活该语法语法有效范围应为激活成功时起至本路会话结束接口输人;必备;会话句柄、识别语法数据或语法ID 可选;语法数据长度、语法编码,语法类型,语法权重等接口输出:返回值等 7.2.5定义、激活热词集接口行为当写人的是热词集数据时,本接口定义并激活该热词集当写人的是已定义热词集的标识符(ID)时,本接口激活该热词集热词集有效范围应为激活成功时起至本路会话结束接口输人:必备;会话句柄热词集数据或热词集ID 可选;热词集类型、热词集编码、热词集数据长度等接口输出;返回值等 7.2.6写入识别音频接口行为:写人一路语音识别会话所用识别音频本接口可被反复调用以便于大数据量的识别音频分多次写人,音频写人是否结束应使用音频状态参数指定接口输人:必备:会话句柄、识别音频、识别音频长度、音频状态接口输出;返回值等 7.2.7停止语音识别接口行为:停止当前的语音识别,系统应忽略剩余的识别音频和用户尚未获取的识别结果本接口被调用后,用户可重新设置会话参数,定义,激活识别语法或热词集,再次写人识别音频开始语音识别接口输人:必备:会话句柄接口输出;返回值等 7.2.8获取语音识别结果接口行为:获取本路语音识别会话的识别结果本接口可被反复调用以获取完整的识别结果接口输人:必备:会话句柄接口输出;识别结果、返回值等 7.2.9结束语音识别会话接口行为;结束一路语音识别会话,释放资源接口输人;必备;会话句柄接口输出;返回值等 7.2.10逆初始化组件接口行为;逆初始化语音识别服务系统客户端组件,或客户端组件语音识别部分,释放资源如果语音识别服务系统不是通过客户端开发组件的方式提供服务,则本接口可省略接口输人:不做定义接口输出:返回值等 7.3数据操作接口 7.3.1用户登录接口行为:用户写人用户标识符,进行登录 18
GB/34083一2017 接口输人;必备;用户标识符可选;用户密码等接口输出;登录句柄、返回值等 7.3.2上载识别语法接口行为:用户或应用程序上载识别语法数据,定义语法接口输人:必备;登录句柄,语法数据,语法类型可选;语法编码,语法数据长度等接口输出:识别语法ID,返回值等 7.3.3删除识别语法接口行为:删除一个或多个已定义的识别语法接口输人:必备;登录句柄识别语法ID列表接口输出.返回值等 7.3.4上载热词集接口行为;用户或应用程序上载热词集数据,定义热词集接口输人;必备,登录句柄,热词集数据可选;热间集编码,热词集数撒长度等接口输出热词集ID,返回值等 7.3.5删除热词集接口行为;刷除一个或多个已定义的热词集接口输人:必备:登录句柄、热词集ID列表接口输出;返回值等 7.3.6用户注销接口行为;用户退出登录接口输人:必备:登录句柄接口输出;返回值等接口返回值要求 8 被正确执行的接口返回值应为0,否则应返回非0值,不同的非0值应对应不同的错误原因 19
GB/T34083一2017 附录 A 资料性附录) 语音识别结果消息示例 A.1一般识别结果消息示例个简单的识别结果为“北京天安门”的消息示例如下 "version""0.1" sentence-number" "lastsentence":true, 'begin 2000 end result-type""word" errorcode":0, recognition-result" "eandidate-word";[ "word";"北京" 100. "beginm "end":800 'eandidate-word";[ "word""天安门" "begin":1000. "end":1900 A.2语言,说话者信息消息示例识别结果为“北京天安门”,说话者为中年男性,所用语言为中文,方言为普通话,消息示例如下 20
GB/34083一2017 "0.1" version entence-numbe" last-Sentence”true， begin 2000 'word" -type adul c0de recognition-result" "candidate-word、" "word""北京" "begin":100, "end'":800 'candidate-words":C "word";"天安门" "begin":1000， "end":1900 A.3不同结果类型消息示例结果类型为“word”的消息见A.1和A.2,结果类型为“sentence”的消息示例如下 "0.1" "version entence-numbe" "last-sentence":true， "be begin
GB/T34083一2017 end" 2000. "re sentence resnlt-lype "error-code" "recognition=result" eandidate-word":[ "word";"北京天安门", "begin":100 end":1900 A.4进阶模式消息示例 A.4.1附加当前识别会话为进阶模式时,假设识别结果为“北京天安门怎么走?”,分两次返回,第一次返回的消息如下 "version""0.1" sentence-number":l ast-sentence":false "begin 2000 enC -type "word" "append" progressive-iype error-code" recognition-result" eandidate-word";[ "word";"北京" begin":100. "end":800 "candidate-words": 22
GB/34083一2017 "word""天安门" "begin":1000 "end":1900 第二次返回的消息如下 "version""0.1" sentence-number" 2 "last-sentence" true， 2000. begIn 3200 end "word" reSult-type progressive-ype "append" 0 error-code" recognition-result" "candidate-words" "word""怎么" N begin":2200, "end":2700 "eandidate-words":[ "word""走" 'begin"2800. "end":3000 "candidate-word":[ 23
GB/T34083一2017 ym "word" A.4.2盖写当前识别会话为进阶模式时,假设正确的识别结果为“北京天安门”,分两次返回给用户,第一次返回的消息如下 "version""0.1" sentence-number":1， "last-sentence":false， begin 0 end":2000. result-type""word" progressive-type "append" error-code" 0 recognition-result" "eandidate-words"; "word""背景" "begin":l00 'end":800 "eandidate-words":[ "word""天安门" "begin":100o "end":1900 24
GB/34083一2017 第二次返回的消息如下: "0.1" "version" entence-number":2. last-Sentence”true， begin 900 end reSult-type word "overwrite progreSsive-type progressive-range "error-code":0. recognition-result": "candidate-word":[ "word""北京" "begin":100， "end'":800 A.4.3插入当前识别会话为进阶模式时,假设识别结果为“北京天气怎么样?”,分两次返回给用户,第一次返回的消息如下 "version";"0.1" entence-number":1. ”\e last-sentence";false, "begin"0. "end":3200. result-type";"word" 'progressive-1ype""append" "error-code":0 "recognition-result": 25
GB/T34083一2017 "candidate-word":C "word""北京" "begin":100. "end":800 "candidateword":[ "word""怎么样" "begin":2000， 'end":2900 candidate-words": "？" "word" 第二次返回的消息如下 "version""0.1" 'sentence-number":2 "last-sentence":true begin":1000. "nd";1900. word" result-type" "in insert progressive-type" progressive-range" "error-code":0 recognition-result":[ 26
GB/34083一2017 "candidate-word":[ "word""天气" "begin';l100. "end":1800 A.4.4删除当前识别会话为进阶模式时,假设正确的识别结果为“北京天安门”,分两次返回给用户,第一次返回的消息如下; "version""0.1" sentencenumber":1 "last-sentence" false， begIn 2000 end "word" result-type "append" O code recognition-result": "candidate-words": "word";"北京" begin":100. "endl":800 "eandidate-word":[ "word""嗯啊" "begin"900. 'end":1000 27

中文语音识别互联网服务接口规范GB/T34083-2017

随着人工智能技术的不断发展，中文语音识别已经成为现代信息技术领域的一个热门话题。中文语音识别技术的应用范围越来越广泛，如智能家居、智能客服、语音搜索等。而与之相对应的，就是需要有一套标准化的互联网服务接口规范来规范中文语音识别技术的实现和应用。

规范的意义和作用

中文语音识别互联网服务接口规范GB/T34083-2017，是由中国国家标准化管理委员会发布的标准，其主要目的是为了规范中文语音识别技术在互联网服务中的应用，提升中文语音识别技术的准确性和稳定性。

规范的主要作用包括：

提高中文语音识别技术的应用效果，降低实施成本；
促进中文语音识别技术的标准化和产业化发展；
统一中文语音识别互联网服务接口的规范，确保互操作性；
加强中文语音识别互联网服务接口的安全性，保护用户隐私。

规范的基本要求

中文语音识别互联网服务接口规范GB/T34083-2017的基本要求包括：

定义了中文语音识别互联网服务接口的基本架构、数据格式和通信协议等；
规定了中文语音识别互联网服务接口的相关参数及其取值范围，例如采样率、编码方式、声道数等；
规定了中文语音识别互联网服务接口的错误码和错误信息，方便开发者进行问题排查；
规定了中文语音识别互联网服务接口的鉴权方式和安全机制，保障用户信息的安全。

规范的主要技术特点

中文语音识别互联网服务接口规范GB/T34083-2017具有以下主要技术特点：

支持多种语音格式，例如PCM、WAV等；
支持多种语音编码方式，例如G.711、G.729等；
支持多种语言检测功能，例如自动语音检测、手动语言检测等；
支持多种鉴权方式和安全机制，例如API密钥、数字证书等；
支持多种错误处理方式，例如重试机制、报错机制等。

结语

中文语音识别互联网服务接口规范GB/T34083-2017的出现，标志着中文语音识别技术已经进入了规范化的阶段，这对于中文语音识别技术的未来发展具有重要的意义。随着中文语音识别技术的不断进步和完善，相信这一规范将会更加完善和健全，为中文语音识别技术在各个领域的应用提供更好的保障。

中文语音识别互联网服务接口规范的相关资料

和中文语音识别互联网服务接口规范类似的标准

GB/T21023-2007

中文语音识别系统通用技术规范

2022/11/2 23:22:35 现行

GB/T34083-2017

中文语音识别互联网服务接口规范

2022/9/17 10:31:00 现行

GB/T35312-2017

中文语音识别终端服务接口规范

2022/8/24 0:55:30 现行

声明： 本站所有资源均来源于互联网，本站仅作为观摩学习的环境，将不对任何资源负法律责任。如果无意侵犯了您的权利，请及时发送邮件到“abc@gbbz.net”，本站会第一时间进行改正或删除处理，保证您的权利！本站资源仅供学习和参考，请勿用于商业用途，并请于下载后24小时内删除，否则产生的一切后果将由您承担！

GB/T34083-2017

中文语音识别互联网服务接口规范

SpecificationofprogramminginterfaceforChinesespeechrecognitioninternetservice

以图片形式预览中文语音识别互联网服务接口规范

中文语音识别互联网服务接口规范

中文语音识别互联网服务接口规范GB/T34083-2017

中文语音识别互联网服务接口规范的相关资料

和中文语音识别互联网服务接口规范类似的标准

相关推荐

计算机软件文档编制规范

信息技术软件工程术语

计算机软件测试文档编制规范

计算机软件需求规格说明规范

计算机软件测试规范

标签