GB/T34083-2017

中文语音识别互联网服务接口规范

SpecificationofprogramminginterfaceforChinesespeechrecognitioninternetservice

本文分享国家标准中文语音识别互联网服务接口规范的全文阅读和高清PDF的下载,中文语音识别互联网服务接口规范的编号:GB/T34083-2017。中文语音识别互联网服务接口规范共有34页,发布于2018-02-01
  • 中国标准分类号(CCS)L77
  • 国际标准分类号(ICS)35.080
  • 实施日期2018-02-01
  • 文件格式PDF
  • 文本页数34页
  • 文件大小1.87M

以图片形式预览中文语音识别互联网服务接口规范

中文语音识别互联网服务接口规范


国家标准 GB/T34083一2017 中文语音识别互联网服务接口规范 SpeeificationofprogramminginterfaceforChiesespeeehreeognition iinternetservice 2017-07-31发布 2018-02-01实施 国家质量监督检验检疫总局 发布 国家标准化管理委员会国家标准
GB/34083一2017 前 言 本标准按照GB/T1.1一2009给出的规则起草 请注意本文件的某些内容可能涉及专利 本文件的发布机构不承担识别这些专利的责任 本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口 本标准起草单位:科大讯飞股份有限公司电信集团公司、电子技术标准化研究院、苏州思 必驰信息科技有限公司、北京慧听科技有限公司、阿里云计算有限公司、哈尔滨工业大学、科学院声 学研究所 本标准主要起草人:李洪亮、严峻、于继栋、朱恩德、程彩锋、张陈、胡修文、杨震、赵菁华、周伟达
GB/34083一2017 中文语音识别互联网服务接口规范 范围 本标准规定了中文语音识别服务系统在互联网环境下提供服务的能力范围、输人数据、输出数据、 服务接口、接口返回值要求等 本标准适用于基于互联网的中文语音识别服务系统接口的设计、开发和应用 规范性引用文件 下列文件对于本文件的应用是必不可少的 凡是注日期的引用文件,仅注日期的版本适用于本文 件 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 GB13000信息技术通用多八位编码字符集(U(CS)(GB13000一2010,IsO/IEC10646;2003,T 信息技术中文编码字符集 GB18030 中文语音识别系统通用技术规范 GB/T210232007 汉语拼音方案(第一届全国人民代表大会第五次会议决议通过 RFc2045多用途互联网邮件扩展第1部分;互联网消息体格式(MultipurposeIntermetMail Extensions(MIME)PartOne:FormatofInternetMessageBodies) RFC2586多用途互联网邮件扩展内容类型(TheAudio/116MIMEcontenttype) BNFfo forSyntaxSpeeifieations;ABNF RFr5234语法规范的扩展巴科斯范式(Augmented RFC5646语言标识标签(TagsforldentifyingLanguages) sRGs1.0语音识别语法规范(SpeehRecognmitionGrammar SpeeifieationVversionl.0) A 国际语音学会手册:国际音标使用指南(HandbookoftheInternationalPhoneticAssociation: GuidetotheUseofInternationalPhoneticAlphabet) 术语和定义 下列术语和定义适用于本文件 3.1 语音识别speeehrecognitionm 将人类的声音信号转化为文字或者指令的过程 [GB/T210232007,定义3.1] 3.2 语音识别语法speechreeogmitiongrammau 识别语法recognitiongrammmar 语法 grammar 语音识别引擎进行语音识别所需的语句形式和语法要索,语法要素包括词汇、词汇模式、词汇语 言等 3.3 命令字识别 commandwordrecognition -种基于语音识别语法的语音识别方式,是在语音识别语法规则限定的范围内,对于给定的语音输
GB/T34083一2017 ,语音识别引擎给出语音识别语法覆盖范围内的文本或拒识作为识别结果 人 3.4 nition 连续语音识别 continuousspeechrecogni 识别任意的连续语音,并给出相对应的文本 注:连续语音识别不限制用户说话的词汇、内容和方式,用户可以以任意说的形式输人语音 3.5 语音识别结果speeehrecognitionresult 识别结果reeognitionresult 语音信号经语音识别后得到的文字或指令 3.6 热词集howords 由用户或应用程序定义的结构化关键词集合 3.7 扩展巴科斯范式AugmentelBaekus-NaurForm;ABNF -种用于描述给定源语言语法的增强形式化符号 注:扩展巴科斯范式相对于巴科斯范式在命名规则、取值范围等方面做了很多改进 3.8 可扩展置标语言语法grammarextensiblemmarkuplanguage;GRXML -种基于可扩展置标语言(XML)的语音识别语法规范 3.9 个性化识别personalizedrecognitionm 分为应用级个性化识别和用户级个性化识别 应用级个性化识别是面向应用程序的个性化定制,既包括应用程序开发者通过构建识别语法和热 词集提升识别效果,又包括应用程序开发者根据自己应用程序的定位,选择不同年龄、性别的用户群体 提取出声学模型,对识别效果进行优化 用户级个性化识别是面向终端用户的个性化定制,既包括用户上传自己的热词集来优化识别效果 又包括语音识别引擎针对用户提取声学模型,提升识别效果 3.10 JsoN数据交换格式javaseriptobjeetnotation;Jso --种基于文本,独立于语言的简便数据交换格式 注JsoN定义了一套小规模的结构化规则来描述轻量级的结构化数据,以文字为基础,易于阅读和计算机分析 3.11 置信度阔值confidencethreshod 判定语音识别语法中某词条是否为识别结果的最低匹配度得分 注,置信度阔值越高,识别结果越可信 语音识别服务系统能力范围 4.1概述 基于互联网的中文语音识别服务系统的能力范围指通过其接口能实现或驱动的功能集,包括基本 功能和扩展功能两大类,基本功能是应具备的功能,扩展功能是宜具备的功能 语音识别服务提供商可 在本功能集的基础上扩展其他功能 语音识别一般流程的示意图参见图1 图1自上而下表示一个完整的连续语音识别会话,主要包
GB/34083一2017 括开启会话,定义热词集、激活热词集、写人识别音频,获取语音识别结果和结束会话 命令字识别一般 流程与此类似 语音识别引擎 客户端组件 服务器服务组件 开自语音识别会话,没置会话参数 For0,NM, 定义热训集 编详 热词集 激活热词集 加截 热词集 For0,M,1 写入识别音频 语音产 识别 识别结果 结束语音识别会话 注1;定义热词集和激活热词集流程用虚线表示意即定义热词集和激活热词集不是必要的 注2,虚线框内的“or0,N,1”表示起始值0,上限N,步长为1的循环 图1语音识别一般流程示意图 4.2基本功能 4.2.1中文语音识别服务 包括命令字识别和连续语音识别两种语音识别服务 自定义语法 4.2.2 包括应用程序自定义语法和用户自定义语法 4.2.3网络交互 语音识别服务系统提供具备网络交互功能的客户端组件,或提供可进行网络调用的接口 4.2.4音频端点检测 语音识别服务系统对识别音频进行有效语音前后端点的检测,从音频流中分离出有效的语音 4.3扩展功能 4.3.1音频压缩和解压缩 语音识别服务系统在发送端对识别音频进行压缩,在网络传输中使用压缩格式的音频,在接收端对 接收到的压缩格式的音频进行解压缩 4.3.2个性化识别 包括应用级个性化识别和用户级个性化识别 某个用户的个性化识别相关数据不应对其他用户和
GB/T34083一2017 整个应用程序生效 4.3.3识别结果多候选 语音识别结果中给出多个候选的识别结果供用户选择 4.3.4 自定义热词 包括应用程序自定义热词集和用户自定义热词集 语音识别服务系统在识别结果中给出是否为自 定义热词的信息 4.3.5噪声抑制 语音识别服务系统对识别音频进行噪声抑制,提高识别率 4.3.6识别结果进阶 在语音识别结果分多次返回时,可用后继的识别结果对之前的结果进行修正,如插人、删除或修改 部分内容 4.3.7语言信息 语音识别结果中给出识别音频所对应的语言信息,如语种,方言种类等 4.3.8说话者信息 语音识别结果中给出说话者信息,如性别、年龄段等 输入数据 S 5.1语音识别音频数据格式要求 语音识别服务系统的语音识别引擎应至少支持表1的音频数据格式 表1音频数据格式 音频数据格式 音频数据格式描述 无音频头8kHz采样率16位单声道小端次序PCM audio/116;rate=8000 无音频头16kHa采样率16位单声道小端次序PCM audio/Il6;rate=l6000 注:在进行语音识别时,音频数据格式由独立的参数写人语音识别引擎,引擎以此参数来获知将要进行识别的音 频数据格式 5.2语音识别语法 识别语法用在命令字识别中 使用识别语法的过程包括定义语法和激活语法两个步骤 定义语法 指写人语音识别语法数据并经语音识别服务系统编译通过. 激活语法指加载一个已定义的识别语法, 使之在语音识别过程中生效 -路语音识别会话应至少激活一个语法 一路语音识别会话可定义和激活多个语法 语法类型取值见表2 语音识别服务系统应支持abnf和grxml,宜支持buildin和key-words
GB/34083一2017 表2识别语法的类型 语法类型 取值规范 使用规范 abnf 两种语法均为国际标准语法,其编写规范分在定义这两类语法时,每次应只定义一个 别符合RFC5234和sRGs1.0 语法 grxml 一次激活多个本类型语法,此时多个语法 可 buildin 语音识别引擎内置语法 之间应以“,”(半角逗号)或“\r\n"回车换行 符)隔开 关键词列表,语音识别引擎据此生成标准格式的语法(abnf或grxml)激活后使用 key-words 格式规范和使用规范由语音识别服务提供商自定义 注一路会话中激活多个语法时,每个语法被赋予一个权重值 语音识别引擎优先匹配权重较大的语法,权重相 同的语法按激活的顺序匹配 语法的类型和权重分别在定义和激活语法时各自通过独立的参数写人语音识 别引擎 5.3热词集 热词集用在连续语音识别中,用来优化识别结果 热词集是构建个性化应用的重要手段,是用户自 定义词的方式 识别结果应优先从热词集中选取 使用热词集的过程包括定义热词集和激活热词集两个步骤 定义热词集指写人热词集数据并经语 音识别服务系统编译通过 激活热词集指加载一个已定义的热词集,使之在语音识别过程中生效 热词集的结构属性和格式规范由语音识别服务提供商自定义 5.4语音识别参数 5.4.1概述 语音识别参数见表3 语音识别服务系统应支持基本集中的参数,宜支持扩展集中的参数 5.4定 义的参数及其取值不应区分字母大小写 表3语音识别参数 参数 序号 功能 定义集 基本集 指明会话类型 sessio-type/sst 指明网络交互超时间隔 基本集 net-timeOut/ntt speek-timeout/stt 指明语音写人超时间隔 基本集 confidencethreshold/efd 指明置信度阔值 基本集 指明识别结果格式 resultformat 基本集 指明识别结果字符编码格式 result-encode/rse 基本集 指明识别语法类型 基本集 grammar-type/grt 指明识别语法权重 基本集 grammmar-weight/grw grammar-encode/gre 基本集 指明识别语法字符编码格式 10 vad-enable 开启音频端点检测 基本集 11 audio-format/auf 指明识别音频数据格式 基本集
GB/T34083一2017 表3(续 序号 参数 功能 定义集 12 audio-eneode/aue 指明识别音频压缩算法 扩展集 扩展集 13 iinput-eneode 指明输人音频所用压缩算法 指明候选结果最大数量 扩展集 14 nbest 15 指明识别音频所属语种 扩展集 language/lang 16 dialect 指明识别音频所属方言 扩展集 17 指明识别音频内容所属领域 扩展集 dommain 18 service-mode 指明服务模式 扩展集 19 vad-timeout 指明语音等待超时时长 扩展集 指明语音尾部静音长度 扩展集 20 vadineomplete-timeout 21 denoiseenale 启用噪声抑制 扩 展集 22 指明识别结果类型 扩展集 result-type/rst 23 指明会话是否为进阶模式 扩展集 progressivemode 24 指明是否自动添加标点符号 扩展集 punctuation 25 result-info 指明识别结果中的信息种类 扩展集 26 hotwords-type 指明热词集类型 扩展集 扩展集 27 hotwords-encode 指明热词集字符编码格式 扩展集 28 vendorx 自定义参数 注:凡是以A/B形式出现的参数表示A与B的写法等价 5.4.2会话类型 参数名;session-type 别名;sst 取值:字符串,取值包括continuous和command.continuous表示连续语音识别.command表示命 令字识别 缺省值为continuous 说明;语音识别会话类型 5.4.3网络交互超时 参数名:nettimeout 别名;ntt 取值;整数,单位毫秒(ms>) 取值范围为-1和1一30000的整数,一1表示无超时限制 缺省值为 10000 说明网络交互操作中,服务器在设定的时间内无响应即为超时 5.4.4语音写入超时 参数名speak-time 2out 别名:st
GB/34083一2017 取值;整数,单位毫秒(ms) 取值范围为-1和1~30000的整数,-1表示无超时限制 缺省值为 10000. 说明:用户写人语音未结束时在设定的时长内未继续写人语音即为超时 5.4.5置信度阙值 参数名;confidence-threshold 别名;cfd 取值;浮点数,取值范围为0.0~100.0 缺省值为90.0 说明:本次语音识别所用置信度闵值,用于命令字识别中 5.4.6识别结果格式 参数名;result-format 取值:字符串,取值包括plain(纯文本)json(JsON格式)和xml(XML格式) 应支持plain和 json 缺省值为json 说明识别结果的文本格式 5.4.7识别结果编码 参数名;resultr-encode 别名;rse 取值:字符串,取值包括GB18030,GB13000等 应支持GB18030,宜支持GB13000 缺省值为 GB18030 说明识别结果的字符编码格式 5.4.8语法类型 参数名;grammar-type 别名:grt 取值:字符串,取值范围、各值含义和使用规范见5.2 缺省值为abnf 说明:识别语法的类型,用于命令字识别中 5.4.9语法权重 参数名;grammarweight 别名:grw 取值:整数,取值范围为09 缺省值为5 说明识别语法的权重,用于命令字识别中 5.4.10语法编码 参数名;grammarencode 别名:gre 取值;字符串,取值规范同5.4.7参数resulrencode 说明;识别语法的字符编码格式,用于命令字识别中 如果识别语法结构包含其字符编码格式,则 本参数无效 5.4.11开启音频端点检测 参数名:vadenable
GB/T34083一2017 取值;布尔值,取值包括true和false true表示开启,false表示关闭 缺省值为true. 说明:是否开启音频端点检测 5.4.12音频数据格式 参数名:audio-format 别名:auf 取值:字符串,取值格式规范同RFC2045的Con ontent- t-Type参数,其各子参数取值规范符合RFC ;rate=8000、audio/Il6;rate e=1so0等 应支持audio/LI6G;ste- e=8000和 2586 取值包括audio/L16; audio/Il6;rate=l6000 缺省值为audio/Ll6;rate=l6000 语音识别服务提供商可扩展支持其他采 样率,也可扩展支持其他子参数 说明;识别音频数据格式 5.4.13音频压缩算法 参数名:audio-encode 别名;aue 取值字符串,取值格式规范同RFC2045的Content-Type参数,其中的type取值为audio .celt、silk等,其中raw表 suhusype取值包括taw 、pcma、pcmu、amr、amr-wb、speex、speex-wb、mp3、aac 示不压缩,pema和pemu分别表示Alaw和mulaw 对于支持可变码率编码的压缩算法,使用子参数 level(或简写为lvl)指定压缩等级 如取值为“audio/amrwb;ll=7”时,语音识别服务系统在网络传输 中使用amrwb算法的等级7压缩识别音频 subtype的取值除raw外,宜支持以上音颗压缩算达中的 -种或多种 subtype和level的缺省值由语音识别服务提供商自定义 语音识别服务提供商可在此 基础上扩展支持其他音频压缩算法 说明;本参数用来指明使用何种压缩算法对识别音频压缩后进行网络传输 如果语音识别服务系 统不是通过客户端开发组件的方式提供服务,例如通过能直接进行网络调用的接口提供服务,则本参数 无效 5.4.14输入音频压缩算法 参数名:input-encode 取值;字符串,取值格式规范同5.4.13参数audio-encode,取值范围为语音识别服务提供商支持的 audioencode参数值集 缺省值为audio/raw 说明;本参数在用户将压缩格式的音频写人语音识别服务系统时用来声明压缩音频所用压缩算法 其源音频数据格式由参数audio-format(见5.4.12)指定 5.4.15多候选数量 参数名;nbest 取值;整数,取值范围为130 缺省值为10. 说明:当识别结果包含多个候选的结果时,本参数指明允许的候选结果的最大数量 5.4.16语种 参数名:language 别名:lang 取值;字符串,取值规范符合RFC5646 应支持中文zh-CN 缺省值为2h-CN 说明:识别音频所属的语种 本标准包含此参数是为了保持与其他语种的语音识别系统的兼容性
GB/34083一2017 5.4.17方言 参数名:dialect 取值:字符串,取值包括mandarin(普通话,cantonese(粤语等 应支持mandarin 缺省值为 中文语音识别服务提供商可扩展支持其他方言 mandarin 说明:识别音频所属的方言 5.4.18领域 参数名:domain messa4ge(文本消息),weather(天气),mediceal医疗).scienceteehmology 取值:字符串,取值包括" 科技)等 应支持message 缺省值为" message 中文语音识别服务提供商可扩展支持其他领域 说明:不同领域有不同的词汇集,指明所属领域更有利于提高识别率 5.4.19服务模式 参数名:servieemode 取值字符串,取值包括cdloud(云端识别,loceal(本地识别)和cloud十loeal(云十端混合模式》 应 支持cloud 缺省值为cloud 说明;服务模式,用户可选择本地提取识别音频特征数据然后发送到云端进行识别的云十端混合模 式,也可在无网络的情况下选择本地识别 音频等待超时时长 5,4.20 参数名;vadtimeout 取值;整数,单位毫秒(ms) 取值范围为一1和1~60000的整数,一1表示无超时限制 缺省值为 10000 说明;有效语音等待超时时长 如果用户写人的音频在指定的时长内未发现有效语音,即视为超 时 本参数在开启音频端点检测时有效 5.4.21音频尾部静音长度 参数名;:vadincomplete-timeout 取值;整数,单位毫秒ms) 取值范围为一1和1一60000的整数,-1表示无超时限制 缺省值为 10000 说明;有效语音尾部静音长度 如果用户写人的音频在检测到有效语音后在指定的时长内未发现 有效语音,即视为有效语音输人结束 本参数在开启音频端点检测时有效 5.4.22开启噪音抑制 参数名;denoise-enable 取值:布尔值,取值包括true和false,true表示开启,false表示关闭 缺省值为true 说明:指明是否开启噪声抑制 5.4.23结果类型 参数名:result-type 别名:rst 取值:字符串,取值包括word(字或词),sentence(整句)和paragraph(段落) 应支持word和 sen
GB/T34083一2017 tenee 缺省值为word 说明:识别结果的类型 5.4.24进阶模式 参数名;progressive-mode 取值;布尔值,取值包括true和false,true表示进阶模式,false表示非进阶模式 缺省值为false 说明指明识别会话是否为进阶模式 非进阶模式下,多个识别结果按先后顺序拼接在一起组成完 整的识别结果 进阶模式下,可使用后继的识别结果对之前的识别结果进行修改、插人、删除等操作 5.4.25标点符号 参数名:punetuation 取值;布尔值,取值包括true和false,true表示自动添加标点符号,false表示不添加 缺省值为 true 说明:在识别结果中是否自动添加标点符号 5.4.26识别结果信息 参数名;result-info 取值;字符串,取值为表4中所列参数或其组合,表中所列均为识别结果包含的信息参数 当取值 为多个参数的组合时,参数之间应由“|”(半角竖线)隔开 缺省获取完整的识别结果及描述信息 说明;用户使用本参数来指明识别结果中包含的信息种类 表4resut-info取值允许的结果描述参数集合 序号 参数 序号 参数 confidencethreshold/efd SNR anguage/lang eror-reason dialect pinyin 10 score gender 11 age user-word role 注:凡是以A/B形式出现的参数表示A与B的写法等价 5.4.27热词集类型 参数名:hotwords-type 取值;字符串,取值包括ID热词集标识符),text(热词集数据) 应支持ID 缺省值为ID 语音识 别服务提供商可扩展其他热词集类型 说明:热词集的类型 5.4.28热词集编码 参数名;hot-words-encode 取值:字符串,取值规范同5.4.7参数result-encode 说明;热词集数据的字符编码格式 如果语音识别服务提供商定义的热词集结构包含其字符编码 10
GB/34083一2017 格式,则本参数无效 5.4.29 自定义参数 参数名;vendor-x 取值:字符串 说明;语音识别服务提供商自定义的识别参数 在自定义参数时用一个字符串替换参数名称中的 ,组成新的参数名,同时定义该参数的使用规范 可自定义多个参数 输出数据 6.1语音识别结果格式 语音识别结果格式包括纯文本、JsON格式文本和XML格式文本三种 JsON格式的语音识别结 果消息示例参见附录A,纯文本和XML格式的消息从略 6.2语音识别结果描述参数 6.2.1概述 识别结果描述参数见表5 语音识别服务系统应支持基本集中的参数,宜支持扩展集中的参数 6.2定义的参数及其取值不应区分字母大小写 如果用户使用参数resultinfo(见5.4.26)指明识别结 果中包含的信息种类,语音识别服务系统在组织识别结果数据时,应符合62规定的结构 表5语音识别结果描述参数 序号 参数 定义集 协议版本号 基本集 version/ver sentence-number/sn 句子序号 基本集 lastsentence/Is 是否为最后一句 基本集 开始识别时间 基本集 begin end 结束识别时间 基本集 结果类型 基本集 result-type/rst 错误码 基本集 error-code 识别结果对象 基本集 recognition-result eandidatewords 候选字集 基本集 10 word 识别结果内容 基本集 11 识别结果得分 基本集 score 匹配的实例 基本集 12 instance 13 匹配的语法 基本集 grammmar 14 用户说话内容 基本集 user-input 15 错误原因描述 扩展集 error-reason 16 置信度阀值 扩展集 confidencethreshold/efd 识别音频所属语种 扩展集 17 language/lang 1
GB/T34083一2017 表5(续 序号 参数 含义 定义集 18 dialeet 识别音频所属方言 扩展集 19 gender 说话者性别 扩展集 说话者年龄 age 20 扩展集 说话者角色 扩 "展集 21 role 22 进阶类型 扩 "展集 progressive-type 23 进阶范围 扩展集 progressiverange 24 SNR 信噪比 扩展集 25 识别结果拼音 扩展集 pinyin 26 user-word 是否为用户自定义热词 扩展集 27 vendor-x 自定义参数 扩展集 注凡是以A/B形式出现的参数表示A与B的写法等价 6.2.2协议版本号 参数名;version 别名:ver 取值:字符串,当前取值为0.1 说明:当前协议规范的版本号 允许的父参数:无 允许的子参数;无 句子序号 6.2.3 参数名:sentence-number 别名;sn 取值:整数,从1开始,每次递增加1 说明:描述当前识别结果是整个识别结果的第几部分 允许的父参数:无 允许的子参数;无 6.2.4最后一句 参数名:last-sentence 别名:ls 取值;布尔值,取值为true或false 说明;指明当前识别结果是否为最后一部分识别结果 允许的父参数;无 允许的子参数;无 6.2.5开始识别时间 参数名:begin 12
GB/34083一2017 取值;正整数,单位毫秒(ms). 说明:当前识别结果对应的音频数据起始时间 本参数可出现在不同的层次描述不同的对象 允许的父参数:candidate-words 允许的子参数;无 6.2.6结束识别时间 参数名:end 取值:正整数,单位毫秒(ms). 说明当前识别结果对应的音频数据结束时间 本参数可出现在不同的层次描述不同的对象 允许的父参数:candidatewords 允许的子参数;无 6.2.7结果类型 参数名;result-type 别名: rSt 取值;字符串,取值包括word(字或词),sentence(整句)和paragraph(段落) 说明:当前识别结果的类型 允许的父参数;无 允许的子参数:;无 6.2.8 错误码 参数名:errorcode 取值;整数 说明:指明识别过程成功与否,0值表示成功,非0值表示错误,不同的非0值对应不同的错误 原因 允许的父参数无 允许的子参数:;无 6.2.9识别结果对象 参数名;recognition-result 取值:对象数组 说明:识别结果的文本内容及其描述信息 允许的父参数:无 允许的子参数:candidate-words、grammar、 ,user-input 6.2.10候选字集 参数名:candidate-words 取值:对象数组 本参数在识别会话为进阶模式(见5.4.24)时,不应有多于1个的元素 说明;本参数表明当前数组对象内部的结果是同- 段音频的多个候选结果,用户可从中选择 允许的父参数;recognition-result 允许的子参数:word,begin,end,userword,instance、score、pinyin 6.2.11 识别结果内容 参数名;word 13
GB/T34083一2017 取值字符串 说明:表示一段音频识别结果的文字内容 允许的父参数:candidate- -words 允许的子参数:无 6.2.12识别结果得分 参数名:score 取值:浮点数,取值范围为0.0~100.0. 说明识别结果内容对应的匹配得分 识别结果得分越高就越可信 允许的父参数:candidatewords 允许的子参数;无 6.2.13匹配实例 参数名:instance 取值:字符串 说明;匹配到的语法中的词条 用于命令字识别中 允许的父参数:candidate-words 允许的子参数;无 6.2.14匹配语法 参数名;grammar 取值;字符串 说明;匹配到的词条所在的语法 用于命令字识别中 允许的父参数;recognition-result 允许的子参数;无 6.2.15用户说话内容 参数名:user-input 取值;字符串 说明;用户说话的内容 用于命令字识别中 允许的父参数;recognition=result 允许的子参数;无 6.2.16错误原因描述 参数名:error-reason 取值字符串 说明:在error-code(见6.2.8)为非0值时,eror-reason描述发生错误的原因 允许的父参数;无 允许的子参数;无 6.2.17置信度闭值 参数名:confidence-threshold 别名:cd 14
GB/34083一2017 取值:浮点数,取值范围为0.0~100.0 说明;本次识别所用的置信度囤值 用于命令字识别中 允许的父参数:无 允许的子参数;无 6.2.18 语种 参数名:language 别名:lang 取值;字符串,取值规范符合RFC5646 说明:识别音频所属的语种 本标准包含此参数是为了保持与其他语种语音识别系统的兼容性 允许的父参数;无 允许的子参数:无 6.2.19方言 参数名:dialect 取值:字符串 说明识别音频所属的方言 允许的父参数;无 允许的子参数;无 6.2.20 性别 参数名;gender 取值;字符串,取值包括male(男、.female(女) 说明说话人的性别 允许的父参数;无 允许的子参数;无 6.2.21年龄 参数名;age 取值;字符串,取值包括child(少年),youth(青年),adult(成年)、elder(老人). 说明说话人的年龄 允许的父参数;无 允许的子参数;无 6.2.22角色 参数名;role 取值:整数,取值范围大于等于1,序数含义 说明;指明在多人说话的场景中,当前识别结果是哪个人说的内容 允许的父参数:;无 允许的子参数:无 6.2.23进阶类型 参数名;progressive-type 15
GB/T34083一2017 取值;字符串,取值包括append(附加),overwrite(盖写),insert(插人)和delete(删除) append表 示将当前识别结果直接追加在之前的识别结果之后;overwrite表示用当前识别结果覆盖之前的部分或 全部识别结果;insert表示将当前识别结果插人到之前识别结果的某个位置;delete表示删除之前的部 分或全部识别结果,此时当前识别结果中recognition-resul ult(见6.2.9)字段不应包含任何元素 盖写 删除的范围和插人的位置由参数progressive-range(见6.2.24)指定 说明:本参数在本路识别会话为进阶模式时有效(见5.4.24),描述当前识别结果相对于之前识别结 果的进阶类型 允许的父参数:无 允许的子参数:无 6.2.24进阶范围 progressive-range 参数名:p 取值;对象,两个整数组成的范围,单位均为字节(B) 第一个整数表示起点,第二个整数表示从起 点算起的长度 说明;本参数在识别会话为进阶模式且 progresiveype(见6.2.23)值不为apend时有效 prO pe值为overwrite或delete时,本参数指明盖写或删除的范围; essive-type值为insert prOgre: gressIVe-tyP 时,本参数指明插人的位置,此时第二个整数为0 允许的父参数;无 允许的子参数;无 6.2.25信噪比 参数名:sNR 取值;浮点数,单位分贝(dB) 说明;识别音频的信噪比 信噪比定义见GB/T21023一2007中4.6 允许的父参数;无 允许的子参数;无 6.2.26识别结果拼音 参数名;pinyinm 取值:字符串,描述的文本为中文字符时,取值应为每一个字符对应的汉语拼音按字符先后顺序拼 接起来的字符串,中间不加分隔符 每一个字符对应的汉语拼音声韵组合规律应符合《汉语拼音方案》 声调中的阴平、阳平、上声、去声和轻声应分别用1、2、3、4和0表示,如“北京”的普通话汉语拼音表示为 bei3jing1l” 普通话声母和韵母见《汉语拼音方案》中的声母表和韵母表,其他汉语方言的声母和韵母 见国际语音学会编著的《国际语音学会手册;国际音标使用指南》 非中文字符可不进行拼音标注,省略 参数或取值为空 说明:识别结果内容对应的拼音 允许的父参数:candidatc-words 允许的子参数:无 6.2.27 用户自定义热词 参数名:user word 取值:布尔值,取值包括true或false. 说明:描述的对象是否为应用程序或用户自定义的热词 16
GB/34083一2017 允许的父参数;candidate-words 允许的子参数;无 6.2.28自定义参数 参数名;vendor-r 取值:字符串 说明:中文语音识别服务提供商自定义的识别结果描述参数 在自定义参数时用一个字符串替换 参数名称中的“”,组成新的参数名,同时定义该参数的使用规范 可自定义多个参数 允许的父参数;不做定义 允许的子参数;不做定义 服务接口 7.1概述 服务接口包括基础语音识别服务接口和数据操作接口 在一路会话中定义的识别语法或热词集不应在该路会话之外激活,通过数据操作接口定义的识别 语法或热词集在删除之前可在不同的会话中激活 7.3.2定义的接口不应被用于大数据量识别语法数据的上载 7.3.4定义的接口不应被用于大数据 量热词集数据的上载 大数据量识别语法数据或热词集数据的上载、编辑等操作应通过其他方式如网 页进行 “大数据量数据”指因数据量大须分多次才能完成上载、下载等操作的数据 7.2语音识别服务接口 7.2.1初始化组件 接口行为;初始化语音识别服务系统客户端组件,或客户端组件语音识别部分 如果语音识别服务 系统不是通过客户端开发组件的方式提供服务,则本接口可省略 本接口应和逆初始化组件见 7.2.10接口配对使用 接口输人:不做定义 接口输出:返回值等 7.2.2创建语音识别会话 接口行为;创建一路语音识别会话,可同时设置会话参数,参数有效范围应为设置成功时起至本路 会话结束 接口输人:可选;识别会话参数等 可一次设置多个会话参数 接口输出:会话句柄、返回值等 7.2.3设置语音识别会话参数 接口行为;设置一路语音识别会话的参数,参数有效范围应为设置成功时起至本路会话结束 接口输人:必备:会话句柄,识别会话参数 可一次设置多个会话参数 接口输出:返回值等 7.2.4定义,激活识别语法 接口行为:当写人的是识别语法数据时,本接口定义并激活该语法 当写人的是build-in语法(见 17
GB/T34083一2017 表2)或已定义语法的标识符(ID)时,本接口激活该语法 语法有效范围应为激活成功时起至本路会话 结束 接口输人;必备;会话句柄、识别语法数据或语法ID 可选;语法数据长度、语法编码,语法类型,语 法权重等 接口输出:返回值等 7.2.5定义、激活热词集 接口行为当写人的是热词集数据时,本接口定义并激活该热词集 当写人的是已定义热词集的标 识符(ID)时,本接口激活该热词集 热词集有效范围应为激活成功时起至本路会话结束 接口输人:必备;会话句柄热词集数据或热词集ID 可选;热词集类型、热词集编码、热词集数据 长度等 接口输出;返回值等 7.2.6写入识别音频 接口行为:写人一路语音识别会话所用识别音频 本接口可被反复调用以便于大数据量的识别音 频分多次写人,音频写人是否结束应使用音频状态参数指定 接口输人:必备:会话句柄、识别音频、识别音频长度、音频状态 接口输出;返回值等 7.2.7停止语音识别 接口行为:停止当前的语音识别,系统应忽略剩余的识别音频和用户尚未获取的识别结果 本接口 被调用后,用户可重新设置会话参数,定义,激活识别语法或热词集,再次写人识别音频开始语音识别 接口输人:必备:会话句柄 接口输出;返回值等 7.2.8获取语音识别结果 接口行为:获取本路语音识别会话的识别结果 本接口可被反复调用以获取完整的识别结果 接口输人:必备:会话句柄 接口输出;识别结果、返回值等 7.2.9结束语音识别会话 接口行为;结束一路语音识别会话,释放资源 接口输人;必备;会话句柄 接口输出;返回值等 7.2.10逆初始化组件 接口行为;逆初始化语音识别服务系统客户端组件,或客户端组件语音识别部分,释放资源 如果 语音识别服务系统不是通过客户端开发组件的方式提供服务,则本接口可省略 接口输人:不做定义 接口输出:返回值等 7.3数据操作接口 7.3.1用户登录 接口行为:用户写人用户标识符,进行登录 18
GB/34083一2017 接口输人;必备;用户标识符 可选;用户密码等 接口输出;登录句柄、返回值等 7.3.2上载识别语法 接口行为:用户或应用程序上载识别语法数据,定义语法 接口输人:必备;登录句柄,语法数据,语法类型 可选;语法编码,语法数据长度等 接口输出:识别语法ID,返回值等 7.3.3删除识别语法 接口行为:删除一个或多个已定义的识别语法 接口输人:必备;登录句柄识别语法ID列表 接口输出.返回值等 7.3.4上载热词集 接口行为;用户或应用程序上载热词集数据,定义热词集 接口输人;必备,登录句柄,热词集数据 可选;热间集编码,热词集数撒长度等 接口输出热词集ID,返回值等 7.3.5删除热词集 接口行为;刷除一个或多个已定义的热词集 接口输人:必备:登录句柄、热词集ID列表 接口输出;返回值等 7.3.6用户注销 接口行为;用户退出登录 接口输人:必备:登录句柄 接口输出;返回值等 接口返回值要求 8 被正确执行的接口返回值应为0,否则应返回非0值,不同的非0值应对应不同的错误原因 19
GB/T34083一2017 附 录 A 资料性附录) 语音识别结果消息示例 A.1一般识别结果消息示例 个简单的识别结果为“北京天安门”的消息示例如下 "version""0.1" sentence-number" "lastsentence":true, 'begin 2000 end result-type""word" errorcode":0, recognition-result" "eandidate-word";[ "word";"北京" 100. "beginm "end":800 'eandidate-word";[ "word""天安门" "begin":1000. "end":1900 A.2语言,说话者信息消息示例 识别结果为“北京天安门”,说话者为中年男性,所用语言为中文,方言为普通话,消息示例如下 20
GB/34083一2017 "0.1" version entence-numbe" last-Sentence”true, begin 2000 'word" -type adul c0de recognition-result" "candidate-word、" "word""北京" "begin":100, "end'":800 'candidate-words":C "word";"天安门" "begin":1000, "end":1900 A.3不同结果类型消息示例 结果类型为“word”的消息见A.1和A.2,结果类型为“sentence”的消息示例如下 "0.1" "version entence-numbe" "last-sentence":true, "be begin
GB/T34083一2017 end" 2000. "re sentence resnlt-lype "error-code" "recognition=result" eandidate-word":[ "word";"北京天安门", "begin":100 end":1900 A.4进阶模式消息示例 A.4.1附加 当前识别会话为进阶模式时,假设识别结果为“北京天安门怎么走?”,分两次返回,第一次返回的消 息如下 "version""0.1" sentence-number":l ast-sentence":false "begin 2000 enC -type "word" "append" progressive-iype error-code" recognition-result" eandidate-word";[ "word";"北京" begin":100. "end":800 "candidate-words": 22
GB/34083一2017 "word""天安门" "begin":1000 "end":1900 第二次返回的消息如下 "version""0.1" sentence-number" 2 "last-sentence" true, 2000. begIn 3200 end "word" reSult-type progressive-ype "append" 0 error-code" recognition-result" "candidate-words" "word""怎么" N begin":2200, "end":2700 "eandidate-words":[ "word""走" 'begin"2800. "end":3000 "candidate-word":[ 23
GB/T34083一2017 ym "word" A.4.2盖写 当前识别会话为进阶模式时,假设正确的识别结果为“北京天安门”,分两次返回给用户,第一次返 回的消息如下 "version""0.1" sentence-number":1, "last-sentence":false, begin 0 end":2000. result-type""word" progressive-type "append" error-code" 0 recognition-result" "eandidate-words"; "word""背景" "begin":l00 'end":800 "eandidate-words":[ "word""天安门" "begin":100o "end":1900 24
GB/34083一2017 第二次返回的消息如下: "0.1" "version" entence-number":2. last-Sentence”true, begin 900 end reSult-type word "overwrite progreSsive-type progressive-range "error-code":0. recognition-result": "candidate-word":[ "word""北京" "begin":100, "end'":800 A.4.3插入 当前识别会话为进阶模式时,假设识别结果为“北京天气怎么样?”,分两次返回给用户,第一次返回 的消息如下 "version";"0.1" entence-number":1. ”\e last-sentence";false, "begin"0. "end":3200. result-type";"word" 'progressive-1ype""append" "error-code":0 "recognition-result": 25
GB/T34083一2017 "candidate-word":C "word""北京" "begin":100. "end":800 "candidateword":[ "word""怎么样" "begin":2000, 'end":2900 candidate-words": "?" "word" 第二次返回的消息如下 "version""0.1" 'sentence-number":2 "last-sentence":true begin":1000. "nd";1900. word" result-type" "in insert progressive-type" progressive-range" "error-code":0 recognition-result":[ 26
GB/34083一2017 "candidate-word":[ "word""天气" "begin';l100. "end":1800 A.4.4删除 当前识别会话为进阶模式时,假设正确的识别结果为“北京天安门”,分两次返回给用户,第一次返 回的消息如下; "version""0.1" sentencenumber":1 "last-sentence" false, begIn 2000 end "word" result-type "append" O code recognition-result": "candidate-words": "word";"北京" begin":100. "endl":800 "eandidate-word":[ "word""嗯啊" "begin"900. 'end":1000 27

中文语音识别互联网服务接口规范GB/T34083-2017

随着人工智能技术的不断发展,中文语音识别已经成为现代信息技术领域的一个热门话题。中文语音识别技术的应用范围越来越广泛,如智能家居、智能客服、语音搜索等。而与之相对应的,就是需要有一套标准化的互联网服务接口规范来规范中文语音识别技术的实现和应用。

规范的意义和作用

中文语音识别互联网服务接口规范GB/T34083-2017,是由中国国家标准化管理委员会发布的标准,其主要目的是为了规范中文语音识别技术在互联网服务中的应用,提升中文语音识别技术的准确性和稳定性。

规范的主要作用包括:

  • 提高中文语音识别技术的应用效果,降低实施成本;
  • 促进中文语音识别技术的标准化和产业化发展;
  • 统一中文语音识别互联网服务接口的规范,确保互操作性;
  • 加强中文语音识别互联网服务接口的安全性,保护用户隐私。

规范的基本要求

中文语音识别互联网服务接口规范GB/T34083-2017的基本要求包括:

  • 定义了中文语音识别互联网服务接口的基本架构、数据格式和通信协议等;
  • 规定了中文语音识别互联网服务接口的相关参数及其取值范围,例如采样率、编码方式、声道数等;
  • 规定了中文语音识别互联网服务接口的错误码和错误信息,方便开发者进行问题排查;
  • 规定了中文语音识别互联网服务接口的鉴权方式和安全机制,保障用户信息的安全。

规范的主要技术特点

中文语音识别互联网服务接口规范GB/T34083-2017具有以下主要技术特点:

  • 支持多种语音格式,例如PCM、WAV等;
  • 支持多种语音编码方式,例如G.711、G.729等;
  • 支持多种语言检测功能,例如自动语音检测、手动语言检测等;
  • 支持多种鉴权方式和安全机制,例如API密钥、数字证书等;
  • 支持多种错误处理方式,例如重试机制、报错机制等。

结语

中文语音识别互联网服务接口规范GB/T34083-2017的出现,标志着中文语音识别技术已经进入了规范化的阶段,这对于中文语音识别技术的未来发展具有重要的意义。随着中文语音识别技术的不断进步和完善,相信这一规范将会更加完善和健全,为中文语音识别技术在各个领域的应用提供更好的保障。

和中文语音识别互联网服务接口规范类似的标准

无线电监测网传输协议
上一篇 本文分享国家标准无线电监测网传输协议的全文阅读和高清PDF的下载,无线电监测网传输协议的编号:GB/T34082-2017。无线电监测网传输协议共有94页,发布于2017-11-01
超短波频段无线电监测网数据库结构技术要求
本文分享国家标准超短波频段无线电监测网数据库结构技术要求的全文阅读和高清PDF的下载,超短波频段无线电监测网数据库结构技术要求的编号:GB/T34084-2017。超短波频段无线电监测网数据库结构技术要求共有55页,发布于2017-11-01 下一篇
相关推荐