GB/T21024-2007

中文语音合成系统通用技术规范

GeneralspecificationofChinesespeechsynthesissystem

本文分享国家标准中文语音合成系统通用技术规范的全文阅读和高清PDF的下载,中文语音合成系统通用技术规范的编号:GB/T21024-2007。中文语音合成系统通用技术规范共有35页,发布于2007-11-012007-11-01实施
  • 中国标准分类号(CCS)L71
  • 国际标准分类号(ICS)35.040
  • 实施日期2007-11-01
  • 文件格式PDF
  • 文本页数35页
  • 文件大小653.92KB

以图片形式预览中文语音合成系统通用技术规范

中文语音合成系统通用技术规范


国家标准 GB/T21024一2007 中文语音合成系统通用技术规范 GeneralspecificationforChinesespeechsynthesissystem 2007-11-01实施 2007-06-29发布 国家质量监督检验检疫总局 发布 中 国国家标准化管委员会国家标准
GB/T21024一2007 目 次 前言 引言 范围 规范性引用文件 术语和定义 中文语音合成系统的功能分类 概述 从语言处理能力上分类 从所处区域或方言上分类 从合成的应用范围上分类 从的律和音色调节能力上分类 从合成方法上分类 从应用平台上分类 中文语音合成系统数据交换格式 5. 概述 元素与属性 输人要求 输出要求 5.5音频数据格式要求 18 -致性 18 5.6 附录A规范性附录) 19 CSSMV1.0Schema定义 参考文献 31
GB/T21024一2007 前 言 本标准的附录A是规范性附录 本标准由信息产业部提出 本标准由全国信息技术标准化技术委员会归口 本标准由安徽中科大讯飞信息科技有限公司、科学院自动化研究所、电子技术标准化研究 所起草 本标准主要起草人:尹波、严峻、吴晓如、陶建华,吴志刚
GB/T21024一2007 引 言 本标准的发布机构提请注意如下事实,声明符合本标准时,可能涉及第5章中有关中文语音合成系 统数据交换方法的相关专利 本标准的发布机构对于专利的范围,有效性和验证资料不提出任何看法 专利持有人已向本标准的发布机构保证,他愿意同任何申请人在合理和非歧视的条款和条件下,就 使用授权许可证进行谈判 在这方面,该专利持有人的声明已在本标准的发布机构备案 有关资料可 从以下地址获得 安徽中科大讯飞信息科技有限公司 安徽省合肥市国家级高新技术产业开发区信息产业基地讯飞语音大厦230088 请注意除上述已经识别出的专利外,本标准的某些内容有可能涉及专利 本标准的发布机构不承 担识别这些专利的责任
GB/T21024一2007 中文语音合成系统通用技术规范 范围 本标准规定了中文语音合成系统的术语定义,分类标准、数据交换格式标准和应用规范 本标准适用于各种计算机、网络和智能设备配置的中文语音合成系统 规范性引用文件 下列文件中的条款通过本标准的引用而成为本标准的条款 凡是注日期的引用文件,其随后所有 的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而鼓励根据本标准达成协议的各方,经过 研究决定是否使用这些文件的最新版本 凡是不注日期的引用文件,其最新版本适用于本标准 GB2312一1980信息交换用汉字编码字符集基本集 GB13000.1一1993信息技术通用多八位编码字符集(UCs)第一部分;体系结构与基本多文 种平面(idtISo/IEC10646-1:1993) GB18030-2005信息技术中文编码字符集 RFC1766语言识别标签 ssML.1.0(w3C)语音合成标记语言 术语和定义 下列术语和定义适用于本标准 语音合成speechsynthesis 通过机械的、电子的方法合成人类语言的过程 注,该过程所产生的语音称为合成语音,和人的发音器官产生自然语音相区别,有时也叫人工语音(arifieial speech 3.2 语音合成系统spethsymthesissysem 由特定算法、模块和数据资源等构成、,用来产生合成语音的软硬件系统 注,由于目前语音合成最常用的实例是将智能设备中的文字信息转换为语音信号,以作为智能设备的语音输出形 式,语音合成系统也常常称为文语转换系统(textto-speeehsystem),但作为语音合成系统的输人,实质上不限 于文字,可以是概念、意图、思想等 在目前的技术水平下,文语转换是实现语音合成的主要方式,本技术规范 中不另作特别说明时,文语转换将等同于语音合成的概念 单语种语音合成系统 mmo0-lingunlspeechsynthesissystem 针对某一语种设计的,功能限于单一,特定语种的语音合成系统 多语种语音合成系统mtt-lim ingualspeechsynthesissystem 可以实现两种及两种以上语言语音合成功能的语音合成系统 3.5 有限词汇语音合成系统limitelvoeabularyspeechsynthesissystem 为某一特定任务设计的、只能完成有限词汇量语音合成功能的语音合成系统
GB/T21024一2007 3.6 无限词汇语音合成系统un-limitedvoeabularyspeeehsynthesissystemm 可以完成任意词汇语音合成功能的语音合成系统 3.7 中文语音合成系统Chinesespeeehsynthesissystenm 可以完成中文普通话或者汉语方言语音合成功能的语音合成系统 注,如果系统的功能只是将汉字转换为粤语,吴语,湘语,闽语等汉语方言的系统,分别称其为粤语语音合成系统 Yue-DiaeetSpeechSynthesisSystem)、吴语语音合成系统(wu-DiaectSpeechynthesisSystem)、湘语语音合 成系统(Xiang-Daletspeehsynthesissystem),闽语语音合成系统(Mim-D)ialetspeechsynthesissystem)等 3.8 韵律标记符号prosodieclabel 以可读形式插人到文本中的特殊字符序列,它可以被语音合成系统检出并解释,从而控制语音合成 系统输出语音的韵律特征;也可以用来描述文本所对应自然语音中的韵律特征 3.9g 口语spokenlanguage 语言的口头变体 [GB/T12200.21994,4.1.1.3] 注,语音有不同的风格,常见的有朗读风格(readingstylespeech)和即席发言风格(spontaneousspeeeh),后者是无 发言脚本的,也称为自然口语 3.10 口音标注accentlabel 标出发音人的口音特征 3.11 音段 segmment 发音器官被处于相对稳定不变的状态下发出的单个语音 在语音或是音系层次上,将话语当作线 性串列时,音段是串列中的最小单位 广义上说,音段被看作语音中发音器官或多或少地保持不运动的 一个时段 3.12 ntalfeature 音段特征segen 现代语音学中跟音色相关的语音特征,在声学层面表现为频谱 13 3. 音段标注segentallabeling 把话语中的每个语音单元(包括音节,声韵或其他更小的语音单元)逐一进行切分,然后对它们的音 色特征分别给予细致如实的描写 3.14 语流音变sandhi 连续音变 连续发音中的语音变化 [GB/T12200.2一1994,4.1.3.14] 注,如同化、异化等 辅音 consonant 发音时气流受阻,发音器官肌肉紧张程度不均衡的一类音素
GB/T21024一2007 [GB/T12200.2一1994,4.1.3.11] 3.16 元音 v0wel 发音时气流不受阻,声带振动发音器官肌肉均衡紧张的一类音素 [GB/T12200.21994,4.1.3.l0] 3.17 国际音标InternationalPhoneticAlphabet IPA 由国际语音协会制定的,国际统一的语音的标记方式 注:IPA国际音标是由国际音标语音协会提出的发音规范 韵律prosod -般也称为超音段特征(suprasegmentalfeature),是将各种语言学单位组织成话语或话语中关联 组块的系统组织 从物理角度,指基频、时长和强度等声学参数;从语言学的角度,指音段层次以上的音 系组织 注:韵律的实现涉及语音的音段和超音段特征,它不但能够传递语言学信息,而且能够传递副语音学和非语言学 信息 3.19 音高范围pitehrange 个人说话时音高变化范围 3.20 音区register 通过声带张力的调节,人能够说话或唱歌的不同音高范围 注:如高音区与低音区,正常声音区与假声音区等 3.21 汉语Chinmese 汉民族使用的语言 属于汉藏语系,是一种孤立语,有声调 汉语的书写基础汉字是一种表意文 字,又称中文 注:至于统称境内的所有语言(包括汉语和少数民族语言)为“的语言(Chineselanguages)” 3.22 汉语方言Chinesedlialeets 特定地理区域中汉语的变体 3.23 声母initial 汉语音节起始的辅音性成分,根据辅音的清浊不同可以将声母分为清声母和浊声母 3.23.1 清声母uvoicedinitial 由清辅音作的声母 3.23.2 浊声母voicedinital 由浊辅音作的声母 3.23.3 零声母zeroinitial 音节起始没有辅音性成分,而直接以元音开始
GB/T21024一2007 注:普通话声母参见GF3006一2001的定义4.2,其他汉语方言声母可参见IPA组织1999年编著的《国际语音学会 关于使用国际音标的指导手册》 3.24 韵母rinal 汉语音节中除了声母以外的音段部分 韵母可以从组成结构上进一步分析为韵头、韵腹和韵尾,单 元音组成单韵母,复元音或带鼻音韵尾的鼻韵母组成复韵母,带有鼻音韵尾组成鼻韵母 注,普通话韵母参见GF3006一2001的定义4.3,其他汉语方言韵母可参见PA组织1999年编著的《国际语音学会 关于使用国际音标的指导手册》 3.25 声调tone 作用于音节或词语层面上具有区别词汇意义功能的音高模式 由于声调具有区别词汇意义的功 能,因此一些学者把声调也看成是一种音位,并称之为“调位(toneme)" 注,普通话声调参见GF3006-200的定义4.4,其他议语方言声调可参见PA组织1999年编著的《国际语音学会 关于使用国际音标的指导手册》. 中文语音合成系统的功能分类 概述 符合本标准的中文语音合成系统应在规格中明确注明其系统分类,并满足相应系统分类的技术 要求 4.2从语言处理能力上分类 语音合成系统从处理语言能力上可以分为;单语种语音合成系统和多语种语音合成系统 语音合成系统应注明其处理语言种类,及同时处理不同语言的能力 4.3从所处区域或方言上分类 普通话语音合成系统是指可以完成中文普通话语音合成功能的语音合成系统 方言语音合成系统是指可以完成特定中文方言语音合成功能的语音合成系统 -般来说,方言语音合成可以按照区域划分为;广东话语音合成系统、吴语语音合成系统等 中文方言语音合成系统应注明其应用区域和方言类型 从合成的应用范围上分类 语音合成系统从合成的应用范围上可以分为;有限词汇语音合成系统和无限词汇语音合成系统 语音合成系统应注明应用的范围 从韵律和音色调节能力上分类 语音合成系统从韵律和音色调节能力上可以分为;基于参数的语音合成系统和基于波形的语音合 成系统 基于参数的语音合成系统是指采用矢量参数运算作为声学模型的语音合成系统 例如;基于LPc 线性预测编码)语音合成系统,基于共振峰语音合成系统,基于LsP(线谱对)语音合成系统等 基于波形的语音合成系统是指采用波形拼接算法作为声学模型的语音合成系统 4.6从合成方法上分类 语音合成系统从实现方法上可以分为:基于规则的语音合成系统和基于数据驱动的语音合成系统 基于规则的语音合成系统通常是指语音合成系统中各模块使用的算法是通过专家规则的形式实现 的语音合成系统 基于数据驱动的语音合成系统是指系统所需的模型,是通过数据驱动的方法建立的,其最大的特征 就是可训练性 基于这两种方法的语音合成系统,在适应不同数据集和不同发音人的性能上有着一定区别 这两
GB/T21024一2007 种方法可以混合应用以提高系统的效果及减小对训练数据容量的要求 4.7从应用平台上分类 语音合成系统从应用平台上可以分为:用于芯片的语音合成系统、用于嵌人式操作系统的语音合成 系统、用于独立主机的语音合成系统、用于分布式计算的语音合成系统等 语音合成系统应注明该系统适用的应用平台,如果是工作于特定的操作系统之上,也需同时注明支 持的操作系统和语音合成系统的资源需求 中文语音合成系统数据交换格式 5.1概述 “中文语音合成标记语言(csML.)”定义了一套基于XM文档结构的标记语言体系 它可被用 于资源共享、模块互换,以及在分布式应用中的中间数据格式,或者独立系统的输人控制 CsSMI基 于w3C制定的sSML(SpeechsynthesisMarkupl.anguage)标准,在sSMI的基础上针对汉语语音合 成的情况进行了扩展和修改 本标准规定了在语音合成系统中的数据交换应使用基于“中文语音合成标记语言规范”所定义文档 结构的数据内容 5.1.1文档结构 基于XML的文档格式,各类型标记以XML元素的形式给出 附录A给出了csMl定义 5.1.2特性 中文语音合成标记语言应具有以下特性 支持多种格式文档的输人,即能指明当前文档格式; a b 与现有各标记体系保持一致,尽量兼容或易于被自动转化 能对合成文本的结构加以描述; d 支持不同语言和方言的定义; 支持特殊发音指定(宏发音),包括强制改变发音以及引用外部声音元素; 支持对诸如速度、音高、音强等参数的控制 支持对音色的指定,如发音人姓名、性别、年龄等; g h 对特定格式文字发音的支持,如地址、电话、网址等 支持重读/强调控制 支持某段文字语调控制 5.1.3cSSML元素表 CSSML元素见表1 表1csSSML元素表 序号 元素 功能 定义集 audio 指明插人一个已有声音样本 基本集 指明一个停顿 基本集 break 指明轻重读/强调程度 扩展集 emphasis 扩展集 environment 指明发音的音场环境 指明作用域内附加使用的用户词典 扩展集 lexicon 指明事件响应 扩展集 mark aragraph/p 语音层次结构的单位 扩展集 phoneme 指明发音音素序列方案 基本集
GB/T21024一2007 表1(续 序号 元素 功能 定义集 语音层次结构的单位 扩展集 phrase 1C 指明发音的韵律 基本集 prosody 1 指明标点的处理方式 基本集 punctuation 12 指明文本性质 基本集 sayas/say-as 语音层次结构的单位 13 基本集 sentence/s cssMI.文档的根元素 基本集 14 speak 替换文本内容 基本集 15 sub 16 value 指明插人一个系统变量 基本集 17 指明发音人的音质特征 扩展集 voice 18 wordl 语音层次结构的最小单位 基本集 1s rdnm 保留未来使用 保留 注:凡是以A/B形式出现的元素表示A与B的写法等价 5.2元素与属性 文档结构类元素 5.2. 5.2.1.1spenk 元素名;speak 属于:基本集 描述 由于此标注体系采用XML文档格式给出,因此根元素即为“speak” 允许的父元素 无 允许的子元素: paragraphsentence,phrase,word,say-as,phoneme,sub,lexiconpunctuationprosodly,emphasis, N voice.enironment.audio.alue.break.markrdm. 属性表 “version” 属性描述;指定使用的规范的版本 属性值;应为“1.0” “xml:lang” 属性描述;指定作用域内文档内容使用语言 属性值:可用值请参照Internet公文RFC1766 “xml:base'” 属性描述;指定文档的根URI位置 示例 xmlversion=“1.0”encoding=“gb2312”? 合成内容 speak
GB/T21024一2007 5.2.1.2paragraph/p、.sentence/s、phrase,word 描述 指定语音层次结构.以使合成语音更加符合使用要求 示例 paragraph sentence phrase>word>我们的/word>word>最高目标之/word/phrase phrase是/phrase phrase>得到高自然的语音 sentence paragraph paragraph/p 元素名:paragraph 别名:p 属于;基本集 描述 指定作用域内文字为一段落 允许的父元素 spealk,lexicon,punctuationvoice,environment. 允许的子元素 sentence,phrase,word,say-as,phoneme,sub,lexicon,punctuationprosody,emphasis,voice,envi- ronment,audio,value,break,mark,rdm. 属性表 “xml lang 属性描述;指明作用域内的发音语种 属性值:可用值请参照Internet公文RFc1766 5.2.1.2.2sentence/s 元素名:sentenee 别名:s 属于:基本集 描述 指明作用域内文字为一句子 允许的父元素: paragrph.e speak exiconpunctuation,voice,environment. 允许的子元素 phrase,word,say-as,phonemesub,lexicon,punctuation,prosody,emphasis,voice,environment, audio,value,break,mark,rdm 属性表 “xmllamg” 属性描述指明作用域内的发音语种 属性值可用值请参照lnternet公文RFC1766 5.2.1.2.3phrase 元素名:phrase
GB/T21024一2007 属于:基本集 描述 指明作用域内文字为一短语 允许的父元素 speak,paragraph,sentencephrase,lexicon,punctuation,voice,environment 允许的子元素 Sub, phrase,word,say-as,phoneme lexiconpunctuationprosody,emphasis,voice,environment audio,value,break,mark,rdmn. 属性表 “ml.ang” 属性描述;指明作用域内的发音语种 属性值;可用值请参照Internet公文RFC1766 5.2.1.2.4word 元素名;word 属于;基本集 描述, 指明作用域内文字为一词组 允许的父元素 speak,paragraph,sentence,phrase,lexiconpunctuation,voice,environment. 允许的子元素 say-as,phoneme,sub,lexicon,punctuation,prosody,emphasis,voice,environment,audio,value" break,mark,rdm. 属性表 “xml:lang” 属性描述;指明作用域内的发音语种 属性值;可用值请参照lnternet公文RFC1766 5.2.2文本控制类元素 5.2.2. sayas/say-as 元素名:sayas 别名;say-as 属于:基本集 描述 指明文本的性质,即如何决定其发音方式 允许的父元素: speak,paragraph,sentencephrase,word.lexiconpunctuationprosody,emphasis,voice,environ- ment. 允许的子元素: 无 属性表 “imterpretis 属性描述;文本的发音方式 属性值: “aeronym”;英语缩写,字母发音间隔较小
GB/T21024一2007 “spell-out”:按字母发音,发音间隔较大; “number”;指明是数字 “elephone”";按电话号码读法发音 “date”;指明日期 tume 指明时刻 指明时间段 duration 指明货币金额; urrency :指明度量值; measure ';指明是人的姓名、公司名称或是地名; name net”;指明是网络(internet)上应用的地址; address”;指明是表述邮政地址 formmat 属性描述:文本的格式 属性值 当“interpreta”属性值为“number"”时,format可以取下列值之 “ordinal”;按数值发音, “digits”:按数字串发音; ecore”;按比分读法发音; “fraction”;按分数读法发音 ”属性值为“date”时,format可以取下列值之一;“ymd”,“mdy”,“dmy”,“ym” 当“interpret-as” 以指明年月日的顺序 my md 当“interpret-as”属性值为“tinme”时,ormat可以取下列值之一;“hm”,“hms” 以指明时间的格式 和顺序 当"mterpreta”属性值为“duraton"时.ormat可以取下列值之一“hm”,"hm",“ms" 以指明时 间间隔的格式和顺序 当“interpret-as”属性值为“net”时,format可以取下列值之一;“enmail”,“url” 分别表示网络电子 邮件地址和网络URL地址 “type” 属性描述:文本性质 属性值 “acronym”:英语缩写,字母发音间隔较小 “spellout”;按字母发音,发音间隔较大 ”number”;指明是数字 number:ordnal”,按数值发音, number:digits”;按数字申发音; number;score”;按比分读法发音; number:fraetion”;按分数读法发音; “telephone”按电话号码读法发音 “date”;指明日期,可附带“ymd”,“mdy”,“dmy”,“ym”,“my”,“md”,“y”指明顺序; ime”.指明时刻,可附带“hm”,“hm”指明包含内容 duration”;指明时间段,可附带“hm”,“hm”,“ms" ”指明内容 ceureney”指明货币金额 ;指明度量值; 'measure
GB/T21024一2007 ”;指明是人的姓名、公司名称或是地名 *name “net;email”;指明是电子邮件地址; “net:url”;指明是URL; “addres”;指明是表述邮政地址 示例 现在时钟已指向VII 我住在412房间 format 我已经修正了34个错误 number”format=“ordinal”一 2000/12/13 sayastype=“date;ymd /sayas. Y12.33boyin@iflytek.com曾JiangZeming/phoneme Sub 元素名:sub 属于:基本集 描述 使用指定的文本替换作用域文本发音,如果指定文本为空,则不发音 允许的父元素 1o
GB/T21024一2007 speakparagraphsentencephrase,word,lexiconpunctuationprosody,emphasisvoice,environ- ment. 允许的子元素: 无 属性表 “alias” 属性描述;替换后的发音文本 属性值;有效文本或空值 示例 我的母校是USTC 5.2.2.4lexicon 元素名;lexiconm 属于:扩展集 描述 指明作用域内附加使用的用户词典,支持的用户词典格式可以由语音合成系统自行定义 允许的父元素 speak,paragraph,sentence,phrase,word,lexiconpunctuation,prosody,emphasis,voiee,environ- ment 允许的子元素 paragraph,sentence,phrase,word,say-as,phoneme,sub,lexicon,punctuation,prosody,emphasis, voice,environment,audio,value,brealk,mark,rdm. 属性表 “uri” 属性描述;指明用户词典 属性值;可以是以URI指定的某个文件或是已约定的对象名称(包括以MIME格式编码在文档中 的内嵌对象) “type” 属性描述指明用户词典的媒体格式 属性值,如"ext/plain” 示例 lexiconuri=“userJexicon/mech.lex”这就叫做洛伦兹力一/lexicon> punetuationm 无素名;puetuation 属于:基本集 描述 指明标点符号的读法 允许的父元素 speak,paragraph,sentence,phrase, voice,environ- word,lexiconpunctuation,prosodly,empbhasis ment 允许的子元素 11
GB/T21024一2007 paragraphsentence,phrase,word,say-asphoneme,sub,lexiconpunctuationprosody,emphasis, ,break,mark,rdm. voice,environment,audio,value 属性表 .nt" ”Speak 属性描述:指明标点符号的读出方式是否为逐一读出 属性值 “yes”;逐一读出; “no”;不读出; “defaul”;按缺省方式自动读出 示例 : 5.2.3语音属性类元素 5.2.3. proSody 元素名;prosdy 属于;扩展集 描述 指明发音韵律参数 允许的父元素 speak,paragraph,sentence,phrase,word,lexiconpunctuation,prosody,emphasis,voice,environ- ment. 允许的子元素: paragraphsentencephrase,word,say-as,phoneme,sub,lexicon,punctuationprosody,emphasis, voice,environment,audio,value,break,markrdm 属性表 “pitch” 属性描述:指明基频的高低 属性值;可以取绝对频率数值(浮点数附加单位H,如“5.5HH”);相对改变值(正负号浮点数附加 单位Hz.如“十10Ha,一5.5Hz,十1.5Hz十9.H");相对改变百分值(正负号浮点数附加单位%,如 “十4.5%,- 45%");或枚举值(“xhigh”,"high”,"medhium",“low”,“xlow”,"dedfault”). “eontour 属性描述;指明调型曲线 属性值;一系列以空格分隔的关键点数据表示,每个关键点数据由(时间点,音高频率)来描述 时 间点是范围为0100%的百分数;音高与pitch属性的取值形式相同 “range” 属性描述;指明基频范围 属性值;取值与piteh属性相同 rate” 属性描述:指明发音速率 12
GB/T21024一2007 属性值:绝对速率系数(浮点数,如“10,5.5,1.5,9.,45”),1.0为正常语速;每分钟字数(整数);相 对改变百分值(正负号浮点数附加单位%,如“十4.5%,一.45%”);或枚举值(“xslow","low",“med um",“haes",“xfas","defau"). “duration" 属性描述;指明发音持续时长 属性值绝对时间(整数附加单位ms或整数附加单位s);或枚举值(“long",“medium",“short" “default”) “volume 属性描述;指明音量 属性值;绝对值(浮点数,如“5.6”,范围为0.0~100.0);相对改变(正负号浮点数,如“十4.3. -10.7”);相对改变百分比(正负号浮点数附加单位%,如“十4.5%,一.45%”);或枚举值(“silent”,“x ,“xloud”,“default”) "oud" sof",“sof","medum" 示例 prosodycontour=“(0%,default)30%,十20%)70%,十50%)”>你好吗真大GB/T21024一2007 speakparagraphsentencephrase,word,lexiconpunctuationprosody,emphasis,voice,environ ment 允许的子元素 sub,lex sysphoene. sody,emphasis paragraph,sentence,phrase,word, lexicon,punctuation,prosG voice,environment,audio,value,break,mark,rdm. 属性表 “gender 属性描述;指明发音人性别 属性值;可取值“male”(男声),“female”(女声),“neutral”(中性) “age” 属性描述;指明发音人年龄 属性值可取值正整数或"hild","tenager",“adal","dlder” “name” 属性描述;指明发音人姓名 属性值;通常是系统相关的,可取值为具体姓名串或“default” “variant” 属性描述;指明发音人代号 属性值可取值正整数 示例. 他说;“什么意思?”GB/T21024一2007 aziuth 属性描述;指明声源的水平方位角 属性值;可取值为下列五个关键词中的一个,“igh",lef",“rom",“behind","enter",默认值为 center “elevation’ 属性描述指明声源相对于听者的高度 属性值;可取值“below”,“level”,“above”,默认值为“level” 示例 背景音乐为《蓝色多聪 河》. background 5.2.4插入对象类元素 5.2.4.1adio 元素名;:audio 属于;基本集 描述 在作用域位置插人一段声音样本 如果audio元素的内容非空,而且audio属性sre表示的源文件 无法播放时,应该使用合成引擎播放audio元素的内容 系统要求支持的声音文件格式,请参见“5.5音频数据格式要求” 允许的父元素 speak,paragraph,sentence,phrase,word,lexicon,punctuation,prosody,emphasis,voice,environ- ment. 允许的子元素 paragraph,sentence,phrase,word,say-as,phoneme,sub,lexicon,punctuation,prosody,emphasis, voice,environment,audio,value,break,mark,rdm. 属性表 “sre” 属性描述;指明声音样本 属性值;URI指定的某个文件 示例 这时听到一audiosrc=“audio.slip/ding,wav”>的一声 之audiosrc=“prompt.wav”您的电话号码是之/audio>533292o 5.2.4.2 Value 元素名vale 属于:基本集 描述 在作用域位置插人一个系统变量值的发音 允许的父元素 speak,paragraph,sentence,phrase, word,lexieon,punetuation,prosody,emphasis, voice.eniron- ment 15
GB/T21024一2007 允许的子元素: 无 属性表 'namme” 属性描述;变量的名称 属性值:currentTimme,currentDate等 “type' 属性描述:与元素中的定义相同 属性值:与元素中的取值相同 示例 现在时间是GB/T21024一2007 speakparagraphsentencephrase,word,lexiconpunctuationprosody,emphasisvoice,environ- ment. 允许的子元素 无 属性表 “name” 属性描述;触发的事件名称 属性值;唯一的ID值 示例 在合成到此标记 mark/>时产生事件 5.2.5其他元素 meta 元素名;meta 属于:基本集 描述 定义“名称一值”这样的属性对,用户可以利用此标记插人自定义的文档信息 只允许出现在 peak元素与第一个有效cssML标记之间(除meta标记自身). 允许的父元素 speak 允许的子元素: 无 属性表 “name” 属性描述:信息值的名称 属性值.可取值“author",“date",“description",“itle",“domain”领域,以便定制)等 eontent' 属性描述信息值的内容 属性值;用户自定义 示例 xmlversion=1.0encoding=“GB2312”? speak ontent=“BoYin”/> -“author” metaname一 metaname=“date” content=“2003/01/01” t=“这是关于CSSML的简介”一 metaname"de content= description” speak> 5.3输入要求 系统应能接受符合上述标记规范的文档输人,并且可以接受没有任何标记的纯文本信息,并能自动 做出分析 5.4输出要求 系统应能产生指定格式(见5.5)的音频数据,系统还可以选择支持其他模态的输出数据如描述发 17
GB/T21024一2007 音时唇形变换的数据等)以及同步信息 5.5音频数据格式要求 合成系统中使用的音频数据,包括通过audio/environment 标记输人的声音文件,和输出的语音数 据都应该至少支持表2的音频数据格式 表2音频数据格式 音频数据格式 媒体类型 Rawheaderless)8kHz8-bitmonomu-law(PCMsinglechannel.(G.71l audio/basicfrom[RFC1521] Raw(headerless)8kHz8-bitmonoA-law(PCM)singlechannel.G.711y audio/x-alaw-basic wAV(RIFFheader)8kHz8-bitmonomu-law(PCMsingleehannel. audio/X-wav wAV(RIFFheader)8kHz8-bitmonoA-law(PCM)singlechannel. audio/X-waV 5.6 致性 系统应该按照本标准的规定,正确使用语音合成的相关术语 系统应该按照本标准的规定,对语音合成系统进行分类和说明 系统应至少能够支持基本集范围内的中文语音合成标记语言作为输人文本格式,使用的标记文本 应该能通过附录A的校验 语音合成系统支持的文本编码字符集应为GB2312一1980,GB13000.1一1993,GB18030-2005 中的一种或多种 18
GB/T21024一2007 附 录A 规范性附录 CSSMLV1.0Sehema定义 xtmlversion="1.0”encoding="UTF-8"?> xsd:schenmaxmlns:xsd="http://www.w3.org/2001/XMISehema"elementFormDefault=" qualified" xsd;importnamespace-"http;//www.w3.org/XML/1998/namespace" echemaLocation="http://www.w3.org/2001/xnml.xsd"/> xsd:annotation xsd:documentation>CSSMIV1.1Schema,BoYin,iFLYTEK,2003/5/30lmportingdependentnamespaces annotatiOn annotation ddoceunentation>(GeneralDatatypes annotation namme="elevation.enum" 'xsd:string restrIctionbase xsd:enumerationvalue="below"/ value="evel"/> Xsd:enumerat1On xsd:enumerationvalue="above"/ xxsd:restriction :simpleType simpleTypename "azimuth.enum" ;restrictionbase="xsd:string" 1enumerationvalue="right"/ t1 rationvalue 'left" enumerationvalue="front" enuerationvalue 'behind" X0 l:enumerationvalue 'center" Xsd:restriction xsd:simpleType xsdsimpleTypename="variant.datatype"> " xsd;unionmemberTypes="variant.enumxsd;integer" /xsd:simpleType> 19
GB/T21024一2007 xsd:simpleTypename="variant.enum" Xsd;restrictionbase="xsd:string" xsd:enumerationvalue="dfferent" t xsd:restriction xsd:simpleT Iype xsd:simpleT Typename="age.datatype" xsd:unionmember xsd:positivelnteger"> Iypes="age.enum Xsdsimple XSd;simplel lIypename age,enum" xsd:string 'child" enumerationValue value eenager xsd:enumerationvalue="adult enumerationvalue="elder" restricti1on SImpleIype simpleTypename="layer" annotat1On documentation>paragraphlsentencelphraselword annotatiOn 'xsd:string eStr1ctiOnbase5 enumerationvalue="paragraph"/ numerationvalue 'sentenee" :enumerationvalue="phrase xsd:enumerationvalue="word" YSG :restriction simpleType M :simpleTypename="switch"> annotation documentation>yes|noldefault一/xsd:documentation annotation restrictionbase="xsd:string" enummerationvalue="yes"/> -"no"> xsd:enumerationvalue= xsd:enummerationvalue="default"/> xsd:restriction一 xsd;simpleType xsd:simpleTypename="unithref"> Xsd:annotation xsd.documentation>voiceumithrefid,e县 User:1002 xsd:annotation xsd:restrictionbase="xsd:string" xsd:patternvalue="( 关::([0-9]十)"/> 20
GB/T21024一2007 /xsd:restriction一 /xsd;simpleType xsd:simpleTypename="duration" xsdannotation xsd:documentationDurationfollows"Times"inCCS "25ms","3s" )ecification;e.g Ksd:documentation一 annotation rmng"> restrictionbase="xsd:str value="(八\)?[0-9]关\.)?[0-9]+(ms|s)"/> restriction. XsdsimpleIype number" SimpleIypename annotat1On 10,5.5,1.5,9.,.45 Xsd:docunm cumentation>number:e.g Xsd;documentat1On annotation ;restrictionbase="xsd;decimmal"> xsd;minlnclusivevalue="o"/> :restriction simpleType simpleTypename="relative" annotation documentation>Modeledonnumberdatatype:e.g十4.5,一.45 documentation> annotation restrictionbase="xsd:string"二 patternvalue="[十\一][0-9]十I[0-9]十.[0-9]*I[0-9]关.[0-9]十)"/> restriction :simpleType X simpleTypename="percent" annotation xsddocumentation>Modeledonnumberdatatype:e.g,十4.5%,一.45% xsd:documentation xsd:annotation xsd;restrietionbase="xsd:string" xsd;patternvalue="[+\-]?[0-9]+I[0-9]十.[0-9]*I[0-9]*.[0-9]十)%"/> xsd:restriction xsdsimpleType> " xsd,simpleTypename="hert么.numbe" xsd;annotation xsd:doeumentation>numberHertz:e.g 10Hz,5.5Hz,1.5Hz,,9.Hz,.45Hz /xsd:documentation一 21
GB/T21024一2007 xsd:annotation ="x "sdstrimg" xsd:restrictionbase 二xsd;patternvalue="[0-9]+I[0-9]+.[0-9]*I[0-9*.[0-9]+)Hz"> 'Xsdrestriction Xsd simpleType name="hertz.relative" xsdsimpleType xsd:annotation Hertz:e.g. +10Hz,一5.5Hz,十1.5Hz,9.Hz xsddocumentationrelative 十.45Hz /xsd:documentation xsd:annotation xsd:restrictionbase="xsd:strin ing" "[十\-]([0]十I[0-]十.[0-9们]*I[O]*.[0-]十)H2"/> xsdpatternvalue Xsd:restrIct1On simpleTypename="volume.number"> documentation>Modeledonnumberdataty 0.0-100.0 ype; locumentation annotatlOn restrictionbase="xsd:float"> minlnclusivevalue="0.0"/ maxlnelusivevalue="100.0"/> xsd:patternvalue="[0-9]十I[0-9]十.[0-9]*I[0-9]关.[0-9十"/> ;restrietion :simpleType simpleTypename="height.scale"> annotation documentation>descriptivevaluesforheight/xsd:documentation annotation rictionbase="xsd:string" enumerationvalue="x-high" enumerationvalue="high"/> :enumerationvalue="medium"/ :enumerationvalue="low" :enumerationvalue="x-low"> XO1 xsd:enummerationvalue="default"/> xsd:restriction一 xsd;simpleType xsd;simpleTypename="speed..scale"> xsd;annotation xsd.documentation>deseriptivevaluesforspeed /Xsd;annotation 22
GB/T21024一2007 xsd:restrictionbase="xsd:string" 二xsd;enumerationvalue="xfast" Xsd:enumerationvalue Mfast xsd:enumerationvalue="medium"/ "sle :enumerationalue low ;enumerationvalue="x-slow"/ enumerationvalue="default" simpleIype simpleTypename ume.scale"> "volu documentation>descriptivevaluesforvolume之/xsd:documentation> Xsd:strIng value="silent x-soft" Value soft Value= 'nmedium" ;enumerat1OnValue= enumerationvalue="loud" :enumerationvalue="x-loud"/ value="default" enummeratlOn :restriction simpleType YCG simpleTypename="pitch.datatype" xsd:unionmemberTypes="hertznumberhertz.relativepercentheight.scale"/> xsd:simpleType xsd:simpleTypename="range.datatype" C :unionmemberTypes="hertz.numberhertz.relativepercentheight.scale"/> xsd:simpleType xxsd:simpleTypename="rate.datatype"> xsd:unionmemberTypes="numberrelativepercentspeed.scale"/ xxsd:simpleType xsd:simpleTypename="volume.datatype" xsd:unionmemberTypes="volume.numberrelativepereentvolunme.scale"/> xsd:simpleType xsd:simpleTypename contour.datatype" xsd;annotation xsd:documentation>ContourPoint十,where ContouPointi Number%piteh.datatype/xsd:documentation xsd:annotation -"xsd:strin" xsd:restrictionbase xsd:pattern -"\([0-9]十I[0-9]十.[0-9]关[0-9关.[0-9]十)%,(([0-9]十I[0-9]十.[0-9]*[0-9]* value 23
GB/T21024一2007 [0-9]+)Hz[十-]([0-9]+I[0-9]十.[0-9]关I[0-9]关.[0-9]+)Hzl[+一]??([0-9]I[0-9]十 [0-9]*I[0-9]*.[0-9]十)%I[十一][0-9]十I[0-9]十.[0-9]关[0-9]*.[0-9]十)stlx-highhighl medi iumllowlx-lowldefault八\)+"/> /Xsdrestriction xsdsimpleType> xsd:simpleTy datatype" Iypename "gender. restrictionbase 'xsd:string xsd:enumerationvalue="male"/ xsd:;enumerationvalue="female"/ 'neutral"/> xsdenumerationvalue= "level.datatype" name Xsdstr1ng Value一 "strong" 'tmoderate"/> Value Xsd:enumerationValue三none xsd:enumerationvalue="reduced"/> restrlctlOn SImpleype size.datatype" sImplelypename :restrictionbase xsd:string x-smal" enumeratiOnValue xsd:enumerationvalue '"smal" xsd:enumerationvalue 'medium xsd:enumerationvalue="large" .enumerationvalue="x-large' enumerationvalue="none" restriction. xsd:simpleType XS simpleTypename "strength.datatype" S ;trictionbase 'xsd:string" enme rationvalue="none" k" X0 :enumerationvalue="x-weak" :enumerationvalue="weak" -"medum" xsd:enumerationvalue一 -"strong" :enumerationvalue= xstrong" XtO :enumerationvalue=" xsd:restriction一 xsd:simpleType xsd;simpleTypename="version. dtatype" xsd;restrietionbase="xsd,NMTOKEN"/> 24
GB/T21024一2007 xsdsimpleTypename="alphabet.datatype" -"xsd:string"" xsd:restrictionbase一 "(ipalpylx 关)"/> xsd:patternvalue- xsd:restriction xsd:simpleType xsd:simpleTy pe" Typename="breaktime. .datatype "durationsize, rrTypes xsd:unionmember .datatype" xsd;simpleType Ksd;annotation xsd:documentation>AttributesandGroups之/xsd:documentation "speak.attribs"> xsdattribute(Groupname version" "version.datat atype”use="required"> Xsd;attributename type xsd:attributeref required" xnmllang”use" xsd:attributeref="xml:base" xsd;attributeGroup annotatlon documentation>ContentModels annotatiOn name="allowed-within-sentence" :choice xsd:elementref="aws"/ xsd:choice Xsd:grOup. paragraph.class XSd;grOupname XSd:Sequence xsd:choiceminOccurs="0”maxOccurs="unbounded" xsd:groupref="allowedwithin-sentence" xsd:elementref="sentence" xsd:elementref xsd:elementref="phrase"/ xsd:elementref="word"/ xsd:choice xsd:sequence. xsd:group xsd:groupname 'sentence.class" xsd:sequence xsd:choicenminOceurs="o" maxOccurs="unbounded"