GB/T20090.10-2013

信息技术先进音视频编码第10部分:移动语音和音频

Informationtechnology—Advancedcodingofaudioandvideo—Part10:Mobilespeechandaudio

本文分享国家标准信息技术先进音视频编码第10部分:移动语音和音频的全文阅读和高清PDF的下载,信息技术先进音视频编码第10部分:移动语音和音频的编号:GB/T20090.10-2013。信息技术先进音视频编码第10部分:移动语音和音频共有127页,发布于2014-07-15
  • 中国标准分类号(CCS)L71
  • 国际标准分类号(ICS)35.040
  • 实施日期2014-07-15
  • 文件格式PDF
  • 文本页数127页
  • 文件大小2.15M

以图片形式预览信息技术先进音视频编码第10部分:移动语音和音频

信息技术先进音视频编码第10部分:移动语音和音频


国家标准 GB/T20090.10一2013 信息技术先进音视频编码 第10部分移动语音和音频 nformationtechmology一Adsaneedcdingofaudio.andvideor 10Mobilespeeehandaudio0 Part 2013-12-31发布 2014-07-15实施 国家质量监督检监检疫总局 发布 国家标准花管理委员会国家标准
GB/T20090.10?2013 ? ? Χ 淶? ? ? 2 82 λ 101 洢??? 107 ?A(淶??)VAD 11 ?B(淶?? 115 ?c(淶??)?? 120
GB/T20090.10一2013 前 言 GB/T20090(信息技术先进音视频编码》分为以下13个部分 -第1部分:系统; 第2部分;视频; 第3部分:音频; 第4部分;符合性测试 第5部分参考软件 第6部分;面向数字版权管理的可信解码器与访问协议 第7部分面向交互应用的视频编解码 第8部分;在IP网络上传输AVs; 第9部分:AVs文件格式 第10部分,移动语音和音频; 第 11部分;同步文本; 第 12部分综合场景 第 13部分;可重构视频编码工具集 本部分为GB/T20090的第10部分 本部分按照GB/T1.1一2009给出的规则起草 本部分由全国信息技术标准化技术委员会(sAc/Tc28)提出并归口 本部分起草单位;武汉大学,华为技术有限公司、天津大学、上海交通大学、北京三星通信技术研究 有限公司、芯晨(北京)科技有限公司、科学院声学研究所、展讯通信(上海)有限公司,电子技术 标准化研究所 本部分主要起草人;高文、黄铁军,胡瑞敏、马付伟、张涛、高戈,张勇、刘佩林,王晓晨,李迅、詹杰、 邓浩江、林福辉
GB/T20090.10一2013 引 言 GB/T20090的本部分是面向新一代移动通信系统的低码率语音频编解码技术标准,是为了适应 移动通讯,无线宽带多媒体通讯,互联网宽带流媒体业务等应用中对语音频压缩技术的需要而制定的 本部分描述的音频编解码技术支持采样频率为8kHz、16kHz、24kHz、32kHz、48kHz ll.025kHz、22.05kHz、44.1kHz的16位采样的单声道,立体声脉冲编码调制信号,解码输出是同样格 式的单声道或立体声信号,单声道模式输出位流为10.4kbit/s一24kbit/s,立体声模式下输出位流为 12.4kbit/s32kbit/s , 本文件的发布机构提请注意,声明符合本文件可能涉及11项与数字音频编解码技术相关专利的使 用 这11项专利是;ZL.200610139703.8,一种实现开环基音搜索的方法和装置;ZL.200610145785.7,选 择自适应码本激励信号的方法和装置;2L.200610128778.6,语音或音频信号的带宽扩展方法及系统; ZL200710001186.2,语音解码器中实现语音解码的方法及装置基音周期);ZI200610162678.5,一种解 ZL.200710038078.2,利用缓存来加快量化数据取得的编码和解码方法 码方法及装置; L.200810038192.x,基于变长分裂表的矢量量化高阶码本扩展编码及解码系统;ZL.200710064350.4. 种格矢量量化编解码的实现方法及装置;ZL200710099046.3,一种高效可配置的频域参数立体声及多 声道编解码方法与系统;ZL.200710006619.3,一种截取输人信号的方法及装置;Z1L200810006804.7. 种增益量化方法及装置 本文件的发布机构对于以上专利的真实性、有效性和范围无任何立场 专利持有人已向本部分的发布机构保证,愿意同任何申请人在合理和非歧视的条款和条件下,就使 用授权许可证进行谈判 这方面,该专利持有人的声明已在本部分的发布机构备案 本部分涉及的专利许可遵循本部分起草组织者数字音视频编解码技术标准工作组制订并经会员签 署同意的《知识产权政策》,通过“AVs专利池”进行许可,具体许可条款由专利池管理委员会决定 标 准实施者可通过专利池管理委员会或其授权机构获得专利池中所有专利的许可权 专利池管理委员会由数字音视频编解码技术标准工作组推动发起 有关事宜可联系数字音视频编 解码技术标准工作组秘书处,联系方法如下 联系人;黄铁军 通讯地址:北京2704信箱31分箱 邮政编码:10008o 电子邮件;tjhuang(@ict.ac.cn 电 话;十861058858303,十861058858300-303 传 真;十861058858301 网 址;http://www.avs.org.cn可从本网址获得最新联系方法)
GB/T20090.10一2013 信息技术先进音视频编码 第10部分移动语音和音频 范围 GB/T20090的本部分规定了移动语音和音频信号的编码方法、编码表示及解码方法 本部分适用于下述领域: 移动通讯 无线宽带多媒体通讯; 互联网宽带流媒体业务 规范性引用文件 下列文件对于本文件的应用是必不可少的 凡是注日期的引用文件,仅注日期的版本适用于本文 件 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 GB/T5271.1一2000信息技术词汇第1部分;基本术语(evIso)/IEC2382-l19937 信息技术词汇第4部分:数据的组织(eqvISo/IEC2382-41987) GB/T5271.42000 信息技术词汇第9部分;数据通信(eqIso/IEC23829.1995) GB/T5271.92001 GB/T15526-1995音频记录PCM编解码系统 术语和定义 GB/T5271.1一2000,GB/T5271.42000,GB/T5271.9一2001和GB/T15526一1995界定的以 及下列术语和定义适用于本文件 3.1 比特率 bitrate 压缩位流传输到解码器输人端的速率 3.2 位流bitstream 用作数据编码表示的有一定次序的一组位 3.3 编码edng 读人音频样本并产生编码位流的过程 3.4 编码器encoder 编码过程的具体实现者 3.5 比例因子 scalefactor 量化前标度一组数值的因子
GB/T20090.10一2013 3.6 解码decding 读人编码位流并产生音频信号样本的过程 3. 解码器decoder 完成解码处理的实体 3.8 滤波器组 filterbank 覆盖全部音频频率范围的一组带通滤波器 3.9 transform 时频变换time-fregu Hueney 音频信号从时间域向频率域的变换 3.10 频时变换fregueney-timetransform 音频信号从频率域向时间域的变换 3.11 频谱包络speetraleveope 变换到频域后的幅度谱轮廓 3.12 保留 reserved 定义了一些特定语法元素值用于将来对本部分的扩展 注这些值不应出现在符合本部分的位流中 3.13 采样频率samplingfrqu 1ency 在音频信号数字化过程中,单位时间内采样的次数 3.14 音频缓冲区audiobuffer 解码器中用于存储压缩音频数据的存储单元 3.15 瞬变信号transientsignal 在一帧音频信号内,由于信号能量等特征变化迅速,需要使用短窗序列进行分析的信号 3.16 平稳信号steadsignal 在一帧音频信号内,由于信号能量等特征变化平缓,需要使用长窗序列进行分析的信号 3.17 开环基音搜索open-loppitehseareh 直接从加权输人语音中估计最优基音延迟的过程 注:开环基音搜索简化了基音延迟分析,并且将闭环基音搜索限定到开环基音搜索的延迟值附近 在编码中,每两 个子搜索一次开环基音 3.18 闭环基音搜索eosed-oppitehseareh 在开环基音搜索得到的基音延迟附近,闭环估计最优基音延迟的过程
GB/T20090.10一2013 3.19 自适应码本adaptiveedebwl 包括每个子都更新一次的激励矢量 注:自适应码本的序号可用于判断迟延值 3.20 固定码本fixedcodeb0ok -种固定脉冲幅度为1或一1的码本 3.21 感知加权滤波pereptualweightingfrilter 利用共振峰处的噪声掩蔽特性减少主观感受到的噪声 3.22 athity 声音信号分类检测 Sounda detection 将输人的声音信号分成非有用信号,语音和音乐三类 符号和缩略语 本文件中使用的数学运算符和优先级与C语言使用的类似 但对整型除法和算术移位操作进行 了特定的定义 除特别说明外,约定编号和计数从‘0’开始 4.1算术运算符 下列算术运算符适用于本文件 十;加 -;减(二元运算符)或取反(一元前缀运算符 ×;乘 a';乘幕,表示a的b次乘幕,也可表示上标 A;乘幕 %:取模算符,仅对正整数定义 ;整除运算,沿向0的取值方向截断 示例:7/4 和-7/-4截断至1.一7/和7/-4截断至一1 除法运算,不做截断或四舍五人 “除法运算,不做取整或四含五人. lxl;绝对值,当r>0时有 当.r<0时有r|=一 工=工 l;r0 sign(G):取符号sign(r)- I; min(r,y);取较小值min(.r,y y; max(r,y);取较大值max(.r,y) I; 平方根 S).自变量了取由 到从(舍办的所有整数值时,丽数的累加和
GB/T20090.10一2013 log0:以10为底的对数 oge;以2为底的对数 sin();sine函数 cos():cosine函数 arccos():cosine函数的反函数 exp(;指数 Ia 连乘 ;卷积 c 排列组合数 U并 ;包含于 E;属于 :不包含于 rand(a,b):随机数 4.2逻辑运算符 下列逻辑运算符适用于本文件 l:逻辑或 &.&.;逻辑与 !:逻辑非 4.3关系运算符 下列关系运算符适用于本文件 >;大于 =;大于或等于 <;小于 <=:小于或等于 =;等于 =;不等于 4.4位运算符 下列位运算符适用于本文件 &.;与 l:或 ;取反 a>b将a以2的补码整数表示的形式向右移位 仅当b取正数时定义此运算 GB/T20090.10一2013 十:自加,r十十相当于r=r1 当用于数组下标时,在自加运算前先求变量值 自减,,x一一相当于r=.r一l 当用于数组下标时,在自减运算前先求变量值 =:自加指定值 示例1:r十= -3相当于x=r十3 示例2;.r十=(一3)相当于.r=.r十(一3 :自减指定值 示例1:r一=3相当于" 示例2:r-=(一3)相当于r=r-(-3) 4.6缩略语 下列缩略语适用于本文件 ACELP;代数码书激励线性预测(AlgebraicCodeExeitedLinearPrediction) ACELP/TVC;代数码书激励线性预测或变换域矢量编码ACELPorTVC 5 Standard coding AVS;音视频编解码标准(AudioandVideo BwE;带宽扩展(BandwidthExtension FFT;快速傅里叶变换(FastFourierTransform) FIR:有限冲击响应FiniteImpulseResponse ISF;导谱频率(ImmittanceSpectralFregquencies) IFFT:快速傅里叶逆变换(lnverseFastFourierTransform S ISP:导谱对(Immittance pectralPairs ISPP;正负号交错脉冲(Interleavedsingle-PulsePredietion) LP:线性预测(LinearPrediction IPC;线性预测编码(LinearPredietiveCoding 1TP;长时预测(Long-TermmPredietion) MA;滑动平均(MovingAverage PCM;脉冲编码模式(PulseCode! eModulaion) PsvQ预测分裂矢量量化(PredictionSplitVectorquantizaton Detection SAD;声音信号分类检测(SoundA etivitry SID;静音描述赖(SilenceInsertionDeseriptor SNR:信噪比(SignaltoNoiseRatio) TvC;变换域矢量编码(TransformVectorCoding VAD;语音活动检测(VoiceActivityDetection) vQ;矢量量化(VectorQuantization) 概述 5.1输入信号 编码器的单声道或立体声输人信号是16位采样的PCM数据,解码输出是同样格式的单声道或立 体声信号,支持立体声解码单声道输出 5.2模块构成 本部分定义的编解码器包括一系列必选或可选的模块,必选模块在任何实现中都是应有的,可选模 块在某些实现中可以省略 编解码器中包括的模块及其性质见表1
GB/T20090.10一2013 表1移动语音和音频标准模块列表 模块名称 质 性 采样频率转换滤波 必选 sP系数量化 必选 自适应码本搜索 必选 感知加权滤波 必选 固定码本搜索和编码 必选 自适应和固定码本增益量化 必选 频谱扩展 必选 立体声编码 必选 多速率分裂表矢量量化 必选 编码模式切换 可选 峰值预整形/逆整形 可选 开环基音分析 可选 声音分类器 可选 解码后处理滤波 可选 丢顿处理 可选 5.3内部采样频率与比特率 信号在输人编码器后,其采样频率被转换为内部采样频率Fs,内部采样率通过采样率转换滤波得 到,其范围为12.8kH;一38.4kHz 编解码器将每次处理的2048个样点分成两个1024点的超赖,分别 对应低频和高频,每个超帧分成4个256样点的帧 输人信号的低频和高频用不同的方法进行编解码 低频用一个在ACELP和TVC之间切换的核 心编解码模块进行编码和解码,高频则通过BwE模块进行编解码 在单声道情说下,包含低频和高频编码信息的编码比特率情况见表2 表2单声道基本比特率 单位为位每赖 单声道基本比特率 208 240 272 304 338 384
GB/T20090.10一2013 表2(续 单位为位每帜 单声道基本比特率 416 480 在立体声情况下,包含低频和高频编码信息的编码比特率情况见表3 表3立体声扩展比特率 单位为位每倾 立体声扩展比特率 40 48 56 64 72 80 88 96 104 l12 120 128 136 144 152 60 5.4编码器和解码器结构 5.4.1编码器和解码器框图 本部分定义的编码器结构见图1 编码时,输人信号首先被分成低频和高频两个部分,采样频率都 是F、/2 低频信号使用基于ACELP和TVC切换的核心编码模块进行编码,高频信号使用BwE模块 进行编码
GB/T20090.10一2013 高频参数 高频编码 输入信号1 高频信号折叠 输入信号R 高频参数 0Fs/4Hz 高编码 M 模式 预处迎 单声道 ACELP/TvVc M 和 输入信号M 低频参数 复用 编码 分析 滤波器 Ip Me 立体声参数 下混 立体声编码 l, S (,S 低频信号折叠 0Fs/4kHz 单声道处理 说明 左声道高带信号, Lp 左声道低带信号 LIp M -单声道高带信号; Rm 右声道高带信号 右声道低带信号 R M 单/差声道低带信号 图1 编码器框图 模式选择位,低频参数和高频参数被传输到解码端,每超赖被分成4个同样大小的赖来进行处理 当输人信号是立体声信号,编码器将左、右声道信号下混为一个和信号和一个差信号,和信号使用 ACELP/TvC编码模块编码,立体声编码模块则对和信号与差信号进行处理 本部分定义的解码器的结构见图2 解码器将对低赖和高频分别解码,然厅用一个合成谴波器物 两个频段的信号合并在一起 如果信号输出被限制为单声道则不使用立体声解码
GB/T20090.10一2013 高频参数 高频解码 输出信号 高频信号折叠 0 高频参数 输出信号 高频解码 模式 合成频 输出信号 解复用 带滤波 单声道 低频参数 后处理 ACELP/rvc My 解码 立体声 参数 立体声解码 Rm 单声道处理 说明 左声道高带信号 Lr L 左声道低带信号; 单声道高带信号 M 右声道高带信号 RHF Rm 右声道低带信号, Mr -单/差声道低带信号 图2解码器框图 5.4.2低频的LP分析与合成 低频部分编码使用LP分析,LP系数以每64点为一子帧做一次线性插值,采用384点的半余 弦窗 5.4.3ACELP/Tvc模块 对单声道低频信号(0一FGB/T20090.10一2013 个声道的低频部分下混成和信号和差信号的低频部分0Fs/4kHz) 和信号的低频部分使用 ACELP/TVC模块进行编码 和信号与差信号的低频部分还被进一步分解成超低频部分[oFs×(5 128)kH幻]和中频部分[F:×(5/128)kHzF/4kHz] 对差信号的超低频部分进行下采样,计算边信 息,进行40,80或160样点的Tvc编码 差信号的中频部分以和信号的中频部分为参考,进行参数编 码 解码端使用这些参数从单声道激励信号恢复出两个信号的中频部分,左有两个声道的高额部分均 用BWE进行编码 5.5低复杂度操作 在低复杂度操作模式下,采用开环选择方法来决定使用ACELP还是TVvC模式进行编码 5.6帧丢失处理 如果接收端发生鹌数据丢失,解码器将使用赖丢失处理技术重建丢失的信号 在ACELP模式下 该技术利用前后帧进行时域参数重建;TVC模式下,该技术利用前后帧进行频域参数重建 5.7位分配 5.7.1ACELP/Tvc编码模块的位分配 低频部分(0FGB/T20090.10一2013 表5TVC256编码模式下的位分配表 数 数 模式位 1SF参数 46 噪声因子 全局增益 代数vQ 134 66 198 230 262 310 342 406 高频ISF参数 高频增益 总位数 208 240 272 304 336 384 416 480 表6TVC512编码模式下的位分配表 参 数 位 数 模式位 2十2 SF参数 46 噪声因子 全局增益 增益冗余 代数VQ 318 382 446 510 574 670 734 862 高频1ISF参数 高频增益 总位数 4l6 480 544 608 672 768 960 832 表7TvC1024编码模式下的位分配表 数 药 数 模式位 2十2十2十2 1SF参数 46 噪声因子 全局增益 增益冗余 333 823 1207 1527 代数VQ 695 951 l079 1399 1783 9×4 高频ISF参数 高频增益 1216 总位数 832 960 1088 1344 1536 1664 920 11
GB/T20090.10一2013 5.7.2立体声编码器的位分配 输人为平稳信号时立体声的编码位分配见表8,输人为瞬变信号时立体声的编码位分配见表9 表8平稳信号时参数立体声位分配表 叁 数 位 信号类型 全局增益 空白位 中频增益 维纳滤波系数 0 72 代数VQ 104 136168200232240272304336368400432 464 496 高频IsF参数 高频增益 总位数 96 128160 192224256288320o352384416 448480512 544 576 表9瞬变信号时参数立体声位分配表 位 信号类型 全局增益 7×4 空白位 1十1十1 40 中频增益 维纳滤波系数 9X4 高频ISF参数 高频增益 168200 220252 476 代数vQ 40 72 104 136 284 316 348 380 412 444 总位数 96 128160 192224256288320352384416 448480512 44 576 编码器功能描述 6.1输入信号预处理 6.1.1采样频率转换滤波 本部分的编码框架支持的音频输人采样频率有8kHz,16kHz,24kHz,32kHz、48kHz、11kHHz、 22kHz、44.1kHHz 为了后续处理的一致性,需要将不同采样频率的输人信号在编码之前进行重新采 样 同理,在解码端的后处理部分同样需要采样频率转换 采样频率转换的过程见图3 12
GB/T20090.10一2013 输入采样率8kt2 下采样 ltcrLP18 上采样 48kt 16kz、24kHz、 倍 K180倍 32Nz、48n 内部采样 上采样 下紧样 iterLP12 =2倍 K倍 iltcrLP16 输入采样率lkHz. 上深样 下采样 441kH2z K,65倍 僧 22kz、44.1Hz 图3采样频率转换图 加权窗函数的时域表达式见式(1. 76 Gn)=h(n)umi=(n) 式中: hamming窗的定义见式(2). w'smminn hn 加权丽数,表达式见式(3). 2T wi.(n)=0.54一0.46cos N 式中 0,l,,N一1 1十e1十e e-(N-"十e-"- 3 h(n= 1+e一2e(平 式中: 0,1,,N一1 6.1.2高通滤波 低频信号高通滤波的目的是为了滤掉不需要的低频成分 高通滤波器的传递函数见式(4) 滤波 器参数a,ae,b,b.b取决于内部采样频率 内部采样率与高通滤波参数的对应关系见表10. b -b十b3 N H(:= a1义 十2您 表10内部采样率与高通滤波参数对应关系表 内部采样率 C2 Hz 12800 1.979174 -0.979342 0.989629 -1.979258 0.989629 l.979174 一979 -1.979258 629 342 0.989629 0,.989 14400 16000 1.979174 -0.979342 0.989629 -1.979258 0.989629 17067 1.979174 0.989629 -1.979258 0,.989629 一0.979342 19200 1.979174 -0,.979342 0.989629 -1.979258 0.989629 21333 1.979174 -0.979342 0.989629 -1.979258 0.989629 24000 1.979174 -0,979342 0.989629 1.979258 0.989629 25600 1.979174 -0.979342 0.989629 -1.979258 0.989629 28800 1.986116 -0.986212 0.993082 -1.986164 0.993082 13
GB/T20090.10一2013 表10(续 内部采样率 Hz 32000 1.986984 一0.987071 0.993514 一1.987027 0.993514 34133 1.987852 -0.987929 0.993945 -1.987891 0.993945 36000 1.988430 -0.988502 0.994233 1.988466 0.994233 38400 1.988936 -0.989003 0.994485 1.988970o 0.994485 44100 1.989587 -0.989647 0.994809 1,989617 0.994809 6.1.3立体声下混 当输人信号是立体声信号时,通过下混左右声道信号的低频部分得到和信号的低频部分,其计算方 法见式(5) L.n=0.5[r.n十. 5 -工贼(n] ZML 式中: 左声道的低频, L(n ZLL 右声道的低频 工贼.(n 和信号的低频部分使用ACEL/Tvc编码模式进行编码 下混得到的和信号与有信号的低频部分u(n),(")经过线性被分别得到残差信号n(n .(n),然后用时频变换进一步分成两个频段,超低频和中频部分,其中中频部分互相加减,分别恢复出 eR 左声道和右声道的中频部分eI(n)、ea(n) 计算过程见图4 中频抽取 -em sa.(n) 时频变换 低频抽以 --en.,m) 时频变换 低频抽取 -ea(m) ew,(" 中频抽取 Gpn 图4立体声双声道下混过程示意图 n(n)和e(n)采用立体声模式 超低频信号“s,(n)采用立体声模式中的TVvC编码,中频信号“d 中的参数编码进行编码 ACELP/TvC混合编码模式 6.2 6.2.1ACELP/Tvc混合编码模式概述 编码器的核心算法是混合ACELP/Tvc模式编码 对每帧输人音频信号,编码器可以采用开环方 式选择或闭环方式选择使用哪种模式(ACELP或TVC)编码,其中ACELP模式编码是时域线性预测 编码,适用于语音信号和瞬态信号,TVvC模式编码是基于变换域的编码器,适用于典型的音乐信号 14
GB/T20090.10一2013 6.2.2ACELP/Tvc的时间图 ACELP/TVC编码模块的输人是单声道、F、/2kHz频率采样的信号 每1024个连续的输人信号 采样点组成一个超帧进行处理 每个1024点超帧可采用多种模式编码,采用哪一种模式取决于信号特 征,编码模式包括ACELP256、TVC256、TvC512,TvC1024 这些编码模式将在6.2.3中介绍 每个超帧的所有可能编码模式见图5 一个超帧中的每256点帧有四种可能模式,分别是 ACELP256、TVC256,TVC512和TVC1024 在ACELP256模式中,输人信号帧采用256点ACELP 编的 在Tve2351模式中输人信号懒采用26样点VC蝌码,由于TvC属于变换编码,需要加上 一帧的最后32个样点用于帧重叠 在TvC512模式中,将两个连续的256样点帧组合成一个512样点 的块,采用512点TVC编码,加上上一帧的最后64个样点用于帧重叠 TVC512模式只允许由超帧的 前两帧或者后两帧组合而成 在TVC1024模式中,将一个超帧中的所有256样点帧组合成一个块,采 用1024点TvC编码,加上上一帆的最后128个样点用于帆重叠 ACELP(256样点 ACELP(256样点 Tvc(256+32样点 Tvc(256#32样点 ACELP(256样点 CELP256样点 Tvc(256132样点 TVC(256+32样点 Tvc(2+64样点 Tvc(612H6样点 TVc(024+128样点》 时间 32样点 I64样点 I32样点 256样点 128样点 256样点 512样点 i12样点 1024样点 图5顿类型的时间图 6.2.3ACELP/Tvc的联合模式编码 每个超帧有26种不同的ACELP/TVvC编码模式组合,见表11 一个超帧可能的组合模式 表11 序号 序号 序号 m,mm" m,m .n mm1,m2,m n2 0,0,0,0 10 1,0,0,1 19 2,2,0,1 (1,0,0.0 0.1.0.1 20 1 (2,2,l,l 12 0,l,0,0 1,l,0,1 21 (0,0,2,2 3 222 (1.l1.0.0 0,0,1,1 1.0.2.2 14 0,0,l,0 l,0,l,l 23 (0,l,2,2 0.1,1.1 2小 l,0,l,0 l1,l,2,2) 16 0,l,l,0) l,l,l,l 25 2,2,2,2 7 26 1,1,1,0 2,2,0.0 3,3.3.3 18 0,0,0,l 2,2,l,0 15
GB/T20090.10一2013 表11中m表示1024点超帧中第更个256点帧,m取值如下 =0表示第人帧的编码模式是ACELP256 m1 -l =1表示第人帧的编码模式是TVC256; =2表示第人帧的编码模式是TvC512; 1 =3表示第人帧的编码模式是TVCI024 1 个超中,当第一帧为模式2(TVC512)时,第二也应是模式2 同样,当第三帧为模 式2(TvC512)时,第四赖也应是模式2 只有一种可能组合是模式3(TvC1024),那就是所有的4赖都 处于同一个模式(m=3当人=0,1,2和3) 每个超的参数实际上被分解成四个同样大小的帧的参数 每中都有两位用于标示该的 模式 示例:采用Tvc1024模式编码的超锁所包含的4赖都以'obl1'模式m,=3)作为模式标识 6.2.4ACELP/Tvc的闭环模式选择 26种可能编码模式组合中的最优模式可以通过闭环模式选择来决定,即一个1024点超中的256 点帧首先使用多种模式进行编码,然后再选择最好的组合 图6的左边部分显示了一个超帧的试探编码模式的过程 该过程由步骤1到步骤11组成 在11 个步骤中每帧的编码模式试探只有四步 当试探对象超过1帧时图6中的步骤5、10和ll),采用相 应更大长度的TVC模式TVC512或者TVC1024) 步要1:对第一核使用AcELr256模式编码 步赚2,对第一顿使用rvc256模式编码 步类1l: 步孩3:对第二峡使用ACELP256式编码 步骤4对第二使用TVC256模式编码 对第一 倾、第二 步磷5对第一械和第二械使用vC512模式编码 械、第三 械、第四 步要6:对第三械使用ACELP256模式编码 步骤7:对第三恢使用TVC25模式编码 械使用 TVC1024 步骤8,对第四使用ACELP256模式编码 步翼9对第四锁使用rvc256模式编码 模式编码 步架10对第三械和第四倾使用C512模式编码 图6ACELP/TvC联合闭环选择 图6所示的模式选择过程的流程如下;首先,在步骤1和2中,在第一帧先尝试ACELP256模式编 码,再尝试TVC256模式编码 然后,在这两种模式中选择一个作为第一的模式 选择的标准是加 权语音r(n)和合成加权语音..(n)间的分段信噪比均值 第i个子赖的分段sNR定义见式(6). rl(n) (6 segSNR,=20log .r.(n 工.(n 式中: 加权语音; r(n .(n 合成加权语音; 16
GB/T20090.10一2013 N 子帧的长度,64个样点 分段sNR均值定义见式(7) SNR= egSNR N 式中: -第;个子帧的分段sNR SNR seg N9 -倾中子帧的标号 因为一镇长度可以是256,.512或1024点,N、可以是4.8或10 根据gSNR的判决标准,假定步 骤1和步骤2的比较结果是在第一帧中ACELP256优于TVC256 在步骤3和步骤4中,采用同样的 模式比较方法判决第二帧的编码模式 假设此时TvC256模式优于ACELP256模式,第二帧采用 TVC256模式编码 在步骤5中,第一帧和第二帧组合成512点的块,这时需要在TVC512模式,第一 帧ACELP256模式和第二帧TvC256模式间选择 假设此时第一帧ACEIP256模式和第二帧 TVC256模式优于TVC512模式 第三,四帧的步骤6步骤10同于步骤1一步骤5 假设第10步后 4帧编码模式选择为;第一帧用ACELP256,第二帧用TvC256,第三帧和第四帧一起用TvCc512 当所 有4个256点顿(一整个超赖)采用1024点TvC编码后执行步骤11 再次采用64点分段的分段 SNR标准,和步骤10模式选择的信号编码比较 如果最终模式是整个超帧采用TVC1024模式编码 每帧对应的模式位为(3333 6.2.5ACELP/TVC的开环模式选择 另外一种ACELP/Tvc编码模式选择方法是低复杂度的开环选择方法,通过提取信号的特征并根 据这些特征决定选择哪一种编码模式进行编码 该方法不需要对各种模式进行编码尝试,降低了计算 复杂度 如何根据信号特征选用哪个编码模块的处理过程见6.2.6 6.2.6声音分类器 6.2.6.1算法框架 SAD技术是一种音频信号分类方法,将输人音频信号划分为不同的类,可分为非有用信号,语音和 音乐三类 SAD算法框架如图7所示,SAD模块包括4个子模块:背景噪声参数更新及背景噪声估计 控制信号初始分类、分类参数提取和信号分类判决 SAD模块使用编码器提取的参数进行声音分类判决,SAD模块使用的参数包括1SF参数isf[m] 1=1,,12)及开环基音参量(包括开环基音延迟和开环基音增 ,l6),子带能量leel[n](n n=1," 益) SAD模块最终输出是信号判决类型,包括非有用信号,语音和音乐三类 语音和音乐属于有用 信号 17
GB/T20090.10一2013 频谱分布参数 背景嗓声参数更新 及背景嗓声计控倒模块 更新迷率 子带能最 信号初始分类模块 vadlag 编码器参数挑取 分类参数提取桃块 编码器参数 信号分类特征参数 信号分类判决模块 SAD 输出竹号判决类型 模块 ACELP/Tvc 编码 图7sAD算法框架 6.2.6.2编码器参数提取 SAD模块作为编码器内部使用的信号分类器,为减少计算复杂度,将充分利用编码器其他模块计 算得到的参数 编码器参数提取将导谱频率参数、子带能量参数和开环基音参数传送给分类参数提取模块,将提取 的子带能量参数传送给信号初始分类模块 编码器参数提取传送的参数包括 evel[门 子带能量 i表示向量的成员索引,算法中取1,,12,分别对应0Hz一200Hz a 200Hz一400Hz、400Hz一600HHz,600Hz一800Hz,800Hz1200Hz、1200Hz1600Hz l600Hz2000Hz、2000Hz2400Hz、2400Hz3200Hz、3200Hz40000Hz、 4000Hz4800Hz、4800Hz6400Hz bisf,[门 ISF参数向量 "表示索引,取1,,16表示向量中成员索引 1,开环基音增益 looppitdh Lgain open 1gain pitchlag do openlo0 g,开环基音延迟 _ag op 设 _lag _Hlhg 音调标志 如果l _gain的值大于门限TONE_THR,则音调标志tone tone 为1 计算子带能量参数之后将根据信号初始判决的结果决定是否进行LsF运算 如果当前赖是非有 用信号,则根据编码器的机制进行处理 如果编码器针对非有用信号的编码需要LsF系数,则进行 .sF运算;若不需要,则编码器参数提取模块结束 如果当前就是有用信号,则进行Lsr运算 编码器 参数提取流程图见图8 18
GB/T20090.10一2013 开始 计算子带能量参数 信号初始分类为有用 信号,或编码模式对于非有 用信号需要LSF运算? 香 计算LSF参数 计算开环基音参数 结束 图8编码器参数提取流程图 6.2.6.3信号初始分类模块 信号初始分类模块以VAD算法为基础,VAD检测的功能描述见附录A 首先根据背景噪声估计 控制模块提供的更新速率acc来控制背景噪声的估计,信号初始分类模块接收更新速率,根据更新速率 对噪声参数进行更新 噪声参数包括噪声估计参数和噪声频谱分布参数等 信号初始分类模块根据子 带能量参数和更新后的噪声参数对声音信号进行分类,并发送初始分类确定的声音信号类型 信号初 始分类模块的算法框图见图9 噪声频谱分布参数 背景嗓声估 计控制 子带能量 更新迷率 背紧嗓声估计 计算信噪比 有用储号估计 背景嗓声 子带能量 信嗓 有用信号 估计 比 能且水平 背景嗓声能量水平 比较 判决闭值调整 判决 中间 门限 判决 信号初始 拖尾保护有用信号 分类模块 最终判决 图9信号初始分类模块算法框架 19
GB/T20090.10一2013 udale_u、updale_down分别对应背景噪声向上、向下的更新速率 噪声更新的方案可采用下 面的方案 Ifckr_est.[n]GB/T20090.10一2013 式中: 短时平均能量 short_mean_leel_energ3y e 高低子带能量比" 计算方法见式(12) ra sublevel_high_energy (12 ra subleel_low_energy 式中: -高子带能量; SubleUel/_high_energy 低子带能量 xubleve/_low-ener4y 子带能量频域波动f_flur 计算方法见式(13). lerel.(i一leel.i一1 13 ( f_flu.r shortmeanlezel _energy 式中: 短时平均能量 shorteanleel _energy B》线谱距离短时平均I毛meansD 5个相邻顿线谱距离IsfsD的平均值 6.2.6.5信号分类判决模块 信号分类判决模块从信号初始分类模块的声音信号类型接收信号分类特征参数:开环基音参数、导 谱频率参数、子带能量参数,确定有用信号的类型,是否为语音信号或音乐信号,并发送所确定的有用信 号的类型 信号分类判决的类别最终标志包括 非有用信号类 NOISE a b SPEECH语音类; 音乐类 MUSIC 6.2.6.5.1特征参数拖尾机制 为保证信号判决的稳定及避免频繁的判决结果的转换,拖尾设置方案如下 对pitch_lag,level_meanSD_high_lag、ls_meanSD_high_lag、ls_meanSD_low_lag、level meanSD_low_lag,meangain_lag这些特征参数的标志设置拖尾 根据训练参数对应的决策树的各内 部节点的错误率ER来控制拖尾长短 错误率小的参数,拖尾短;错误率大的参数,拖尾长 6.2.6.5.2初始分类 如果当前的信号分类为有用信号,那么基于开环基音参数、导谱频率参数和子带能量参数确定有用 信号的类型(语音信号和音乐信号),进行语音和音乐的初始分类 首先进行语音判决,如果信号满足语音特性标准,则设置语音标志=peechLlag,见图10. 21
GB/T20090.10一2013 信号初始分类模块 判庆为有用信号 speechflag=0 否 s[meanSD>THR1 pitch==1 否 &&(T_op_mcan =HR2 pitch_flag==I nmcangain>THR3 leemeansDhiehlag==1 sfmeanSDhighlag==1 spechnag=1 speeehlag=0 图10语音标志置位 接着进行音乐判决,如果信号同时满足标志Isf_meansD_low_lag和level_nmeanSD_low_lag,那 么认为是音乐信号,并设置音乐标志music_lag,见图11 最后进行类型选择见图12. 信号初始判决模块 判决为有用信号 musicnag=0 levemeanSD_low_lag==1) &.&(smeanSD_low_nag==1) musiclag=1 music_lag=0 图11音乐标志置位 22
GB/T20090.10一2013 6.2.6.5.3 修正分类 修正分类首先对语音和音乐拖尾标志清零 如果经过初始判决后当前的分类处于不确定类,根据 语境和一些参数对信号的类别进行进一步修正 如果本帧之前为连续的语音类,且连续性较强,那么根 据语音的特征参数对话音进行判决若满足语音条件,那么设置语音拖尾的标志specth_hango ver flag 如果本之前为连续的音乐类,且连续性较强,那么根据音乐的特征参数对音乐进行判决,若满 足音乐条件,那么设置音乐拖尾的标志; musie_hangover_lag 如果语音拖尾标志为1,那么将当前的信 号类别置为语音类 如果音乐拖尾标志为1,那么将当前的信号类别置为音乐类 如果音乐拖尾标志 和音乐拖尾标志同时满足,那么将信号类别设为不确定类 如果之前音乐的连续性超过了2帕,那么如 果ls_meanSD的值较小,则将信号类别设为音乐类 经过初步的拖尾后,如果信号类别还为不确定类,那么根据之前的语境对信号类别进行能正,即将 当前不确定的信号类别归纳为之前的信号类别 6.2.6.5.4最终修正分类 经过初始的分类修正后,继续根据当前的语境进行类别的修正,如果当前的语境为音乐,且持续性 很强,超过了3,那么可根据LmensD的值进行强制修正 如果当前的语境为语音并且持续性很 强,超过了3s,那么可根据Isf_meanSD的值进行强制修正 如果信号的即时能量值太小,那么当前赖 的类别判决为与前一倾的判决相同 6.2.6.5.5参数更新 参数更新包括更新3个类别计数器,还包括更新信号类别判决模块中的各门限值 如果当前分类 为音乐,则音乐计数器musie_countinue_counter增加1,否则清零 其他类别的处理如上所述 门限值 根据信号初始分类模块输出的信噪比大小来更新 6.2.6.5.6背景噪声估计控制模块 实际应用环境可能出现背景嗓声的能量水平突然提高的情况,这时易出现背景噪声估计因信号持 续被判为有用信号而一直不能更新的状态 背景噪声估计控制模块根据背景噪声频谱分布参数和频谱 分布参数确定背景噪声的更新速率,并发送更新速率到信号初始分类模块 与背景噪声估计控制模块有关的频谱分布参数向量包含以下元素 zcrmean:过零率ccr的短时平均; a ra_mean:高低子带能量比ra的短时平均 b) [_flux_mean;子带能量频域波动_lux的短时平均; d)_lux_mean;子带能量时域波动毛_lux的短时平均 n短时平均的计算方法见式(14. 其中,zcrmean =ALPHA scrmean十(1一ALPHA) xcr(14 zcr_mean 式中: 帧索引 n 当前背景嗓声的更新迷率由当前频谱分布参数与背景噪声频谱分布参数估计之间的差异d 来确 定 本部分采用Manhattan距离来实现该差异,见式(15). (i)-(il 15 dl.办 式中 当前信号的频谱分布参数向量; -背景躁声频谱分布参数向量估计 23
GB/T20090.10一2013 当dTiR5 否 (levelenergy musiclag==l &.&(oice_nag== music_nlag==O &&(oicelag==O 香 不确定 msiclag==0 &&(oicenag==D pitehMag==1&& (sfmeunSDTHR9 &&(lsfmeansDGB/T20090.10一2013 6.3ACELP/TrVC混合编码模块 6.3.1预加重 输人到ACELP/TVC模块的单声道信号,首先通过一个高通预处理滤波器,然后通过一阶的预加 重滤波器,其传递丽数见式(16) P(3=1一0.68 (16 预加重滤波器降低低频信号的能量,同时提升高频信号的能量,这样可以降低信号频谱的动态范 围,进一步增强LPC分析的分辨率 6.3.2LP分析、插值和量化 6.3.2.1LP分析 LP分析是用16阶LP作短时分析 这里采用莱文逊-杜宾(L.evin.on-Durtbin)算法进行LP系数求 解,每帧分析一次得到一组LP系数 LP系数在编码前要先转化为ISF参数,然后采用PsvQ进行量 化 LP合成滤波器采用16阶LP合成滤波器,见式(17) Hl( .(17 A( 式中: -量化后的LP系数; 预测器阶数,m=16 实现过程为;用384点非对称窗加权预处理后的内部采样信号s(n),求256个样点的自相关系数 用莱文逊-杜宾算法求解LP系数,然后转换为ISP系数并在1SP域中内插,将第四子帧的ISP系数转换 为ISF参数并量化 分析帧结构见图13 其中256个样点来自当前帧(第n),64个样点来自上一帧(第n-1),64 个样点来自下一倾(第n十1倾) 第”帧分析窗与第n-1帧分析窗有128个样点的重叠 第1分析窗 第n分析窗 第n恢 图13线性预测分析结构图 编码器LP分析和量化的流程图见图14 R化 384 内插ISP系 第四子 第四 出 点 数,得到 的ISP系 D 子顿 换为 对称 四个子似 数转换为 知 的is 不 加 的1SP系数 数 ISF系数 系数 数 图14编码器LP分析和量化流程图 25
GB/T20090.10一2013 6.3.2.2加窗和自相关函数的计算 LP分析每帧进行一次 分析窗采用集中于第四子帧的非对称窗,该窗由两部分组成,第一部分是 半个汉明窗,第二部分是1/4余弦窗,该窗的表达式见式(18) 2开n 0.54一0.46cos ,n=0,,l 2L 18 7( 2T(n -=L,L,十L一1 cOs ,1 4L 式中 256; I L 128. LP分析窗的窗型见图15 幅度 1.Ol ae9 0. aT o .叫 a4 0.3 0外 第川锁256个样点 0.1 28 2 56 32 34 图15LP分析窗的窗型图 设加窗后的语音信号记作、'(n),n=0,l, ,,383,其计算方法见式(19) 19 ()=w()x(") 式中: '(n -对应的自相关函数,见式(20); w(n -加窗丽数; 预处理后的内部采样肖频信号 s(n) b'n)'" 文 r(k= 一k 20 式中: -0,l,,l6 然后用滞后窗w(i)乘自相关函数使其具有60Hz的带宽扩展,滞后窗w(i)的表达式见 式(21) i-= [!(7 一 "w'l =exP 式中 拓展的带宽.f,=60Hz 内部采样频率; 1,2,,16 修正后的自相关函数r'()见式(22) r'(0)=1.0001r(0),r'=r(k)wk 22 26

移动语音和音频编码GB/T20090.10-2013介绍

随着通信技术的不断发展,移动电话已经成为现代生活中不可或缺的一部分。然而,要在移动网络上实现高质量的语音通话和音频传输却面临着许多挑战,例如带宽受限、丢包率高等问题。

GB/T20090.10-2013作为信息技术先进音视频编码标准第10部分,就是针对这些问题而制定的一套移动语音和音频编码标准。该标准采用了多种先进的编码技术,可以有效地提高音频传输的质量,降低丢包率和带宽消耗。

标准内容

GB/T20090.10-2013的标准内容主要包括以下几个方面:

  • 语音编码:采用自适应多速率编码技术(AMR)进行语音编码,可以根据网络带宽和质量自动调整编码速率,从而提高语音传输的质量。
  • 音频编码:采用SILK技术进行音频编码,可以对音频数据进行实时压缩和解压缩,大大减少了音频数据传输所需的带宽。
  • 误码控制:采用前向纠错(FEC)技术进行误码控制,可以在一定程度上避免数据丢失和错误。
  • 安全保护:采用多种安全加密机制,对音频数据进行加密,从而保证数据的安全性。

应用场景

GB/T20090.10-2013广泛应用于移动通信领域,例如:

  • 手机语音通话:通过移动网络进行语音通话时,可使用该标准进行语音编码和传输。
  • 手机音频播放:通过移动网络或WIFI进行音频传输时,可使用该标准进行音频编码和传输。
  • 视频会议:在进行移动端视频会议时,可使用该标准进行语音和音频编码和传输。

总之,GB/T20090.10-2013作为移动语音和音频编码标准,已经被广泛应用于移动通信领域,可以有效地提高语音和音频传输的质量,为用户带来更好的通信体验。

信息技术先进音视频编码第10部分:移动语音和音频的相关资料

和信息技术先进音视频编码第10部分:移动语音和音频类似的标准

电子测量仪器术语
上一篇 本文分享国家标准电子测量仪器术语的全文阅读和高清PDF的下载,电子测量仪器术语的编号:GB/T11464-2013。电子测量仪器术语共有50页,发布于2014-07-15
信息技术先进音视频编码第2部分:视频
本文分享国家标准信息技术先进音视频编码第2部分:视频的全文阅读和高清PDF的下载,信息技术先进音视频编码第2部分:视频的编号:GB/T20090.2-2013。信息技术先进音视频编码第2部分:视频共有175页,发布于2014-07-15 下一篇
相关推荐