音频视频压缩技术概述
数字技术的出现与应用为人类带来了深远的影响,人们如今已生活在一个几乎数字化的世界之中,而数字音频技术则称得上是应用最为广泛的数字技术之一,CD、VCD等早已走进千家万户,数字化广播正在全球范围内逐步得到开展,正是这些与广大消费者密切相关的产品及应用成为了本文将要介绍的主题:数字音频压缩技术得以产生和发展的动力。
1、音频压缩技术的出现及早期应用
音频压缩技术指的是对原始数字音频信号流(PCM编码)运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。它必须具有相应的逆变换,称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。
数字信号的优势是显而易见的,而它也有自身相应的缺点,即存储容量需求的增加及传输时信道容量要求的增加。以CD为例,其采样率为44.1KHz,量化精度为16比特,则1分钟的立体声音频信号需占约10M字节的存储容量,也就是说,一张CD唱盘的容量只有1小时左右。当然,在带宽高得多的数字视频领域这一问题就显得更加突出。是不是所有这些比特都是必需的呢?研究发现,直接采用PCM码流进行存储和传输存在非常大的冗余度。事实上,在无损的条件下对声音至少可进行4:1压缩,即只用25%的数字量保留所有的信息,而在视频领域压缩比甚至可以达到几百倍。因而,为利用有限的资源,压缩技术从一出现便受到广泛的重视。
对音频压缩技术的研究和应用由来已久,如A律、u律编码就是简单的准瞬时压扩技术,并在ISDN话音传输中得到应用。对语音信号的研究发展较早,也较为成熟,并已得到广泛应用,如自适应差分PCM(ADPCM)、线性预测编码(LPC)等技术。在广播领域,NICAM(NearInstantaneousCompandedAudioMultiplex-准瞬时压扩音频复用)等系统中都使用了音频压缩技术。
2、音频压缩算法的主要分类及典型代表
一般来讲,可以将音频压缩技术分为无损(lossless)压缩及有损(lossy)压缩两大类,而按照压缩方案的不同,又可将其划分为时域压缩、变换压缩、子带压缩,以及多种技术相互融合的混合压缩等等。各种不同的压缩技术,其算法的复杂程度(包括时间复杂度和空间复杂度)、音频质量、算法效率(即压缩比例),以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。
(1)时域压缩(或称为波形编码)技术是指直接针对音频PCM码流的样值进行处理,通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术的共同特点是算法复杂度低,声音质量一般,压缩比小(CD音质>400kbps),编解码延时最短(相对其它技术)。此类压缩技术一般多用于语音压缩,低码率应用(源信号带宽小)的场合。时域压缩技术主要包括G.711、ADPCM、LPC、CELP,以及在这些技术上发展起来的块压扩技术如NICAM、子带ADPCM(SB-ADPCM)技术如G.721、G.722、Apt-X等。
(2)子带压缩技术是以子带编码理论为基础的一种编码方法。子带编码理论最早是由Crochiere等于1976年提出的。其基本思想是将信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型(心理声学模型),通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的,因此又可称为感知型(Perceptual)压缩编码。这两种压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。一般来讲,子带编码的复杂度要略低于变换编码,编码延时也相对较短。
由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型,因而在对信号进行压缩时引入了大量的量化噪声。然而,根据人类的听觉掩蔽曲线,在解码后,这些噪声被有用的声音信号掩蔽掉了,人耳无法察觉;同时由于子带分析的运用,各频带内的噪声将被限制在频带内,不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同,采用了动态比特分配技术,这也正是此类技术压缩效率高的主要原因。在一定的码率条件下,此类技术可以达到“完全透明”的声音质量(EBU音质标准)。
子带压缩技术目前广泛应用于数字声音节目的存储与制作和数字化广播中。典型的代表有著名的MPEG-1层Ⅰ、层Ⅱ(MUSICAM),以及用于PhilipsDCC中的PASC(PrecisionAdaptiveSubbandCoding,精确自sketch资源下载适应子带编码)等。
(3)变换压缩技术与子带压缩技术的不同之处在于该技术对一段音频数据进行“线性”的变换,对所获得的变换域参数进行量化、传输,而不是把信号分解为几个子频段。通常使用的变换有DFT、DCT(离散余弦变换)、MDCT等。根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显著改善,而相应付出的代价则是计算复杂度的提高。
变换域压缩具有一些不完善之处,如块边界影响、预回响、低码率时声音质量严重下降等。然而随着技术的不断进步,这些缺陷正逐步被消除,同时在许多新的压缩编码技术中也大量采用了传统变换编码的某些技术。
有代表性的变换压缩编码技术有DolbyAC-2、AT&T的ASPEC(AudioSpectralPerceptualEntropyCoding)、PAC(PerceptualAudioCoder)等。
3、音频压缩技术的标准化和MPEG-1
由于数字音频压缩技术具有广阔的应用范围和良好的市场前景,因而一些著名的研究机构和大公司都不遗余力地开发自己的专利技术和产品。这些音频压缩技术的标准化工作就显得十分重要。CCITT(现ITU-T)在语音信号压缩的标准化方面做了大量的工作,制订了如G.711、G.721、G.728等标准,并逐渐受到业界的认同。
在音频压缩标准化方面取得巨大成功的是MPEG-1音频(ISO/IEC11172-3)。在MPEG-1中,对音频压缩规定了三种模式,即层Ⅰ、层Ⅱ(即MUSICAM,又称MP2),层Ⅲ(又称MP3)。由于在制订标准时对许多压缩技术进行了认真的考察,并充分考虑了实际应用条件和算法的可实现性(复杂度),因而三种模式都得到了广泛的应用。VCD中使用的音频压缩方案就是MPEG-1层Ⅰ;而MUSICAM由于其适当的复杂程度和优秀的声音质量,在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用;MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术,在当时的技术条件下,MP3的复杂度显得相对较高,编码不利于实时,但由于MP3在低码率条件下高水准的声音质量,使得它成为软解压及网络广播的宠儿。可以说,MPEG-1音频标准的制订方式决定了它的成功,这一思路甚至也影响到后面将要谈到的MPEG-2和MPEG-4音频标准的制订。
1、多声道音频信号压缩与DolbyAC-3
随着技术的不断进步和生活水准的不断提高,原有的立体声形式已不能满足受众对声音节目的欣赏要求,具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。
更准确地说,环绕声应该是一种声音恢复形式,其新技术的含量实际表现在随着这种形式发展起来的一些数字压缩标准上。环绕声技术发展至今已相当成熟,已日渐成为未来声音形式的主流。有鉴于此,1992年CCIR(ITU-R)以建议的形式约定了多声道声音系统的结构及向下兼容变换的标准,即CCIRRecommendation775。其中主要约定了大家熟知的5.1声道形式及7.1声道形式,而在对环绕声压缩的研究上也产生了许多专利技术,如DolbySurroundPro-Logic、THX、DolbyAC-3、DTS及MPEG-2等。这些技术在不同的场合,尤其是在影剧院、家庭影院系统,及将来的高清晰度电视(HDTV)等系统中得到广泛的应用。
(1)DolbyAC-3技术是由美国杜比实验室主要针对环绕声开发的一种音频压缩技术。在5.1声道的条件下,可将码率压缩至384kbps,压缩比约为10:1。DolbyAC-3最初是针对影院系统开发的,但目前已成为应用最为广泛的环绕声压缩技术之一。
DolbyAC-3是一种感知型压缩编码技术。
在DolbyAC-3中,音频输入以音频块为单位,块长度为512个样值,在48KHz采样率时即为10.66毫秒,各声道单独处理;音频输入在经过3Hz高通滤波器去除直流成分后,通过另一高频带通滤波器以检测信号的瞬变情况,并用它来控制TDAC变换的长度,以期在频域分辨率和时域分辨率之间得到最好的折中效果;TDAC变换的长度一般为512点,而数据块之间的重叠长度为256点,即TDAC每5.33毫秒进行一次;在瞬变条件下,TDAC长度被等分为256点,这样DolbyAC-3的频域分辨率为93.75Hz,时域最小分辨率为2.67毫秒;在图1中的定点/浮点转换类似于MPEG-1中比例因子计算的作用,主要是为了获得宽的动态范围,而在分离后的指数部分经编码后则构成了整个信号大致的频谱,又被称为频谱包络;比特分配主要是通过计算解码后的频谱包络(视为功率谱密度)和掩蔽曲线的相关性来进行的;由于比特分配中采用了前/后向混合自适应比特分配以及公共比特池等技术,因而可使有限的码率在各声道之间、不同的频率分量之间获得合理的分配;在对尾数的量化过程中,可对尾数进行抖晃处理,抖晃所使用的伪随机数发生器可在不同的平台上获得相同的结果;AC-3的帧结构由同步字、CRC、同步信息(SI)、码流信息(BSI)、音频块和附加数据等组成,帧长度与TDAC变换的长度有关,在长度为512点时,帧长为32毫秒,即每秒31.25帧。
通过以上叙述可见,在DolbyAC-3中,使用了许多先进的、行之有效的压缩技术。如前/后向混合自适应比特分配、公共比特池、TDAC滤波、频谱包络编码、及低码率条件下使用的多声道高频耦合等。而其中许多技术对其它的多声道环绕声压缩技术的发展都产生了一定的影响。
可以说,AC-3的出现是杜比公司几十年来在声音降噪及编码技术方面的结晶(从一定的角度来看,编码技术实际上就是降低编码噪声影响的技术),在技术上它具有很强的优势。因而即使作为一项专利技术,DolbyAC-3仍然在影院系统、HDTV、消费类电子产品(如LD、DVD)及直播卫星等方面获得了广泛的应用,得到了众多厂商的支持,成为业界事实上的标准。
(2)MPEG-2BC(后向兼容方式),即ISO/IEC13818-3,是另一种多声道环绕声音频压缩技术。早在1992年初,该方面的讨论工作便已初步开展,并于94年11月正式获得通过。MPEG-2BC主要是在MPEG-1和CCIRRec.775的基础上发展起来的。与MPEG-1相比较,MPEG-2BC主要在两方面做了重大改进。一是支持多声道声音形式,二是为某些低码率应用场合,如多语声节目、体育比赛解说等而进行的低采样率扩展。同时,标准规定的码流形式还可与MPEG-1的第1和第2层做到前、后向兼容,并可依据CCIRRec.775做到与双声道、单声道形式的向下兼容,还能够与DolbySurround形式兼容。
在MPEG-2BC中,由于考虑到其前、后向兼容性以及环绕声音形式的新特点,在压缩算法中除承袭了MPEG-1的绝大部分技术外,为在低码率条件下进一步提高声音质量,还采用了多种新技术。如动态传输通道切换、动态串音、自适应多声道预测、中央声道部分编码(PhantomCodingofCenter)、预编码(Predistortion)等。
然而,MPEG-2BC的发展和应用并不如MPEG-1那样一帆风顺。通过对一些相关论文的比较可以发现,MPEG-2BC的编码框图在标准化过程中发生了重大的变化,上述的许多新技术都是在后期引入的。事实上,正是与MPEG-1的前、后向兼容性成为MPEG-2BC最大的弱点,使得MPEG-2BC不得不以牺牲码率的代价来换取较好的声音质量。一般情况下,MPEG-2BC需640kbps以上的码率才能基本达到EBU“无法区分”声音质量要求。由于MPEG-2BC标准化的进程过快,其算法自身仍存在一些缺陷。这一切都成为MPEG-2BC在世界范围内得到广泛应用的障碍。
(3)DVD(DigitalVersatileDisk)是新一代的多媒体数据存储和交换的标准。在视频DVD的伴音方式及音频DVD的声音格式选择上,AC-3和MPEG-2BC之间的争夺十分激烈,最后达成的协议如表1所示。可见,多声道环绕声音频压缩技术标准亟待统一。
视频压缩算法是什么压缩方式?
算法压缩会对视频进行计算,优化视频形成的代码,不能还原视频原视频清晰度压缩视频,但是肉眼看起来没有太大变化的将视频缩小,
操作如下:
注:使用下方参照工具
1、点击打开电脑上已有的压缩工具,双击工具,打开工具。
2、选择主界面上的视频压缩点击一下,然后页面上出现选择文件按钮,以及将视频拖动到页面上的提示。
3、点击添加视频文件到页面上点击页面上的的选择文件按钮。
4、压缩的时候我们点击文件页面上的压缩文件即可对文件进行压缩。
上面的四步不能弄反。这样操作以及用这个工具操作就是楼主要的算法压缩视频的压缩方式了。
h264是什么视频格式,这种格式有什么特点
一、H.264概述与MPEG-X的区别
随着市场的需求,在尽可能低的存储情况下获得好的图像质量和低带宽图像快速传输已成为视频压缩的两大难题。为此IEO/IEC/和ITU-T两大国际标准化组织联手制定了新一代视频压缩标准H.264。
H.264和以前的标准一样,也是DPCM加变换编码的混合编码模式。但它采用“回归基本”的简洁设计,不用众多的选项,获得比MEPG-4好得多的压缩性能;H.264加强了对各种信道的适应能力,采用“网络友好”的结构和语法,有利于对误友和丢包的处理;H.264应用目标范围较宽,可以满足不同速率、不同解析度以及不同传输(存储)场合的需求。
在技术上,H.264标准中有多个闪光之处,如统一的VLC符号编码,高精度、多模式的位移估计,基于4块的整数变换、分层的编码语法等。这些措施使得H.264得算法具有很高的编码效率,在相同的重建图像质量下,能够比H.263节约50%左右的码率。H.264的码流结构网络适应性强,增加了差错恢复能力,能够很好地适应IP和无线网络的应用。
H.264能以较低的数据速率传送基于联网协议(IP)的视频流,在视频质量、压缩效率和数据包恢复丢失等方面,超越了现有的MPEG-2、MPEG-4和H.26x视频通讯标准,更适合窄带传输。
MPEG-1标准视频编码部分的基本得法与H.261/ H.263相似,也采用运动补偿的帧间预测、二维DCT、VLC游程编码等措施。此外还引入了帧内帧(I)、预测帧(P)、双向预测帧(B)和直流帧(D)等概念,进一步提高了编码效率。在MPEG-1的基础上,MPEG-2标准在提高图像分辨率、兼容数字电视等方面做了一些改进,例如它的运动适量的精度为半像素;在编码运算中(如运动估计和DCT)区分“帧”和“场”;引入了编码的可分级性技术,如空间可分级性、时间可分级性和信噪比可分级性等。近年推出的MPEG-4标准引入了基于视听对象(AVO:Audio-Visual Object)的编码,大提高了视频通信的交互能力和编码效率。MPEG-4中还采用了一些新的技术,如形状编码、自适应DCT、任意开头视频对象编码等。但是MPEG-4的基本视频编码器还属于和3相似的一类混合编码器。
总之,MPEG毓标准从针对存储媒体的应用发展到适应传输媒体的应用,其核心视频编码的基本框架是和H.261一致的,其中引人注目的MPEG-4的 “基于对象的编码”部分由于尚有技术障碍,目前还难以普遍应用。因此,在此基础上发展起来的新的视频编码建议H.264克服了前者的弱点,在混合编码的框架下引入了新的编码方式,提高了编码效率,在低码流下可达到优质图像质量。
二、H.264的技术特点
2.1 分层设计
视频编码层具有高效的视频内容表示功能;
网络提取层将网络中所需要的数据进行打包和传送;
2.2 高精度、多模式运动设计
支持1/4或1/8像素精度的运动矢量;
多模式的灵活和细致的划分,大提高了运动估计的精确程度;
多帧参考技术;
2.3 帧内预测功能
在空间域进行预测编码算法,以便取得更有效的压缩:
2.4 44块的整数变换
由于用二变换块的尺寸缩小,运动物体的划分更精确,这样,不但变换计算量比较小,而且在运动物体边缘处的衔接误疾差也大为减小:
为了提高码率控制的能力,量化步长的变化的幅度控制在125%左右,而不是以不变的增幅变化。为了强调彩色的逼真性,对色度系数采用了较小量化步长;
2.5 统一的VLC
为快速再同步而经过优化的,可以有效防止误码。
三、H.264在监控的应用
3.1 TOYA SDVR 7IV 系统简介
TOYA SDVR 7IV 是采用止前最为先进H.264视频压缩算法的专业数字监控产品,具有强大的视频/音频压缩引擎,与MPEG-4压缩方式的硬盘录像机相比,压缩比可提高近30%,大大提高了存储和网络传输带宽,同理采用新的算法极大地抑制了由于摄像机噪声导致的图像失真,背景流动现象,便图像质量更加清晰。H.264产品的推出无疑又使我国的数字监控技术上了一个新的台阶。
系统采用最先进的H264视频压缩技术和G。729的音频压缩技术,实现超大无损压缩。具备本地实时监视、音视频同步压缩存储、组合报警、有线或无线网络传输、管理权限设置等多种功能,单个本地系统可完成显示16路监控画面、每路可单独放大和切换,查询录象记录及进行回放。每个本地系统均可通过不同的网络方式组成有线或无线数字监控系统。
3.2 TOYA SDVR 7IV 系统主要特点:
采用时间最先进的H.264视频编码技术,具有高清晰度的画质;
在压缩处理过程中使用多种专用技术,保证以最低码流达到最佳画质,采用帧内压缩,绝无马赛克出现;
提供多种图象处理方法,加强噪音信号的过滤,画面更平滑。
可同时支持H.264、MPEG-4压缩格式;
实时压缩、实时预览、实时回放;
支持IBP帧多种组合/量化模式,图象压缩比更大;
在压缩过程中,可动态抽帧,可随时恢复,进一步减少存储空间;
预览、压缩不占用CPU时间,互不干扰;
可动态精确设置多种视音频压缩参数,达到最佳视听效果;
码流可调,占用硬盘空间最少可达40兆每小时;
工艺精良,结构稳定;低功耗,发热少,系统可靠性、稳定性高;
3.3 主要技术规格
压缩画面以及分辨,支持CIF/QCIF,图象分辨率352X288,图象压缩
压缩格式:支持H.264、MPEG-4压缩格式;
压缩帧率:1-25帧可调
压缩码率:64K~2Mbit/秒,支持CBRVBRHybrid
三种码率控制方式:变码流、动码流、混合码流
网络传输
支持PSTN/DDN/LAN/WAN等网络远程传输与控制
每个服务器支持32路TCP/UDP传输,组播无限制
3.4系统功能
多画面分割:单路、四路、九路、十六路、全屏显示等多种画面分割;
采用录象方式;常规录象,动态录象,视频移动报警录象,定时录象;
字符/时间叠加功能:可以在每一路视频上叠加地点信息,便于查询;
多用户管理:可设置多级管理员权限;
工作日志:详细记录系统工作状态,方便用户管理;
报警:具有报警输入/输出功能,单独设置报警区域和灵敏度
图象亮度/对比度/色度/饱和度随时可调
支持G.729标准音频压缩,线性音频输入,音质好,占硬盘空间少
回放检索:根据时间、日期、摄象机编号分别回放检索
3.5 TOYA SDVR 7IV系统应用
技术的成熟和不断人性化的设计,使得本系统得以全方位进入金融、保险等特殊领域,而且在全能楼宇、文化教育、医学研究、交通指挥管制、在建工程管理、恶劣工况管理、海关及公、检、法商业贸易等诸多领域得到了广泛的应用。完全不明白是什么意思。NeroAVC就是NeroAVC,H.264就是一个纯规范。只要符合规范的都是H.264格式。x264压出来的也是H.264/AVC,NeroAVC也是,其它编码器也是(比如sony等的编码器)。至于习惯问题,那是你的习惯。不是人人都知道h264代表neroavc。h264也没有任何义务去代表neroavc。这和h263不代表divx或者xvid是一个道理。
视频存储容量计算公式
视频存储容量计算公式如下:
[视频码率(kbps)+音频码率(kbps)]/8 * 时间(秒)=文件体积(mb)芯片容量=2的地址线位数次方 乘以 数据线位数
比如地址线8位,数据线4位 芯片容量就是2的8次方乘以4=1024位