目前主流的几种数字视频压缩编解码标准
JPEG
联合图片专家组(JPEG,JointPhotographicExpertsGroup)是作为国际标准化组织(ISO)与电报电话国际协会(CCITT,国际电信联盟ITU的前身)的联合工作委员会于1987年成立的,于1988年成立JBIG(JointBi-levelImageExpertsGroup),现在同属ISO/IECJTC1/SC29WG1(ITU-TSG8),专门致力于静止图片(stillimages)压缩。
JPEG已开发三个图像标准。第一个直接称为JPEG标准,正式名称叫“连续色调静止图像的数字压缩编码”(DigitalCompressionandCodingofContinuous-tonestillImages),1992年正式通过。
JPEG开发的第二个标准是JPEG-LS(ISO/IEC14495,1999)。JPEG-LS仍然是静止图像无损编码,能提供接近有损压缩压缩率。
JPEG的最新标准是JPEG2000(ISO/IEC15444,等同的ITU-T编号T.800),于1999年3月形成工作草案,2000年底成为正式标准(第一部分)。根据JPEG专家组的目标,该标准将不仅能提高对图像的压缩质量,尤其是低码率时的压缩质量,而且还将得到许多新功能,包括根据图像质量,视觉感受和分辨率进行渐进传输,对码流的随机存取和处理,开放结构,向下兼容等。
JPEG标准制定了四种工作模式:
(1)顺序的基于DCT(SequentialDCT-based)模式,由DCT(离散余弦变换)系数的形成、量化和熵编码三步组成。从左到右,从上到下扫描信号,为每个图像编码。
(2)累进的基于DCT(ProgressiveDCT-based)模式,生成DCT系数和量化中的关键步骤与基本顺序编码解码器相同。主要的区别在于每个图像部件由多次扫描进行编码而不是仅一次扫描。每次继续的扫描都对图像作了改善,直到达到由量化表建立的图像质量为止。
(3)无损(Lossless)模式,独立于DCT处理,用来定义一种达到无损连续色调压缩的手段。预测器将采样区域组合起来并基于采样区域预测出邻系统区域。预测出的区域对照着每一区域的完全无损采样进行预测,同时通过Huffman编码法或算术熵编码法对这一差别进行无损编码,对较好质量的复制通常可达到2:1的压缩率。
(4)分层(Hierarchical)模式,分层模式提供了一种可实现多种分辨率的手段。每个接续层次上的图像编码在水平或垂直方向上的分辨率都被降低二倍。它所传送的数据包括所支持的最低分辨率图像,以及用于解码恢复到原有的全分辨率图像所需的、分辨率以2的倍数递降的相邻图像的差分信息。
JPEG算法的平均压缩比为15:1。当压缩比大于50倍时将可能出现方块效应。
JPEG的性能,用质量与比特率之比来衡量,是相当优越的,尤其是它的复杂度之低和使用时间之长,更是给人以深刻的影响。
基本JPEG的编码方法(也是最常用的)是顺序编码。首先,将图像分为8x8的像素块,按照从左到右,从上到下的光栅扫描方式进行排序。DCT在8x8的像素块进行计算,再对64个DCT系数用均匀量化表进行标量量化。均匀量化表是依据心理听觉的实验(LohschellerH.,Asubjectivelyadaptedimagecommunicationsystem,IEEETrans.OnCommunicationsCOM-32(12):1316-1322,1984)得出的。这种均匀的标量量化表作为JPEG标准的可选部分提供。将DCT系数量化后,再按照“Z”字型方式将块中的系数排序,得到的比特流用行顺序编码生成中间的符号序列,然后这些符号经过Huffman编码用于传输或存储。
MPEG-1
MPEG-1是MPEG组织制定的第一个视频和音频有损压缩标准。视频压缩算法于1990年定义完成。1992年底,MPEG-1正式被批准成为国际标准。MPEG-1是为CD光碟介质定制的的视频和音频压缩格式。一张70分钟的CD光碟传输速率大约在1.4Mbps。而MPEG-1采用了块方式的运动补偿、离散馀弦变换(DCT)、量化等技术,并为1.2Mbps传输速率进行了优化。MPEG-1随后被VideoCD采用作为核心技术。MPEG-1的输出质量大约和传统录像机VCR,信号质量相当,这也许是VideoCD在发达国家未获成功的原因。
运用
MPEG-1曾经是VCD的主要压缩标准,是目前实时视频压缩的主流,可适用于不同带宽的设备,如CD-ROM、Video-CD、CD-I。与M-JPEG技术相比较,在实时压缩、每帧数据量、处理速度上均有显著的提高。MPEG1可以满足多达16路以上25帧/秒的压缩速度,在500kbit/s的压缩码流和352像素×288行的清晰度下,每帧大小仅为2k。若从VCD到超级VCD到DVD的不同格式来看,MPEG1的352×288格式,MPEG2可有576×352、704×576等,用于CDROM上存储同步和彩色运动标视频信号,旨在达到VCR(模拟式磁带录放机VideoCassetteRecorder;VCR)质量,其视频压缩率为26:1。MPEG1可使图像在空间轴上最多压缩1/38,在时间轴上对相对变化较小的数据最多压缩1/5。MPEG1压缩后的数据传输率为1.5Mbps,压缩后的源输入格式SIF(SourceInputFormat),分辨率为352像素×288行(PAL制),亮度信号的分辨率为360×240,色度信号的分辨率为180×120,每秒30帧。MPEG1对色差分量采用4:1:1的二次采样率。MPEG1、MPEG2是传送一张张不同动作的局部画面。在实现方式上,MPEG1可以借助于现有的解码芯片来完成,而不像M-JPEG那样过多依赖于主机的CPU。与软件压缩相比,硬件压缩可以节省计算机资源,降低系统成本。
但也存在着诸多不足。一是压缩比还不够大,在多路监控情况下,录像所要求的磁盘空间过大。尤其当DVR主机超过8路时,为了保存一个月的存储量,通常需要10个80G硬盘,或更多,硬盘投资大,而由此引起的硬盘故障和维护更是叫人头疼。二是图像清晰度还不够高。由于MPEG1最大清晰度仅为352X288,考虑到容量、模拟数字量化损失等其它因素,回放清晰度不高,这也是市场反应的主要问题。三是对传输图像的带宽有一定的要求,不适合网络传输,尤其是在常用的低带宽网络上无法实现远程多路视频传送。四是MPEG1的录像帧数固定为每秒25帧,不能丢帧录像,使用灵活性较差。从目前广泛采用的压缩芯片来看,也缺乏有效的调控手段,例如关键帧设定、取样区域设定等等,造成在保安监控领域应用不适合,造价也高。
总体看来M-JPEG与MPEG1由于技术成熟,是目前DVR市场的主流技术,但两者的致命弱点就是硬盘耗费量大,且不能同时满足保安与实时录像场合的需要。
特点
随机访问,灵活的帧率、可变的图像尺寸、定义了I-帧、P-帧和B-帧、运动补偿可跨越多个帧、半像素精度的运动向量、量化矩阵、GOF结构、slice结构、技术细节、输入视频格式。
参数
最大像素数/行:720
最大行数/影格:576
最大影格/秒:30
最大宏块/影格:396
最大宏块/秒:9900
最大位元率:1.86Mbps
最大解码缓冲区尺寸:376832bit。
MPEG-2
技术介绍
MPEG-2制定于1994年,设计目标是高级工业标准的图象质量以及更高的传输率。MPEG-2所能提供的传输率在3-10Mbits/sec间,其在NTSC制式下的分辨率可达720X486,MPEG-2也可提供并能够提供广播级的视像和CD级的音质。MPEG-2的音频编码可提供左右中及两个环绕声道,以及一个加重低音声道,和多达7个伴音声道(DVD可有8种语言配音的原因)。由于MPEG-2在设计时的巧妙处理,使得大多数MPEG-2解码器也可播放MPEG-1格式的数据,如VCD。 同时,由于MPEG-2的出色性能表现,已能适用于HDTV,使得原打算为HDTV设计的MPEG-3,还没出世就被抛弃了。(MPEG-3要求传输速率在20Mbits/sec-40Mbits/sec间,但这将使画面有轻度扭曲)。除了做为DVD的指定标准外,MPEG-2还可用于为广播,有线电视网,电缆网络以及卫星直播(DirectBroadcastSatellite)提供广播级的数字视频。
特点
MPEG-2的另一特点是,其可提供一个较广的范围改变压缩比,以适应不同画面质量,存储容量,以及带宽的要求。
对于最终用户来说,由于现存电视机分辨率限制,MPEG-2所带来的高清晰度画面质量(如DVD画面)在电视上效果并不明显,到是其音频特性(如加重低音,多伴音声道等)更引人注目。
MPEG-2的编码图像被分为三类,分别称为I帧,P帧和B帧。
I帧图像采用帧内编码方式,即只利用了单帧图像内的空间相关性,而没有利用时间相关性。P帧和B帧图像采用帧间编码方式,即同时利用了空间和时间上的相关性。P帧图像只采用前向时间预测,可以提高压缩效率和图像质量。P帧图像中可以包含帧内编码的部分,即P帧中的每一个宏块可以是前向预测,也可以是帧内编码。B帧图像采用双向时间预测,可以大大提高压缩倍数。
层次
MPEG-2的编码码流分为六个层次。为更好地表示编码数据,MPEG-2用句法规定了一个层次性结构。它分为六层,自上到下分别是:图像序列层、图像组(GOP)、图像、宏块条、宏块、块。
MPEG-4
MPEG-4已成为掌上媒体的常见格式MPEG4于1998年11月公布,原预计1999年1月投入使用的国际标准MPEG4不仅是针对一定比特率下的视频、音频编码,更加注重多媒体系统的交互性和灵活性。MPEG专家组的专家们正在为MPEG-4的制定努力工作。MPEG-4标准主要应用于视像电话(VideoPhone),视像电子邮件(VideoEmail)和电子新闻(ElectronicNews)等,其传输速率要求较低,在4800-64000bits/sec之间,分辨率为176X144。MPEG-4利用很窄的带宽,通过帧重建技术,压缩和传输数据,以求以最少的数据获得最佳的图像质量。
一、MPEG-4简介
与MPEG-1和MPEG-2相比,MPEG-4的特点是其更适于交互AV服务以及远程监控。MPEG-4是第一个使你由被动变为主动(不再只是观看,允许你加入其中,即有交互性)的动态图像标准,它的另一个特点是其综合性。从根源上说,MPEG-4试图将自然物体与人造物体相溶合(视觉效果意义上的)。MPEG-4的设计目标还有更广的适应性和更灵活的可扩展性。 MPEG全称是MovingPicturesExpertsGroup,它是“动态图象专家组”的英文缩写,该专家组成立于1988年,致力于运动图像及其伴音的压缩编码标准化工作,原先他们打算开发MPEG1、MPEG2、MPEG3和MPEG4四个版本,以适用于不同带宽和数字影像质量的要求。 目前,MPEG1技术被广泛的应用于VCD,而MPEG2标准则用于广播电视和DVD等。MPEG3最初是为HDTV开发的编码和压缩标准,但由于MPEG2的出色性能表现,MPEG3只能是死于襁褓了。而我们今天要谈论的主角——MPEG4于1999年初正式成为国际标准。它是一个适用于低传输速率应用的方案。与MPEG1和MPEG2相比,MPEG4更加注重多媒体系统的交互性和灵活性。
二、MPEG-4目标
(一)、低比特率下的多媒体通信;
(二)、是多工业的多媒体通信的综合。
据此目标,MPEG4引入AV对象(Audio/VisualObjects),使得更多的交互操作成为可能。
MPEG-4是为在国际互联网络上或移动通信设备(例如移动电话)上实时传输音/视频讯号而制定的最新MPEG标准,MPEG4采用ObjectBased方式解压缩,压缩比指标远远优于以上几种,压缩倍数为450倍(静态图像可达800倍),分辨率输入可从320×240到1280×1024,这是同质量的MPEG1和MJEPG的十倍多。
MPEG4使用「图层」(layer)方式,能够智能化选择影像的不同之处,是可根据图像内容,将其中的对象(人物、物体、背景)分离出来分别进行压缩,使图文件容量大幅缩减,而加速音/视频的传输,这不仅仅大大提高了压缩比,也使图像探测的功能和准确性更充分的体现出来。
在网络传输中可以设定MPEG4的码流速率,清晰度也可在一定的范围内作相应的变化,这样便于用户根据自己对录像时间、传输路数和清晰度的不同要求进行不同的设置,大大提高了系统使用时的适应性和灵活性。也可采用动态帧测技术,动态时快录,静态时慢录,从而减少平均数据量,节省存储空间。而且当在传输有误码或丢包现象时,MPEG4受到的 影响很小,并且能迅速恢复。
MPEG4的应用前景将是非常广阔的。它的出现将对以下各方面产生较大的推动作用:数字电视、动态图像、万维网(WWW)、实时多媒体监控、低比特率下的移动多媒体通信、于内容存储和检索多媒系统、Internet/Intranet上的视频流与可视游戏、基于面部表情模拟的虚拟会议、DVD上的交互多媒体应用、基于计算机网络的可视化合作实验室场景应用、演播电视等。
当然,除了MPEG4外,还有更先进的下一个版本MPEG7,准确来说,MPEG-7并不是一种压缩编码方法,而是一个多媒体内容描述接口。继MPEG4之后,要解决的矛盾就是对日渐庞大的图像、声音信息的管理和迅速搜索。MPEG7就是针对这个矛盾的解决方案。MPEG7力求能够快速且有效地搜索出用户所需的不同类型的多媒体材料。预计这个方案于2001年初最终完成并公布。按照以往MPEG-4的经验,MPEG-7起码要再过两年才能进入实际应用阶段。
三、多媒体视频编码
运动图像专家组MPEG于1999年2月正式公布了MPEG-4(ISO/IEC14496)标准第一版本。同年年底MPEG-4第二版亦告底定,MPEG4多媒体编码卫星电视数字机顶盒且于2000年年初正式成为国际标准。
MPEG-4与MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具体压缩算法,它是针对数字电视、交互式绘图应用(影音合成内容)、交互式多媒体(WWW、资料撷取与分散)等整合及压缩技术的需求而制定的国际标准。MPEG-4标准将众多的多媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提供标准的算法及工具,从而建立起一种能被多媒体传输、存储、检索等应用领域普遍采用的统一数据格式。
MPEG-4的编码理念是:MPEG-4标准同以前标准的最显著的差别在于它是采用基于对象的编码理念,即在编码时将一幅景物分成若干在时间和空间上相互联系的视频音频对象,分别编码后,再经过复用传输到接收端,然后再对不同的对象分别解码,从而组合成所需要的视频和音频。这样既方便我们对不同的对象采用不同的编码方法和表示方法,又有利于不同数据类型间的融合,并且这样也可以方便的实现对于各种对象的操作及编辑。例如,我们可以将一个卡通人物放在真实的场景中,或者将真人置于一个虚拟的演播室里,还可以在互联网上方便的实现交互,根据自己的需要有选择的组合各种视频音频以及图形文本对象。 MPEG-4系统的一般框架是:对自然或合成的视听内容的表示;对视听内容数据流的管理,如多点、同步、缓冲管理等;对灵活性的支持和对系统不同部分的配置。
四、MPEG-4的优点
(1)基于内容的交互性
MPEG-4提供了基于内容的多媒体数据访问工具,如索引、超级链接、上传、下载、删除等。利用这些工具,用户可以方便地从多媒体数据库中有选择地获取自己所需的与对象有关的内容,并提供了内容的操作和位流编辑功能,可应用于交互式家庭购物,淡入淡出的数字化效果等。MPEG-4提供了高效的自然或合成的多媒体数据编码方法。它可以把自然场景或对象组合起来成为合成的多媒体数据。
(2)高效的压缩性
MPEG-4基于更高的编码效率。同已有的或即将形成的其它标准相比,在相同的比特率下,它基于更高的视觉听觉质量,这就使得在低带宽的信道上传送视频、音频成为可能。同时MPEG-4还能对同时发生的数据流进行编码。一个场景的多视角或多声道数据流可以高效、同步地合成为最终数据流。这可用于虚拟三维游戏、三维电影、飞行仿真练习等。
(3)通用的访问性
MPEG-4提供了易出错环境的鲁棒性,来保证其在许多无线和有线网络以及存储介质中的应用,此外,MPEG-4还支持基于内容的的可分级性,即把内容、质量、复杂性分成许多小块来满足不同用户的不同需求,支持具有不同带宽,不同存储容量的传输信道和接收端。 这些特点无疑会加速多媒体应用的发展,从中受益的应用领域有:因特网多媒体应用;广播电视;交互式视频游戏;实时可视通信;交互式存储媒体应用;演播室技术及电视后期制作;采用面部动画技术的虚拟会议;多媒体邮件;移动通信条件下的多媒体应用;远程视频监控;通过ATM网络等进行的远程数据库业务等。
(4)MPEG4的技术特点
MPEG1、MPEG2技术当初制定时,它们定位的标准均为高层媒体表示与结构,但随着计算机软件及网络技术的快速发展,MPEG1.MPEG2技术的弊端就显示出来了:交互性及灵活性较低,压缩的多媒体文件体积过于庞大,难以实现网络的实时传播。而MPEG4技术的标准是对运动图像中的内容进行编码,其具体的编码对象就是图像中的音频和视频,术语称为“AV对象”,而连续的AV对象组合在一起又可以形成AV场景。因此,MPEG4标准就是围绕着AV对象的编码、存储、传输和组合而制定的,高效率地编码、组织、存储、传输AV对象是MPEG4标准的基本内容。
在视频编码方面,MPEG4支持对自然和合成的视觉对象的编码。(合成的视觉对象包括2D、3D动画和人面部表情动画等)。在音频编码上,MPEG4可以在一组编码工具支持下,对语音、音乐等自然声音对象和具有回响、空间方位感的合成声音对象进行音频编码。 由于MPEG4只处理图像帧与帧之间有差异的元素,而舍弃相同的元素,因此大大减少了合成多媒体文件的体积。应用MPEG4技术的影音文件最显著特点就是压缩率高且成像清晰,一般来说,一小时的影像可以被压缩为350M左右的数据,而一部高清晰度的DVD电影,可以压缩成两张甚至一张650MCD光碟来存储。对广大的“平民”计算机用户来说,这就意味着,您不需要购置DVD-ROM就可以欣赏近似DVD质量的高品质影像。而且采用MPEG4编码技术的影片,对机器硬件配置的要求非常之低,300MHZ以上CPU,64M的内存和一个8M显存的显卡就可以流畅的播放。在播放软件方面,它要求也非常宽松,你只需要安装一个500K左右的MPEG4编码驱动后,用WINDOWS自带的媒体播放器就可以流畅的播放了。
五、MPEG-4的应用
(1)应用于因特网视音频广播
由于上网人数与日俱增,传统电视广播的观众逐渐减少,随之而来的便是广告收入的减少,所以现在的固定式电视广播最终将转向基于TCP/IP的因特网广播,观众的收看方式也由简单的遥控器选择频道转为网上视频点播。视频点播的概念不是先把节目下载到硬盘,然后再播放,而是流媒体视频(streamingvideo),点击即观看,边传输边播放。
现在因特网中播放视音频的有:RealNetworks公司的RealMedia,微软公司的WindowsMedia,苹果公司的QuickTime,它们定义的视音频格式互不兼容,有可能导致媒体流中难以控制的混乱,而MPEG-4为因特网视频应用提供了一系列的标准工具,使视音频码流具有规范一致性。因此在因特网播放视音频采用MPEG-4,应该说是一个安全的选择。
(2)应用于无线通信
MPEG-4高效的码率压缩,交互和分级特性尤其适合于在窄带移动网上实现多媒体通信,未来的手机将变成多媒体移动接收机,不仅可以打移动电视电话、移动上网,还可以移动接收多媒体广播和收看电视。
(3)应用于静止图像压缩
静止图像(图片)在因特网中大量使用,现在网上的图片压缩多采用JPEG技术。MPEG-4中的静止图像(纹理)压缩是基于小波变换的,在同样质量条件下,压缩后的文件大小约是JPEG压缩文件的十分之一。把因特网上使用的JPEG图片转换成MPEG-4格式,可以大幅度提高图片在网络中的传输速度。
(4)应用于电视电话
传统用于窄带电视电话业务的压缩编码标准,如H261,采用帧内压缩、帧间压缩、减少象素和抽帧等办法来降低码率,但编码效率和图像质量都难以令人满意。MPEG-4的压缩编码可以做到以极低码率传送质量可以接受的声像信号,使电视电话业务可以在窄带的公用电话网上实现。
(5)应用于计算机图形、动画与仿真
MPEG-4特殊的编码方式和强大的交互能力,使得基于MPEG-4的计算机图形和动画可以从各种来源的多媒体数据库中获取素材,MPEG4高清技术算计显卡
并实时组合出所需要的结果。因而未来的计算机图形可以在MPEG-4语法所允许的范围内向所希望的方向无限发展,产生出今天无法想象的动画及仿真效果。
(6)应用于电子游戏
MPEG-4可以进行自然图像与声音同人工合成的图像与声音的混合编码,在编码方式上具有前所未有的灵活性,并且能及时从各种来源的多媒体数据库中调用素材。这可以在将来产生象电影一样的电子游戏,实现极高自由度的交互式操作。
(7)硬件产品上面的应用
目前,MPEG4技术在硬件产品上也已开始逐步得到应用。特别是在视频监控、播放上,这项高清晰度,高压缩的技术得到了众多硬件厂商的钟爱,而市场上支持MPEG4技术的产品也是种类繁多。下面笔者就列举一些代表性的产品,旨在让读者了解MPEG4技术在今天应用范围之广。
(1)、摄像机:日本夏普公司推出过应用在互联网上的数字摄像机VN-EZ1。这台网络摄像机利用MPEG4格式,可把影像文件压缩为ASF(高级流格式),用户只要利用微软公司的MediaPlayer播放程序,就可以直接在电脑上进行播放。
(2)、播放机:飞利浦公司于今年八月份推出了一款支持DivX的DVD播放机DVD737。它可以支持DivX3.11、4.xx、5.xx等MPEG4标准,而对于新标准的支持则可以通过升级固件来实现。
(3)、数码相机:日本京瓷公司在11月中旬发售其最新款数码相机FinecamL30,这款是采用300万像素、3倍光学变焦设计的数码相机产品,L30采用了MPEG4格式动态视频录制,可以让动态视频录制画面效果比传统数码相机更出色。
(4)、手机:在手机领域,MPEG4技术更是得到了广泛的应用,各大手机厂商也都推出了可拍摄MPEG4动态视频的手机型号,如西门子ST55、索尼爱立信P900/P908、LG彩屏G8000等。
(5)、MPEG4数字硬盘:在今年深圳举行的安防展览会上,开发数字录像监控产品的厂家纷纷推出了他们的最新产品,而支持MPEG4的DVR压缩技术也成为改展会上的亮点。
MPEG-7
简介
随着信息爆炸时代的到来,在海量信息中,对基于视听内容的信息检索上非常困难的。继MPEG-4之后,要解决的矛盾就是对日渐庞大的图像、声音信息的管理和迅速的搜索。针对这个矛盾,MPEG提出了解决方案MPEG-7,力求能够快速且有效的搜索出用户所需的不同类型的多媒体资料。该项工作于1998年10月提出,计划于2001年完成并公布。
这个MPEG家族的新成员被称为“多媒体内容描述接口”(MultimediaContentDescriptionInterface),简称为MPEG-7。其目标就是产生一种描述多媒体内容数据的标准,满足实时、非实时以及推-拉应用的需求。MPEG并不对应用标准化,但可利用应用来理解需求并评价技术,它不针对特定的应用领域,而是支持尽可能广泛的应用领域。
----MPEG-7将扩展现有标识内容的专用方案及有限的能力,包含更多的多媒体数据类型。换句话说,它将规范一组“描述子”,用于描述各种多媒体信息,也将对定义其他描述子以及结构(称为“描述模式”)的方法进行标准化。这些“描述”-元数据(包括描述子和描述模式)与其内容关联,允许快速有效地搜索用户感兴趣的资料。MPEG-7将标准化一种语言来说明描述模式,即“描述定义语言”。带有MPEG-7数据的AV资料可以包含静止图像、图形、3D模型、音频、语音、视频,以及这些元素如何在多媒体表现中组合的信息。这些通用数据类型的特例可以包含面部表情和个人化特性。
----MPEG-7的功能与其他MPEG标准互为补充。MPEG-1、MPEG-2和MPEG-4是内容本身的表示,而MPEG-7是有关内容的信息,是数据的数据(dataaboutdata)。
分类
MPEG-7潜在的应用主要分为三大类:
索引和检索类
第一类是索引和检索类应用,主要包括:视频数据库的存储检索;向专业生产者提供图像和视频;商用音乐;音响效果库;历史演讲库;根据听觉提取影视片段;商标的注册和检索。
选择和过滤类
第二类是选择和过滤类应用,主要包括:用户代理驱动的媒体选择和过滤;个人化电视服务;智能化多媒体表达;消费者个人化的浏览、过滤和搜索;向残疾人提供信息服务。
专业化
第三类是专业化应用,主要包括:远程购物;生物医学应用;通用接入;遥感应用;半自动多媒体编辑;教学教育;保安监视;基于视觉的控制。
MPEG-21
对于不同网络之间用户的互通问题,至今仍没有成熟的解决方案。为了解决以上问题,MPEG-21致力于为多媒体传输和使用定义一个标准化的、可互操作的和高度自动化的开放框架,这个框架考虑到了DRM的要求、对象化的多媒体接入以及使用不同的网络和终端进行传输等问题,这种框架还会在一种互操作的模式下为用户提供更丰富的信息。MPEG-21标准其实就是一些关键技术的集成,通过这种集成环境对全球数字媒体资源进行增强,实习内容描述、创建、发布、使用、识别、收费管理、版权保护、用户隐私权保护、终端和网络资源撷取及事件报告等功能。
制定目的
1.将不同的协议、标准和技术等有机地融合在一起。
2.制定新的标准。
3.将这些不同的标准集成在一起。
MPEG-21标准其实就是一些关键技术的集成,通过这种集成环境对全球数字媒体资源进行增强,实习内容描述、创建、发布、使用、识别、收费管理、版权保护、用户隐私权保护、终端和网络资源撷取及事件报告等功能。
任何与MPEG-21多媒体框架标准环境交互或使用MPEG-21数字项实体的个人或团体都可以被视为用户。从纯技术角度来看,MPEG-21对于“内容供应商”和“消费者”没有任何区别。MPEG-21多媒体框架标准包括如下用户需要:内容传送和价值交换的安全性;数字项的理解;内容的个性化;价值链中的商业规则;兼容实体的操作;其他多媒体框架的引入;对MPEG之外标准的兼容和支持;一般规则的遵从;MPEG-21标准功能及各个部分通信性能的测试;价值链中媒体数据的增强使用;用户隐私的保护;数据项完整性的保证;内容与交易的跟踪;商业处理过程视图的提供;通用商业内容处理库标准的提供;长线投资时商业与技术独立发展的考虑;用户权利的保护,包括服务的可靠性、债务与保险、损失与破坏、付费处理与风险防范等;新商业模型的建立和使用。
H.264
H.264,同时也是MPEG-4第十部分,是由ITU-T视频编码专家组(VCEG)和ISO/IEC动态图像专家组(MPEG)联合组成的联合视频组(JVT,JointVideoTeam)提出的高度压缩数字视频编解码器标准。
H.264基本概况
随着HDTV的兴起,H.264这个规范频频出现在我们眼前,HD-DVD和蓝光均计划采用这一标准进行节目制作。而且自2005年下半年以来,无论是NVIDIA还是ATI都把支持H.264硬件解码加速作为自己最值得夸耀的视频技术。H.264到底是何方“神圣”呢? H.264是一种高性能的视频编解码技术。目前国际上制定视频编解码技术的组织有两个,一个是“国际电联(ITU-T)”,它制定的标准有H.261、H.263、H.263+等,另一个是“国际标准化组织(ISO)”它制定的标准有MPEG-1、MPEG-2、MPEG-4等。而H.264则是由两个组织联合组建的联合视频组(JVT)共同制定的新数字视频编码标准,所以它既是ITU-T的H.264,又是ISO/IEC的MPEG-4高级视频编码(AdvancedVideoCoding,AVC),而且它将成为MPEG-4标准的第10部分。因此,不论是MPEG-4AVC、MPEG-4Part10,还是ISO/IEC14496-10,都是指H.264。 H.264最大的优势是具有很高的数据压缩比率,在同等图像质量的条件下,H.264的压缩比是MPEG-2的2倍以上,是MPEG-4的1.5~2倍。举个例子,原始文件的大小如果为88GB,采用MPEG-2压缩标准压缩后变成3.5GB,压缩比为25∶1,而采用H.264压缩标准压缩后变为879MB,从88GB到879MB,H.264的压缩比达到惊人的102∶1!H.264为什么有那么高的压缩比?低码率(LowBitRate)起了重要的作用,和MPEG-2和MPEG-4ASP等压缩技术相比,H.264压缩技术将大大节省用户的下载时间和数据流量收费。尤其值得一提的是,H.264在具有高压缩比的同时还拥有高质量流畅的图像,正因为如此,经过H.264压缩的视频数据,在网络传输过程中所需要的带宽更少,也更加经济。
H.264算法的优势
H.264是在MPEG-4技术的基础之上建立起来的,其编解码流程主要包括5个部分:帧间和帧内预测(Estimation)、变换(Transform)和反变换、量化(Quantization)和反量化、环路滤波(LoopFilter)、熵编码(EntropyCoding)。
H.264/MPEG-4AVC(H.264)是1995年自MPEG-2视频压缩标准发布以后的最新、最有前途的视频压缩标准。通过该标准,在同等图象质量下的压缩效率比以前的标准提高了2倍以上,因此,H.264被普遍认为是最有影响力的行业标准。
H.264的特征和高级优势
H.264是国际标准化组织(ISO)和国际电信联盟(ITU)共同提出的继MPEG4之后的新一代数字视频压缩格式,它即保留了以往压缩技术的优点和精华又具有其他压缩技术无法比拟的许多优点。
1.低码流(LowBitRate):和MPEG2和MPEG4ASP等压缩技术相比,在同等图像质量下,采用H.264技术压缩后的数据量只有MPEG2的1/8,MPEG4的1/3。显然,H.264压缩技术的采用将大大节省用户的下载时间和数据流量收费。
2.高质量的图象:H.264能提供连续、流畅的高质量图象(DVD质量)。
3.容错能力强:H.264提供了解决在不稳定网络环境下容易发生的丢包等错误的必要工具。
4.网络适应性强:H.264提供了网络抽象层(NetworkAbstractionLayer),使得H.264的文件能容易地在不同网络上传输(例如互联网,CDMA,GPRS,WCDMA,CDMA2000等)。
H.264标准的主要特点
H264标准是由JVT(JointVideoTeam,视频联合工作组)组织提出的新一代数字视频编码标准。JVT于2001年12月在泰国Pattaya成立。它由ITU-T的VCEG(视频编码专家组)和ISO/IEC的MPEG(活动图像编码专家组)两个国际标准化组织的专家联合组成。JVT的工作目标是制定一个新的视频编码标准,以实现视频的高压缩比、高图像质量、良好的网络适应性等目标H264标准。H264标准将作为MPEG-4标准的一个新的部分(MPEG-4part.10)而获得批准,是一个面向未来IP和无线环境下的新数字视频压缩编码标准。
H264标准的主要特点如下:
1.更高的编码效率:同H.263等标准的特率效率相比,能够平均节省大于50%的码率。
2.高质量的视频画面:H.264能够在低码率情况下提供高质量的视频图像,在较低带宽上提供高质量的图像传输是H.264的应用亮点。
3.提高网络适应能力:H.264可以工作在实时通信应用(如视频会议)低延时模式下,也可以工作在没有延时的视频存储或视频流服务器中。
4.采用混合编码结构:同H.263相同,H.264也使用采用DCT变换编码加DPCM的差分编码的混合编码结构,还增加了如多模式运动估计、帧内预测、多帧预测、基于内容的变长编码、4x4二维整数变换等新的编码方式,提高了编码效率。
5.H.264的编码选项较少:在H.263中编码时往往需要设置相当多选项,增加了编码的难度,而H.264做到了力求简洁的“回归基本”,降低了编码时复杂度。
6.H.264可以应用在不同场合:H.264可以根据不同的环境使用不同的传输和播放速率,并且提供了丰富的错误处理工具,可以很好的控制或消除丢包和误码。
7.错误恢复功能:H.264提供了解决网络传输包丢失的问题的工具,适用于在高误码率传输的无线网络中传输视频数据。
8.较高的复杂度:264性能的改进是以增加复杂性为代价而获得的。据估计,H.264编码的计算复杂度大约相当于H.263的3倍,解码复杂度大约相当于H.263的2倍。 H264标准各主要部分有AccessUnitdelimiter(访问单元分割符),SEI(附加增强信息),primarycodedpicture(基本图像编码),RedundantCodedPicture(冗余图像编码)。还有InstantaneousDecodingRefresh(IDR,即时解码刷新)、HypotheticalReferenceDecoder(HRD,假想参考解码)、HypotheticalStreamScheduler(HSS,假想码流调度器)。[1].
H.264的技术亮点
1、分层设计
H.264的算法在概念上可以分为两层:视频编码层(VCL:VideoCodingLayer)负责高效的视频内容表示,网络提取层(NAL:NetworkAbstractionLayer)负责以网络所要求的恰当的方式对数据进行打包和传送。在VCL和NAL之间定义了一个基于分组方式的接口,打包和相应的信令属于NAL的一部分。这样,高编码效率和网络友好性的任务分别由VCL和NAL来完成。
VCL层包括基于块的运动补偿混合编码和一些新特性。与前面的视频编码标准一样,H.264没有把前处理和后处理等功能包括在草案中,这样可以增加标准的灵活性。
NAL负责使用下层网络的分段格式来封装数据,包括组帧、逻辑信道的信令、定时信息的利用或序列结束信号等。例如,NAL支持视频在电路交换信道上的传输格式,支持视频在Internet上利用RTP/UDP/IP传输的格式。NAL包括自己的头部信息、段结构信息和实际载荷信息,即上层的VCL数据。(如果采用数据分割技术,数据可能由几个部分组成)。
2、高精度、多模式运动估计
H.264支持1/4或1/8像素精度的运动矢量。在1/4像素精度时可使用6抽头滤波器来减少高频噪声,对于1/8像素精度的运动矢量,可使用更为复杂的8抽头的滤波器。在进行运动估计时,编码器还可选择"增强"内插滤波器来提高预测的效果。
在H.264的运动预测中,一个宏块(MB)可以按图2被分为不同的子块,形成7种不同模式的块尺寸。这种多模式的灵活和细致的划分,更切合图像中实际运动物体的形状,大大提高了运动估计的精确程度。在这种方式下,在每个宏块中可以包含有1、2、4、8或16个运动矢量。
在H.264中,允许编码器使用多于一帧的先前帧用于运动估计,这就是所谓的多帧参考技术。例如2帧或3帧刚刚编码好的参考帧,编码器将选择对每个目标宏块能给出更好的预测帧,并为每一宏块指示是哪一帧被用于预测。
3、4×4块的整数变换
H.264与先前的标准相似,对残差采用基于块的变换编码,但变换是整数操作而不是实数运算,其过程和DCT基本相似。这种方法的优点在于:在编码器中和解码器中允许精度相同的变换和反变换,便于使用简单的定点运算方式。也就是说,这里没有"反变换误差"。变换的单位是4×4块,而不是以往常用的8×8块。由于用于变换块的尺寸缩小,运动物体的划分更精确,这样,不但变换计算量比较小,而且在运动物体边缘处的衔接误差也大为减小。为了使小尺寸块的变换方式对图像中较大面积的平滑区域不产生块之间的灰度差异,可对帧内宏块亮度数据的16个4×4块的DC系数(每个小块一个,共16个)进行第二次4×4块的变换,对色度数据的4个4×4块的DC系数(每个小块一个,共4个)进行2×2块的变换。
H.264为了提高码率控制的能力,量化步长的变化的幅度控制在12.5%左右,而不是以不变的增幅变化。变换系数幅度的归一化被放在反量化过程中处理以减少计算的复杂性。为了强调彩色的逼真性,对色度系数采用了较小量化步长。
4、统一的VLC
H.264中熵编码有两种方法,一种是对所有的待编码的符号采用统一的VLC(UVLC:UniversalVLC),另一种是采用内容自适应的二进制算术编码(CABAC:Context-AdaptiveBinaryArithmeticCoding)。CABAC是可选项,其编码性能比UVLC稍好,但计算复杂度也高。UVLC使用一个长度无限的码字集,设计结构非常有规则,用相同的码表可以对不同的对象进行编码。这种方法很容易产生一个码字,而解码器也很容易地识别码字的前缀,UVLC在发生比特错误时能快速获得重同步。
5、帧内预测
在先前的H.26x系列和MPEG-x系列标准中,都是采用的帧间预测的方式。在H.264中,当编码Intra图像时可用帧内预测。对于每个4×4块(除了边缘块特别处置以外),每 个像素都可用17个最接近的先前已编码的像素的不同加权和(有的权值可为0)来预测,即此像素所在块的左上角的17个像素。显然,这种帧内预测不是在时间上,而是在空间域上进行的预测编码算法,可以除去相邻块之间的空间冗余度,取得更为有效的压缩。
6、面向IP和无线环境
H.264草案中包含了用于差错消除的工具,便于压缩视频在误码、丢包多发环境中传输,如移动信道或IP信道中传输的健壮性。
为了抵御传输差错,H.264视频流中的时间同步可以通过采用帧内图像刷新来完成,空间同步由条结构编码(slicestructuredcoding)来支持。同时为了便于误码以后的再同步,在一幅图像的视频数据中还提供了一定的重同步点。另外,帧内宏块刷新和多参考宏块允许编码器在决定宏块模式的时候不仅可以考虑编码效率,还可以考虑传输信道的特性。
除了利用量化步长的改变来适应信道码率外,在H.264中,还常利用数据分割的方法来应对信道码率的变化。从总体上说,数据分割的概念就是在编码器中生成具有不同优先级的视频数据以支持网络中的服务质量QoS。例如采用基于语法的数据分割(syntax-baseddatapartitioning)方法,将每帧数据的按其重要性分为几部分,这样允许在缓冲区溢出时丢弃不太重要的信息。还可以采用类似的时间数据分割(temporaldatapartitioning)方法,通过在P帧和B帧中使用多个参考帧来完成。
在无线通信的应用中,我们可以通过改变每一帧的量化精度或空间/时间分辨率来支持无线信道的大比特率变化。可是,在多播的情况下,要求编码器对变化的各种比特率进行响应是不可能的。因此,不同于MPEG-4中采用的精细分级编码FGS(FineGranularScalability)的方法(效率比较低),H.264采用流切换的SP帧来代替分级编码。
AVS
AVS是我国具备自主知识产权的第二代信源编码标准,是《信息技术先进音视频编码》系列标准的简称,其包括系统、视频、音频、数字版权管理等四个主要技术标准和符合性测试等支撑标准。
进程
AVS标准国际上音视频编解码标准主要两大系列:ISO/IECJTC1制定的MPEG系列标准;ITU针对多媒体通信制定的H.26x系列视频编码标准和G.7系列音频编码标准。1994年由MPEG和ITU合作制定的MPEG-2是第一代音视频编解码标准的代表,也是目前国际上最为通行的音视频标准。
经过十年多演变,音视频编码技术本身和产业应用背景都发生了明显变化,后起之秀辈出。目前音视频产业可以选择的信源编码标准有四个:MPEG-2、MPEG-4、MPEG-4AVC(简称AVC,也称JVT、H.264)、AVS。从制订者分,前三个标准是由MPEG专家组完成的,第四个是我国自主制定的。从发展阶段分,MPEG-2是第一代信源标准,其余三个为第二代标准。从主要技术指标——编码效率比较:MPEG-4是MPEG-2的1.4倍,AVS和AVC相当,都是MPEG-2两倍以上。
可以推测,由于技术陈旧需要更新及收费较高等原因,MPEG-2即将退出历史舞台。MPEG-4出台的新专利许可政策被认为过于苛刻令人无法接受,导致被众多运营商围攻,陷入无法推广产业化的泥沼而无力自拔,前途未卜。而AVS是基于我国创新技术和部分公开技术的自主标准,编码效率比MPEG-2高2-3倍,与AVC相当,而且技术方案简洁,芯片实现复杂度低,达到了第二代标准的最高水平;而且,AVS通过简洁的一站式许可政策,解决了AVC专利许可问题死结,是开放式制订的国家、国际标准,易于推广;此外,AVC仅是一个视频编码标准,而AVS是一套包含系统、视频、音频、媒体版权管理在内的完整标准体系,为数字音视频产业提供更全面的解决方案。综上所述,AVS可称第二代信源标准的上选。“
主要产品
AVS产业化的主要产品形态包括:
1)芯片:高清晰度/标准清晰度AVS解码芯片和编码芯片,国内需求量在未来十多年的时间内年均将达4000多万片。>>凤芯2号发布
2)软件:AVS节目制作与管理系统,Linux和Window平台上基于AVS标准的流媒体播出、点播、回放软件;
3)整机:AVS机顶盒、AVS硬盘播出服务器、AVS编码器、AVS高清晰度激光视盘机、AVS高清晰度数字电视机顶盒和接收机、AVS手机、AVS便携式数码产品等。
简言之,AVS最直接的产业化成果是未来10年我国需要的3-5亿颗解码芯片,最直接效益是节省超过10亿美元的专利费,AVS最大的应用价值是利用面向标清的数字电视传输系统能够直接提供高清业务、利用当前的光盘技术制造出新一代高清晰度激光视盘机,从而为我国数字音视频产业的跨越发展提供了难得契机。AVS将在标准工作组的基础上,联合家电、IT、广电、电信、音响等领域的芯片、软件、整机、媒体运营方面的强势企业,共同打造中国数字音视频产业的光辉未来。
AVS的三大特点
1.我国牵头制定的、技术先进的第二代信源编码标准——先进;
2.领导国际潮流的专利池管理方案,完备的标准工作组法律文件——自主;
3.制定过程开放、国际化——开放
产业前景
AVS最直接的产业化成果是未来10年我国需要的3-5亿颗解码芯片,最直接效益是节省超过10亿美元的专利费,AVS最大的应用价值是利用面向标清的数字电视传输系统能够直接提供高清业务、利用当前的光盘技术制造出新一代高清晰度激光视盘机,从而为我国数字音视频产业的跨越发展提供了难得契机。
AVS将在标准工作组的基础上,联合家电、IT、广电、电信、音响等领域的芯片、软件、整机、媒体运营方面的强势企业,共同打造中国数字音视频产业的光辉未来。