多媒体通信技术的现状与待解决问题

2011-06-19 04:15张海涛郭大波
长春工业大学学报 2011年5期
关键词:编码多媒体技术

张海涛,郭大波

(山西大学商务学院 信息学院,山西 太原 030031)

0 引 言

在计算机行业里媒体(medium)有两种含义:其一是指传播信息的载体,如语言、文字、图像、视频、音频等;其二是指存贮信息的载体,如ROM、RAM、磁带、磁盘、光盘等,目前,主要的载体有CD-ROM、VCD、网页等。多媒体是近几年出现的新生事物,正在飞速发展和完善之中。我们所提到多媒体技术中的媒体主要是指前者。多媒体技术(Multimedia Technology)是利用计算机对文本(text)、图形(graphics)、图像(image)、声音(sound)、动画(cartoon)、视频(video)等多种信息综合处理,并建立逻辑关系和人机交互作用技术。多媒体技术所涉及的对象是计算机技术的产物,而其它的单纯事物,如电影、电视、音响等均不属于多媒体技术的范畴。它极大地改变了人们获取信息的传统方法,符合人们在信息时代的阅读方式。多媒体技术的发展改变了计算机的使用领域,使计算机由办公室、实验室中的专用品变成了信息社会的普通工具,广泛应用于工业生产管理、学校教育、公共信息咨询、商业广告、军事指挥与训练,甚至家庭生活与娱乐等领域[1]。

1 多媒体通信技术

多媒体通信(multimedia communication)是多媒体技术与通信技术的有机结合,突破了计算机、通信、电视等传统产业间相对独立发展的界限,是计算机、通信和电视领域的一次革命。它在计算机的控制下,对多媒体信息进行采集、处理、表示、存储和传输。多媒体通信系统的出现大大缩短了计算机、通信和电视之间的距离,将计算机的交互性、通信的分布性和电视的真实性完美地结合在一起,向人们提供全新的信息服务[2]。多媒体通信的基本框架如图1所示。

图1 多媒体通信的基本框架

多媒体通信的流程为:首先将CCD采集的视频信号或由麦克风采集的声音信号进行带限滤波,然后进行 A/D(Analog to Digital)变换,即抽样、量化、编码,将模拟信号变换成数字比特流。DSP芯片的输入是A/D变换后得到的以抽样形式表示的数字信号,DSP(DM6437)芯片对输入的数字信号进行某种形式的处理,如数字滤波、压缩编码、降噪等。根据不同的应用,处理后的数据就可进行网络传输或存储[3]。同时,数字信号再经解码、D/A(Digital to Analog)变换转换为模拟样值,之后再进行内插和平滑滤波就可得到连续的模拟波形,输出至显示设备或音响设备。

多媒体通信系统有以下几个技术难点:

显示技术:真彩色高分辨率显示技术、三维技术;

处理技术:压缩技术包括语音压缩、图像压缩、视频压缩;

识别技术:包括语音识别、人脸识别、手语识别;

传输技术:流媒体技术P2P技术。

多媒体面临两个难题:

第一,信息的获取,包括过采样带来的冗余、数据的传输和数据的存储;

第二,信息的表达,包括准确和丰富两个方面。

云天化集团是以化肥及现代农业、玻纤新材料、磷矿采选及磷化工、石油化工、商贸及制造服务、产业金融6大产业为重要发展方向的省属国有综合性产业集团。近年来,集团主动融入和服务国家“一带一路”倡议,主动对外开放转型升级,努力发挥自身优势,实施“国际化运营、本土化经营”,推动企业不断迈向高质量发展。

文中重点讨论视频压缩技术。

2 视频压缩技术

2.1 视频压缩原理

信息是事物本原的描述,单位是信息熵。数据是事物(在X系统中)的纪录,单位是字节/比特。数据量不等于信息量,数据量大于等于信息量,相差的是冗余。多媒体数据的冗余有视频冗余和音频冗余。视频冗余包括:均匀采样冗余(绝大多数区域过采样)和感知冗余(眼睛对视频的感知是主观的)。音频冗余包括:均匀采样冗余和感知冗余(耳朵对声音频率的感知是非线性的)。

视频信号的相关性及信息冗余如图2所示。

图2 视频信号的相关性及信息冗余

2.1.1 感知冗余

由于人眼视觉的非均匀性,使得人眼视觉对于某些空间频率感觉迟钝,视频中不同频率成分的内容对于人眼系统而言,其重要性是不同的,也就是说存在频域冗余。例如,人眼视觉系统对亮度信号变化的敏感性高于色度信号变化。因此,可以对色度分量进行下采样,同时可保持主观视觉质量不变。YUV 4∶2∶0色差格式就是对色度分量在水平和垂直两个方向进行2∶1的下采样[4]。另一方面,对信号频域的各个分量可以采取不同的量化步长,将人眼视觉不敏感的分量去除,而不会引起主观质量的下降。

2.1.2 空间冗余

空间冗余是指在同一帧画面中,相邻的像素间存在空间相关性(spatial correlation),特别是当这些相邻像素位于同一个视频对象中时,相关性极强,如图像的背景区域。通过帧内预测编码可以大幅度地去除图像空间冗余,现代的静态图像压缩技术大多数都采用了该方法。

2.1.3 时间冗余

通常对视频序列而言,除非发生场景切换,否则相邻帧在时间上都是连续的。在前后两帧中往往包含与当前帧相同的背景和对象。只是由于镜头的转动或视频对象的移动使得空间位置发生变化,运动越缓慢,位置的变化越小,视频序列在时域存在极强的时间相关性 (temporal correlation)。

2.2 原始数据对传输带宽的要求

原始数据对传输带宽的要求如图3所示。

图3 原始数据对传输带宽的要求

2.3 视频数据可被压缩的上限

约束条件:1)按帧(N×M 矩阵,N≥M)处理;2)对元素的表达不做限定。

工具:奇异值分解(Singular Value Decomposition,SVD)。

2.4 压缩编码算法的历史和现状

视频压缩编码现状如图4所示。

图4 视频压缩编码现状

从图中可以看出,随着视频分辨率的提高,压缩倍数也相应地增加。VCD,DVD,HDTV视频分辨率由低到高,压缩倍数也由低到高。根据视频压缩原理的知识,分辨率越高,带来的视频冗余就越多,从而可压缩的部分也就越多。从图中还能看出,在同等分辨率下,AVS/H.264压缩编码标准比MPEG-1和MPEG-2标准压缩倍数要高,但是二者距离压缩的理论上限还有很大一段距离[5]。这对科学工作者来说是非常有理论指导意义的。我们在提高压缩倍数,改善压缩质量方面还有很多要做的工作。

视频压缩编码的历史是一部平衡实时性、硬件实现成本、算法效率的历史。

PAL:25帧/s=40ms内必须完成一帧处理。NTSC:30帧/s=33.3ms内必须完成一帧处理。KLT(Karhunen-Loeve变换的简称,是一种正交变换)无法使用,退而求其次,使用小块DCT(离散余弦变换)变换,加上运动预测以及熵编码,构造了混合编码框架。混合编码框架的视频编码系统是将待编码图像帧划分为N×N的块(主要是16×16和8×8),每一个块相对独立地进行处理[6]。其核心思想是利用帧内、帧间预测方法消除视频序列中的空域和时域冗余,利用变换编码(如DCT)方法消除频域冗余,最后利用统计编码来消除信息熵冗余。

国外对视频的压缩研究较为成熟,主要有两大机构从事这方面的工作:ITU-T下属的视频编码专家组 VCEG(Video Coding Experts Group)和ISO/IEC下属的运动图像专家组MPEG(Motion Picture Experts Group)。从1980年以来已经制定了许多针对不同应用的标准。ITU-T主要制定了 H.26X系列标准,如 H.261,H.263,H.263+,H.263++等[7],ISO/IEC主要制定了MPEG-X 标准,如 MPEG-1,MPEG-2,MPEG-4等。AVS(由数字音视频编解码技术标准工作组开发)是中国自主制定的音视频编码技术标准。AVS工作组成立于2002年6月。经过7次AVS正式工作会议和3次视频组附加会议,历经一年半的时间,审议了182个提案,先后采纳了41项提案,2003年12月19日AVS视频部分终于定稿。AVS视频标准当中具有特征行的核心技术包括:8×8整型变换、量化、帧内预测、1/4精度像素插值、特殊的帧间预测运动补偿、二维熵编码等[8]。

3 结 语

文中先从媒体的概念引出多媒体技术,然后又引出了多媒体通信技术。简单介绍了多媒体通信的基本框架和面临的技术难题。然后重点讨论了视频压缩技术,包括视频压缩原理、原始数据对带宽的要求、视频数据可被压缩的理论上限和压缩编码算法的历史和现状。通过文中研究,表明多媒体通信尚有许多技术难点和理论难题值得研究和克服。近年来随着物联网技术的发展和推广,使得多媒体通信又增加了新的内容。多媒体通信的研究领域越来越广泛,涉及的内容也越来越深刻,多媒体通信的应用前景一片光明。

[1]张晓燕.多媒体通信技术[M].北京:北京邮电大学出版社,2009.

[2](德)Ralf Steinmetz,(美)Klara Nahrstedt,安博一.Multimedia Systems[M].北京:清华大学出版社,2006.

[3]张小鸣.DSP控制器原理及应用[M].北京:清华大学出版社,2009.

[4]必厚杰.新一代视频压缩编码标准:H.264/AVC[M].2版.北京:人民邮电出版社,2009.

[5]刘峰.视频图像编码技术及国际标准[M].北京:北京邮电大学出版社,2005.

[6]张海涛.视频压缩编码研究及应用[D]:[硕士学位论文].太原:山西大学,2008.

[7]肖志坚.H.264帧间编码技术的分析与改进[D]:[硕士学位论文].西安:西安电子科技大学,2005.

[8]唐玲娜.H.264视频解码优化及 DSP实现[D]:[硕士学位论文].成都:电子科技大学,2009.

猜你喜欢
编码多媒体技术
生活中的编码
长链非编码RNA APTR、HEIH、FAS-ASA1、FAM83H-AS1、DICER1-AS1、PR-lncRNA在肺癌中的表达
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
多媒体技术在中学英语教学中的应用
《全元诗》未编码疑难字考辨十五则
应用多媒体技术 创新中职德育课
子带编码在图像压缩编码中的应用
计算机多媒体技术应用初探
基于多媒体技术的初中数学教学探讨
Genome and healthcare