计算机图形学和视觉应用在互联网视频媒体处理中的应用

2019-05-22 09:26郑文艳

无线互联科技 2019年6期

郑文艳

摘要：近年来，计算机图形学和计算机视觉领域在基于互联网的视频媒体资源中提供了具有重大意义的帮助。直播因为不受时间、地域、场所的限制，越来越多人投身到直播行业，主播更是随处可见，数以万计的人上传了巨大数量的图片和视频，刺激了各种各样地对视频媒体创建和编辑的应用程序的问世，然而这也是对这些资源的取回、组织和利用的重大挑战。文章讨论了计算机图形学和视觉应用在互联网视频媒体处理应用中所涉及的问题，并且给出了在这一新兴研究领域的未来发展方向的建议。

关键词：互联网视频媒体；大数据；图像；视频

1 互联网视频媒体处理中存在的问题

随着在互联网构建的应用程序和技术的迅速发展，越来越多的图像和视频都可以自由地在互联网上使用。我们将这些图像和视频称作互联网视频媒体，它们形成了一个很大的在线数据库。这创造了一个创建各种新的数据驱动应用程序的机遇，使得非专业的用户可以轻松地创建和编辑视觉媒体。然而，大多数互联网视频媒体的资源都是非结构化的，并没有考虑结构就上传了。此外，大多数资源都是简单的（而且经常是不准确的）通过文字检索[1]。以上情况对充分地利用这些资源构成了严峻的挑战。例如，如果用户利用图片搜索引擎搜索“狗跳”，最好的结果通常包含了一些不相关的用户最初搜索的结果，有些可能包含一只狗以不同的姿势来跳，有的可能会含有其他跳跃的动物，有些可能包含卡通狗，有的甚至可能包含一个产品，其品牌名称是“跳狗”。用户须慎重选择其中的许多检索结果，这是一项繁琐而耗时的任务，导致用户的搜索效率非常低。此外，大多数用户希望应用程序提供交互功能。虽然这只是简单地达到了小的图片视频数据库的目的，但是对于大型的数据库而言，将会成为一个很大的难题。但是解决这个难题会带来巨大的应用效益，目前用户对于这个方面的需求日益增长，这个问题的解决迫在眉睫。

2 管道网络视频媒体处理

互联网视觉媒体检索的大门打开了各种视觉媒体应用，产生许多必须以交互速率响应的用户。然而，检索过程通常是耗时的，尤其是对于大规模的数据而言。一个典型的管道网络视频媒体处理由3个步骤组成：内容检索，数据组织和索引，数据驱动的应用程序。在第一步中，有意义的对象从选择的互联网视频媒体资源中被检索出来，例如对场景中的每个图像或视频进行分类，并提取视觉显著的对象的轮廓。这一步可以提供更好的可视媒体的标签内容的感知应用程序，并且可以弥补缺乏准确的文字标签，以及识别显著的内容缺陷。在第二步中，在视觉媒体资源以及文字之间提取它们的相关关系和不同的尺度，例如找出局部特征的相似性，提供对象级别的分类，确定目标水平的相似性和密集的文字等相似之处。这一信息允许对大型视觉媒体集合构建一个高效的索引和查询计划。简单起见，我们将其称为数据库结构，它保证了所需的可视内容并可以迅速地进行检索。在第三步中，互联网视频媒体应用程序中可以使用这些数据。传统的图像和视频处理方法必须进行修改，以适应这种类型的数据，并且还需要新的方法来支持新的应用程序。该方法应该是：（1）相似性，这是为了有效地处理因特网视觉媒体的丰富性。例如，一个计算的结果可以通过查找图像相似的外观来替代，以达到期望的结果。（2）鲁棒性的变异，这是用以有效地应对视觉媒体的变化。例如狗，可以有各种各样的外观，这些外观之间的差异性可以很大。图1表示了一个典型的管道网络视频媒体的处理结果。

3 计算机图形学和视觉应用存在的问题

总结了近期的研究，组织和利用大集合或图像和视频资料库的目的是帮助视觉媒体进行分析、处理、合成、重建和理解。我们认为最终的应用领域是对视觉媒体的理解。除了像合成、编辑和重建的具体应用，许多因特网视觉媒体应用的目标是提供视觉媒体的使用或更好地理解视觉媒体的使用，无论是单一的产品，例如图像，或者一大组相关的视觉媒体，这里的目标确定可以是一个共同的属性，或以某种方式汇总的媒体。

算法效率也限制了大量网络视频媒体的充分利用。目前的方法以数以万计的因特网图像来说，大多数工作仅代表一小部分。更多的图像，可以使用更好预期的结果。虽然并行算法会有帮助，但是它只是解决方案的一部分，以及诸如分割、特征提取和分类等很多核心图像处理技术仍然存在技术瓶颈。进一步的工作是需要对这些话题进行讨论的。

有研究试图利用各种在大规模数据集中的信息，不仅是视觉信息的数量不断增加，而且還有元数据，例如文本标记、地理标记信息和时间信息。在社交网络网址，图像的事件标签是信息的另一个有用的潜在信息来源，并在较长时期内，它可能从此类网站提取有用的信息，例如以照片的内容提供的上下文信息，其中根据用户居住可以为度假提供线索。

最后，我们注意到，利用视频大集合的工作仍然是稀缺的。虽然这很自然地想到大多数图像应用程序应该扩展到视频（参见最近的工作，探索著名的场景视频[2]），但是有几个原因限制做到这一点的能力。除了处理时间具有明显的局限性，在应用到许多视频图像处理和视觉算法上给出的结果不稳定，或至少产生较差的时间相干性的结果。时间相干性，可以实施在优化框架中，但是这比处理一帧的数据更消耗计算内存。即使是国家最先进的视频对象提取方法可以很好地工作以及具有最少的用户交互的一些例子，但是如果应用到一个大集合的视频数据中可能会失败。此外，迫切需要高效的专门用于互联网上大规模视频集合的算法，其实在2017年发表的一篇文章[3]上体现了有效的视频合成。使用“算法友好”计划修剪视频不能自动处理视频，目前这想法还没有被应用。

4 结语

近年兴起的直播事业，促使用户对于视频媒体的处理速度、方式等提出更高、更苛刻的要求，这些要求会随着技术的发展不断更新，使得越来越多的人关注这个领域的研究，也有一批优秀的一线程序员投身到这个领域当中来，相关的研究、算法都以更快的速度在发展、更新，互联网的发展速度决定了视频媒体的发展速度。在相关的研究中我们不难发现，目前计算机图形学和视觉应用对于处理互联网视频媒体已经产生不可替代的作用。然而，目前计算机图形学和视觉应用的发展相对不够成熟，在互联网视频媒体处理中的应用依然存在很多问题需要解决克服，甚至在这个过程中还会出现新的问题，但是从目前的发展态势来看，计算机图形学和视觉应用与互联网视频媒体的结合会是一个潮流。随着图形学和视觉应用的不断发展，技术的不断成熟，互联网视频媒体在处理方式上、在算法逻辑上、在运行结果上可以有更多的可能性，可以突破更多现在暂时还无法克服的限制，届时，互联网视频媒体对于我们的生活、工作来说，将会是一种全新的存在，它可能带给我们一种现在还无法想象的全新的生活体验，无论如何，这都是一个值得期待的未来，并且是一个终究会来到我们身边的未来。

[参考文献]

[1]胡珍珍.关于互联网视觉媒体若干问题的研究和应用[D].合肥：合肥工业大学，2014.

[2]TOMPKIN J，KIM K I，KAUTZ J，et al.Videoscapes： exploring sparse， unstructured video collections[J].ACM Transactions on Graphics，2012（4）：1-12.

[3]XIE Z F，SHEN Y，MA L Z，et al.Seamless video composition using optimized mean-value cloning[J].The Visual Computer，2010（6/7/8）：1123-1134.