首页 > 系统服务 > 详细

review | Machine learning based video coding optimizations: A survey

时间:2020-01-14 11:30:38      阅读:91      评论:0      收藏:0      [点我收藏+]

原文

摘要

机器学习算法,尤其是那些采用深度学习的算法,能够从非结构化海量数据中发现知识并提供数据驱动的预测,为进一步升级视频编码技术提供了新的机会。在本文中,我们对基于机器学习的视频编码优化进行了综述,旨在为研究人员提供坚实的基础,并激发数据驱动视频编码的未来发展。

  1. 首先,我们分析视频数据的表示和冗余。
  2. 其次,我们回顾了视频编码标准的发展和关键要求。
  3. 随后,我们从高效率,低复杂度和高视觉质量这三个关键方对与基于机器学习的视频编码优化相关的最新进展和挑战进行了系统的调查。详细分析了他们的工作流程,代表性方案,性能,优点和缺点。
  4. 最后,确定挑战和机遇,这可以为学术界和工业界提供基础和未来研究的潜在方向。

1. 介绍

举了很多例子来说明数据量大。
在本文中,我们旨在提供基于机器学习的视频编码优化的全面概述。这项工作的主要贡献是:
1) 我们总结了视频的表示形式和冗余,并指出了视频编码中的三个关键挑战性问题;

2) 随后,我们概述了基于学习的低复杂度视频编码优化的最新进展,这些进展可分为统计,基于机器学习和基于端到端学习的方案。分析了他们的决策问题,代表性特征,工作流程,优缺点。

3) 我们回顾了基于学习的高效视频编码,它具有四个关键问题,包括预测编码,变换编码,熵编码和增强。介绍了他们的问题表述,代表性方案和编码性能。

4) 我们对主观视觉质量评估和基于学习的视觉质量预测进行了全面调查,这是感知视频编码的关键。基于特征提取和融合中学习模型的功能,将质量预测总结为四个类别,并进行了概述。

5) 确定了基于学习的视频编码优化中的挑战性问题和潜在的研究机会。

2. 视频数据的表示和冗余

2.1 视频数据的表示

可以将3D世界场景(\(P\))建模为具有7个参数的全光函数[5],
\[\mathbf{P}=F_{7}\left(\varphi, \theta, \lambda, t, V_{x}, V_{y}, V_{z}\right)\]
其中\(V_{x}, V_{y}, V_{z}\)表示3D世界坐标中的水平,垂直和深度观看位置,φ和θ表示观看方向,λ是频谱波长,t是动态场景的时间采样。 它也可以在笛卡尔坐标系中表示为[5]:
\[\mathbf{P}=G_{7}\left(x, y, \lambda, t, V_{x}, V_{y}, V_{z}\right)\]
技术分享图片

With the development of video technologies, the video representations are extended with the following five trends, as shown in Fig. 2. 1) spatial resolution (x,y): the spatial resolution of video (x,y) grows continuously to enhance the video clarity. It is from the Common Intermediate Format (CIF) (320?×?240) to Standard Definition (SD) (720p), HD (1080p) and now 4?K (3840?×?2160)/8?K (7680?×?4320), which may be further extended to billions of pixels beyond the fidelity of human vision. 2) Viewing angle and depth (Vx,Vy,Vz): the video formats are developed from 2D to stereo (2-views), multiview, free viewpoint video, 360° VR [10], light field and volumetric, towards providing 3D, immersive and six Degree of Freedoms (DoFs) vision. 3) Spectrum (λ) indicating color fidelity and amplitude resolution: Video develops from black/white, color with RGB, and now targets to the WCG and HDR for more colorful and higher dynamic presentations. It will even be upgraded to high spectrums with 16 to 24-bit per channel for some specific applications. 4) Time sampling (t): with the development of capturing and computational photography technologies [16], the video frame rate increases from 25/30 frames per second (fps) for SD video to 60 fps for HD video, and will probably be 120 fps or even higher frequency.

由于视频在采集、压缩、传输、处理或显示等过程中会产生失真,所以呈现给用户的视频不再是满足全光功能的原始表现,而是质量下降。因此,除了上述四个视频表现维度之外,从用户的角度来看,还有一个重要的维度,即质量(q)。随着通信和显示技术的发展,用户对视频体验质量(QoE)的要求不断提高。值得注意的是,视频的质量不仅限于画面质量或清晰度,还包括视觉舒适度、深度质量、疲劳、沉浸感、DoF、延迟等与视觉体验相关的视觉因素。一般由低、中、高发展到超高,趋于更加真实。从总体上看,视频呈现呈现出更加真实、交互性更强的趋势。然而,现实表现的数据量呈爆炸式增长,是传统2D视频的数千倍甚至数百万倍。因此,为了有效的编码,需要探索视频冗余。

2.2 视频中的信号和感知冗余

空间相关性:由于物体之间的相似性和高空间保真度,图像中空间相邻的像素或块之间具有高度的相关性
时间相关性:由于捕获帧率高,例如60帧,连续帧之间的内容高度相关,特别是静态区域
视图间的相关性:通过多个位置或角度略有不同的摄像机同时捕捉三维世界场景,获得三维深度, 不同视图之间捕获的图像也高度相关。
信号冗余:基于符号出现概率的统计熵冗余(这个不知道是什么)
技术分享图片

由于大多数视频最终都是由人类视觉系统(HVS)感知的,因此并非所有的视频变形都能被HVS感知到,这就解释了感知冗余的原理,如图4所示。HVS包括两个功能部分,眼睛和大脑。基于人类视觉视觉系统的生理(眼睛)和心理(大脑)研究,许多视觉道具和冗余被揭示和启发。例如,如果一幅图像的几个像素值具有非常细微的尺度变化,那么失真通常是不可察觉的,这就导致了仅仅是显著差异(JND)的概念。这些是眼睛的生理感知冗余。此外,感知敏感度随着视频内容、人类意识和兴趣而变化,即感兴趣区域(ROI),这与大脑的心理功能有关。此外,新的感知冗余仍在进一步探索中。视频编码的目的是在保持视觉质量的同时,尽可能多的挖掘和去除信号和感知冗余。在下一节中,我们将回顾视频编码标准的里程碑及其面临的主要挑战。
技术分享图片

review | Machine learning based video coding optimizations: A survey

原文:https://www.cnblogs.com/yijun009/p/12190491.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!