In this paper, a stereoscopic vision based region-of-interest (ROI) classification and the corresponding multiview video coding algorithm is proposed for three-dimensional television (3DTV), which takes advantage of the bottom-up statical visual attention, combined with motion and depth information. Then the regions received more attentions are allocated more bits, while those with less attentions are allocated less bits, so as to save bitrate by using human visual redundancy. The experimental results show that the proposed algorithm can improve the coding efficiency effectively. Compared with JMVM 7.0, the proposed algorithm can reduce about 18%~34% bitrate when quantization parameter (QP) is 22, and the SSIMs between the images reconstructed by the proposed algorithm and JMVM 7.0 are about 99%, which means that the quality of the reconstructed image is almost not decreased.
Keywords-three-dimensional television (3DTV); multiview video coding; stereoscopic vision; region of interesting; bit allocation
基于立体视觉感兴趣区域的三维电视多视点视频编码郁梅 1 ,卢小明 1 ,蒋刚毅 1,2 ,张云 1 ,邵枫 1 ,彭宗举 1 1.宁波大学信息科学与工程学院,宁波,中国,315211 2. 计算机软件新技术国家重点实验室(南京大学),南京,中国, 210093 【摘要】本文结合多视点视频具有的深度信息与运动信息,在自底向上的静态视觉模型上,提出了一种立体视 觉感兴趣区域划分的算法与三维电视多视点视频编码方法;然后根据不同区域的划分结果,在人眼比较感兴 趣的区域分配较多的码率,在人眼关注度较低的区域分配较少的码率,通过挖掘人眼视觉冗余以达到节省码 率的目的。实验结果表明,本文算法能有效地提高编码效率,与 JMVM7.0 相比,在 QP=22 时码率节省达到 18%~34%,而重建图像与 JMVM 7.0 重建图像的结构相似度达到 99%,即主观质量几乎没有改变。 【关键词】三维电视;多视点视频编码;立体视觉;感兴趣区域;码率分配 1 引言 与传统二维视频相比,三维电视中的多视点视频能 使用户从不同角度欣赏视频场景,给用户身临其境般的 立体临场感。但随着多视点数量的增加,其数据量也成 几倍增加,对其传输和存储构成了极大的挑战。经过多 年的努力,出现了一些比较经典的多视点视频编码解决 方案,其中 HBP 结构[1] 被纳入标准草案。为了进一步 提高视频的编码压缩效率,许多学者从不同角度出发优 化视频码率的分配:如 Lu 等人的基于 GOP-Level 的码率 分配方法[2],Özbek 提出视频可分级编码以分配不同的 码率[3],Shen 等人提出帧级的码率分配方法以减少帧间 的差异[4]。然而,现有诸多多视点视频编码方案主要是 通过降低空间、时间和视点间的信息冗余来压缩数据, 却鲜有充分挖掘多视点视频中大量存在的人眼视觉冗余 信息。近年来人眼视觉冗余在编码中的利用得到越来越 多的重视。Cai 等人根据运动、彩色信息将视频分为 4 个 具有不同层次的区域以控制码率[5],Wang 等人在低功 978-1-4244-7255-0/11/$26.00 ©2011 IEEE