关键词:
AV1
AVS3
率失真优化
率失真优化量化
SIMD
硬件设计
摘要:
随着互联网信息技术和多媒体技术的迅速发展,超高清视频应用已经融入人们日常生活。但未经压缩的原始视频数据量庞大,在有限的带宽下,对视频的存储和传输提出巨大的挑战。为了应对这些挑战,国内外视频编码标准如AV1、VVC和AVS3,通过衡量编码码率与失真,引入率失真优化(Rate Distortion Optimization,RDO)技术,从而实现极高的编码效率。此外,基于RDO的基础上,还引入率失真优化量化(Rate Distortion Optimization Quantization,RDOQ)技术等,进一步提高了压缩效率。然而,这些技术的应用也导致编码器计算复杂度急剧增加,使得实时编码变得更加困难,同时也为编码器的硬件设计带来极大挑战。
针对以上问题,本文着力于在保障一定编码质量的前提下,分别从视频编码算法优化与硬件架构设计两个方面,对RDO技术和RDOQ技术进行了研究。具体工作和创新点可以概括如下:
1.针对RDO技术:本文深入研究了AV1模式决策中RDO计算过程,包括变换、码率计算、失真计算和像素重构。通过对RDO过程优化,提出了一种低复杂度的快速RDO算法以及其全流水硬件架构。在算法优化方面,采用一种高频系数置零的方式对较大变换块一维列变换后的系数优化;通过统计并分析量化系数值范围的数量与真实熵编码代价之间的关系,提出了一种高效的码率估计方法;基于全零块特征对较大变换块的高频部分失真进行补偿,提出了一种有效的失真估计方法;最后通过一种重构近似模型解决了像素重构和模式决策数据耦合导致的并行度低问题。在硬件实现方面,设计了四个流水线阶段的RDO全流水硬件架构。每周期处理16个系数,当高度小于16时,可同时处理多个变换块。实验结果表明,提出的快速RDO算法在All Intra(AI)和Random Access(RA)配置下分别有68.49%和50.77%的时间节省,同时性能分别损失2.73%和2.95%。提出的硬件架构可实现4K@150fps的实时处理。
2.针对RDOQ技术:本文深入研究了AVS3中RDOQ计算过程,包括最优系数电平(Optimal Coefficient Level,OCL)决策、最后有效系数(Last Significant Coefficient,LSC)位置决策。通过对OCL决策和LSC位置决策并行优化,提出了一种高效的扫描线级并行RDOQ算法以及其全流水硬件架构。在算法并行化方面,对于OCL决策,将run-level上下文依赖优化到Zig-Zag扫描线级,并提出了一种有效的RD代价来优化比特宽度和码率代价计算。对于LSC位置决策,提出了一种基于贪婪策略的并行化算法,该算法通过各个扫描线上子最优位置来确定Zig-Zag扫描线上全局最优位置。它支持并行计算,而不会使决策的性能损失。最后基于单指令多数据(Single Instruction Multiple Data,SIMD)指令加速整个RDOQ过程。在硬件实现方面,设计了六个流水线阶段的RDOQ全流水硬件架构。每周期处理32个系数,当高度小于32时,可同时处理多个变换块。实验结果表明,提出的并行RDOQ算法在AI、RA和Low Delay B(LDB)配置下分别有31.37%、28.58%和28.53%的时间节省,同时性能分别损失0.25%、0.26%和0.27%。提出的硬件架构可实现8K@60fps的实时处理。
综上所述,本文针对视频编码率失真优化算法及其硬件设计展开研究,并进行软硬协同优化,实现了一种高效的实时编码处理方案。