文章摘要
【关 键 词】 人工智能、视频压缩、深度学习、CLIC大赛、混合解决方案
随着深度学习技术的不断进步,人工智能在图像和视频压缩领域展现出了巨大的潜力。第六届深度学习图像压缩挑战赛(CLIC大赛)的结果显示,火山引擎多媒体实验室与北京大学组成的联合团队b-2在高码率和低码率视频压缩赛道上均取得了冠军。这一成就得益于他们提出的“传统-智能混合解决方案”。
该解决方案结合了传统压缩技术的成熟框架和深度学习的先进技术,发挥两者的优势,实现了技术的有机融合。在传统编码模块中,团队引入了非对称四叉树划分等创新技术,这种划分结构能够更有效地捕捉视频的细节特性,提高编码效率。与现有的四叉树、二叉树、三叉树划分相比,非对称四叉树能够生成更深层次的子编码单元,丰富了划分的表达能力。
智能编码模块方面,团队提出了一种基于残差卷积网络的增强型环路滤波技术,将传统的环路滤波技术与深度学习相结合,提升了滤波效率。网络不仅利用了重建像素,还包括了编码过程中的预测信息、划分信息、边界强度和量化参数等增强信息,这些先验知识使得网络能更好地感知压缩失真。此外,团队还采用了迭代训练的方式对不同时间层次的帧使用的滤波器进行优化,以及自适应地选择率失真性能最优的网络模型。
CLIC大赛由IEEE主办,自诞生以来就受到了学术界和工业界的广泛关注。2023年的大赛在Data Compression Conference (DCC)的支持下再次举办。火山引擎多媒体实验室在本届DCC中有8篇论文入选,并且是继2022年后再次获得高码率和低码率视频压缩赛道的冠军。
火山引擎多媒体实验室隶属于字节跳动,专注于多媒体领域的前沿技术研究,并参与国际标准化工作。他们的创新算法和解决方案已经被广泛应用于抖音、西瓜视频等产品,并为企业级客户提供技术服务。实验室自成立以来,多篇论文被国际顶级会议和期刊接收,并在多个国际技术赛事中获得了冠军和创新奖项。
原文和模型
【原文链接】 阅读原文 [ 1290字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-4
【摘要评分】 ★★★☆☆