掘金阅读 ( ) • 2024-03-28 17:01

作者：多媒体实验室

近日，第六届深度学习图像压缩挑战赛（以下将简称“CLIC大赛”）比赛结果公布，由火山引擎多媒体实验室与北大组成的联合参赛平台b-2在高码率视频压缩和低码率视频压缩两个赛道均夺得主客观指标冠军。这也是火山引擎多媒体实验室连续两届蝉联该赛道冠军。

CLIC大赛由电气与电子工程师协会IEEE主办，从诞生开始就获得了学术界与工业界的广泛关注。2023年CLIC大赛暂停一届，本届大赛依托于数据压缩领域的顶级会议 Data Compression Conference (DCC)再次举办。值得一提的是，本届DCC中，火山引擎多媒体实验室有8篇论文入选。

随着以深度学习为代表的新一代人工智能技术不断取得突破，学术界与工业界逐渐意识到人工智能技术在图像、视频压缩领域的巨大应用潜力。基于深度学习的图像视频压缩技术被视为超越传统压缩技术能力极限，取得突破性进展的明日之星。基于深度学习技术，火山引擎和北大b-2平台提出了一项智能混合解决方案。

基于深度学习的智能混合解决方案

b-2 平台在充分理解传统压缩技术与深度学习压缩技术的各自原理的基础上，发挥两种技术路线的各自优势，取长补短，将二者有机融合成为一个整体，形成了独具特色的传统——智能混合解决方案。传统编码模块在业界已有传统编码框架基础上，加入了非对称四叉树划分等创新技术。智能编码模块则引入了基于深度学习的环路滤波等技术。

图1 非对称四叉树划分结构；(a)H1型水平UQT，(b)H2型水平UQT，(c)V1型垂直UQT，(d)V2型垂直UQT。

编码单元划分是混合视频编码框架的基础，决定着编码单元的基本形状和尺寸。灵活的划分方法能更有效地表达视频丰富的纹理和运动，对编码性能的提升起着至关重要的作用。团队提出了非对称四叉树 (UQT) 划分结构，旨在提高视频的编码效率。与现有的四叉树(Quad Tree, QT)，二叉树(Binary Tree, BT)，三叉树(Ternary Tree, TT)划分结构相比，UQT通过一次划分生成的子编码单元能触及更深的划分深度，能更有效地捕捉视频丰富的细节特性。此外，UQT生成的子块形状是无法通过 QT 、BT、TT组合实现的，一定程度上弥补了现有划分的不足，丰富了划分的表达。

图2 环路滤波网络结构示意图，包括网络的输入，滤波与输出模块

传统视频编码中采用环路滤波器去除编码失真，缩小原始图像与重建之间的失真，例如经典的去块滤波、样本自适应偏移和自适应环路滤波等。参赛平台提出了一种基于残差卷积网络的增强型环路滤波技术，有机地将环路滤波技术与深度学习技术结合在一起，在网络结构中与模型训练中充分利用传统视频编码的先验信息，提升环路滤波效率。网络输入方面，除重建像素外，团队将编码过程中的预测信息、划分信息、边界强度以及量化参数等作为增强信息供深度网络学习，丰富先验知识，使得网络能更好地感知压缩失真。在分层参考的编码结构中，待编码帧将参考已重建的高质量帧。团队提出对不同时域层次帧所使用的滤波器采用迭代训练的方式，获取最接近真实编码的训练数据，实现更高性能的滤波。此外，每个条带及最大编码单位均可以在多个滤波模型中自适应地选择率失真性能最优的网络模型，并将选择信息传输到解码端。

图3 CLIC 视频压缩赛道基于MOS的排行榜

2022年，火山引擎多媒体实验室第一次参加CLIC大赛。参赛平台Neutron Star（中子星）在高码率视频压缩和低码率视频压缩两个赛道，主客观指标均以大幅领先优势夺冠。

此次，火山引擎与北大联手夺冠，是结合了北大学科和人才优势，以及火山引擎的技术和产业优势，围绕深度学习在视频压缩领域的一次重要学术探索。

火山引擎多媒体实验室是字节跳动旗下的研究团队，致力于探索多媒体领域的前沿技术，参与国际标准化工作，其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务，并向火山引擎的企业级客户提供技术服务。实验室成立以来，多篇论文入选国际顶会和旗舰期刊，并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。