优享资讯 | 两度入选CVPR，海量视频数据+AI大模型加持，快手KVQ打造视频质量评价“黄金眼”

InfoQ 推荐 ( ) • 2024-06-13 19:03

两度入选CVPR，海量视频数据+AI大模型加持，快手KVQ打造视频质量评价“黄金眼”

当前，人类每天创造出约1.77亿TB的视频数据，累计时长足以从史前时代连续播放到现在。如何准确评判视频质量，并兼顾成本和体验，让有限的带宽和算力真正用在“刀刃”上，成为行业的一大难题。同时，视频从生产到消费的链路很长，编码、处理、传输等环节都会对画质造成影响，行业也亟需有的放矢，为改善用户体验找到有效依据。

快手自研的图像/视频质量评估方法KVQ（Kuaishou Visual Quality）的问世，让复杂的画质指标可以被准确量化，在全链路、全场景实现精准的视频质量评估。快手KVQ基于海量的视频数据+AI大模型训练而成，是针对视频质量的科学量化的衡量手段。快手丰富海量的视频内容和数据积累训练，让KVQ具备极强泛化性。

据悉，KVQ在视频质量评估的过程中，可以综合感知视频的质量、内容、场景、美学、编码、音频等特征，执行多维度评价。相比传统的视频质量评价方法，KVQ更适合内容、编码和处理手段更多样的平台，其准确率超过传统画质评价算法，可以媲美人眼主观评价。

由此，KVQ不仅将复杂的视频质量评价体系进行科学量化，实现全链路任一节点的视频质量评估，并辅助归因与调整，指导画质处理与编码，还帮助确定成本与体验的均衡点，实现质效统一。

应用落地场景广泛，KVQ成为视频质量“判卷人”

在应用落地场景中，快手KVQ广泛覆盖音视频及运营、分发、搜索等场景。一方面，在音视频场景中，KVQ作为画质的准绳，在“生产-处理增强-编码-消费”全链路均发挥重要作用。

具体而言，在生产环节，KVQ在拍摄/编辑/推流等环节进行监测，能够提前诊断画质隐患，从生产源头发现画质风险。同时基于画质问题的原因，KVQ可以更针对性地给出改善画质的举措建议，如擦镜头、开灯等，或是开启端侧画质增强来进一步修复。

在处理增强环节，处理前，KVQ是画质增强算法（去模糊、去噪声、去块效应等）的“判卷人”，每一次处理增强算法的迭代都可交给KVQ“判卷”，验证效果，提升研发效率；处理中，基于KVQ基础特征给出的视频损伤检测结果，更具针对性地触发不同类型的增强算法，对算力进行靶向规划，减少算力浪费；在增强处理后，KVQ的分数可用来判断是否出现badcase，进而决策是否重新优化算法。

在编码环节，基于KVQ对“编码码率-质量曲线”的实时预测（不同码率档位，对应的质量曲线斜率不同），去保障带宽的合理控制，和画质体验的最佳水平。而KVQ在转码压缩后的画质监督，可以有效防止“省了带宽但丢了画质”。

在消费环节，KVQ实现多码率决策，能够将清晰度量化，在保障流畅播放的前提下，下发清晰度最高档位。同时在触发端侧后处理上，基于KVQ的判断，可以分析一个作品是否适合做端侧超分等后处理，进而提升低质作品清晰度。

此外，在点直播全链路，KVQ可以做到清晰度长期监控，视频点直播全链路定期巡检，通过KVQ分数，判断大盘清晰度是否正常，进而辅助归因与干预。而在点直播全链路中，基于KVQ分数判断，也可辅助快速定位造成清晰度明显损失的环节，提升排障效率。

另一方面，在运营、分发、搜索场景中，针对审核风控，KVQ在机审环节，实现劣质（无意义、黑屏）过滤，以及低质（模糊、噪声过高）限权；在人审环节，作品在获得热度之后，KVQ辅助审核人员，判断视频画质是否适合继续享有更高流量。

针对推荐分发，KVQ不仅将低质视频降权，保证消费侧生态体验，还让精品视频池“蓄水”，保障精品作品清晰，并促进新作品冷启动，准确识别画质层面的潜力，帮助热度快速爬坡。针对搜索排序，基于KVQ给出的画质评价，实现对搜索结果重排，同时提升优质作品排序。

目前，KVQ已经全面应用于快手的点直播的生产、转码、消费全链路，同时也已经面向头部客户开放技术支持。

海量数据与大模型加持，KVQ突破传统评价方法瓶颈

综合来看，传统的视频质量评价方法主要分为主观方法和客观方法。其中，主观方法以人工方式评估视频质量，虽然准确度高，但人力成本巨大，缺乏时效性，不适合规模投入

而客观方法基于设计出的算法模型，在机器上自动执行视频质量评估，如SSIM、VMAF、PSNR等传统业界标杆方法。这类方法依据人工对视频失真的理解来设计，容易因考虑不周或难以实现，使得模型对视频质量表示不充分，特别是在面对海量UGC视频时，可能出现误判。

例如，一个源视频在处理阶段经过了过度的锐化，在人眼主观看来会觉得观感不佳，但在传统评价方法看来，可能反而觉得效果不错。

UGC的视频种类繁杂，而且源视频质量、平台对源视频的处理，编码的压缩档位都参差不齐。各种环节叠加，加剧了画质问题的复杂性。对传统的评价模式来说，严重超纲，容易失灵。

在训练过程中，KVQ又是如何摆脱传统方法的种种瓶颈？一是数据融合训练，“大力出奇迹”。基于快手海量、丰富的视频标注数据，KVQ在训练过程中“见多识广”，足以应对复杂的UGC短视频特征，实现准确评价。

二是大模型训练，创造“代差优势”。快手在音视频技术领域始终坚持前沿探索与技术验证，率先投入大模型预训练实践。在大模型预训练方面，快手基于海量UGC视频和Transformer架构实现AI推理，让KVQ在面对不同类型视频时可以“触类旁通”，理性评价，并实现多维的失真感知，即空间感知（图像内容本身的失真感知）、时间感知（视频播放过程中，连续时域上的失真变化感知）。

三是迭代飞轮，快速优化表现。KVQ在应用场景中持续收集badcase反馈，不断迭代，同时针对线上消费侧视频大盘进行巡检，定期捞取检测，发现问题。针对内容多样性、处理多样性、编解码多样性等问题，KVQ持续调优，目前已迭代至第五代，多个场景均达到Golden Eye（人眼的最佳主观评价）水平。

能力指标达业界标杆级水平，KVQ赋能客户平衡成本与体验

当前，无论是和学术界众多SOTA领先方法的效果比对，还是和SSIM、AVQT、VMAF等工业界的标杆方法比对，KVQ都展示了出众的技术优势，在各数据集性能表现以及主观一致性指标等方面，处于明显领先地位。

同时，KVQ的保序性表现也十分优秀。保序性作为视频质量评估重点依赖的指标，与终极目标“是否与人眼主观感受质量一致”挂钩。其逻辑在于，在同源视频对的清晰度区分中，评估“机器预测顺序”与“人眼主观顺序”的一致性，包含点播/直播多档位、分辨率、多码率等测试场景。KVQ在多个场景维度的保序性指标，均达到Golden Eye水平。

在已经拉开帷幕的计算机视觉顶会CVPR 2024中，快手KVQ相关论文被正式收录"，展示了KVQ在短视频平台上进行视频质量评估的重要作用。

据了解，基于快手的海量用户反馈迭代，KVQ的泛化性越来越高，目前已经服务多家头部互联网客户，有效帮助客户实现高效准确的视频质量评估。

纵观互联网行业发展可见，视频平台的成本和体验，始终是天平上难以取舍的两端，在短视频直播时代这一两难抉择情况愈加白热化。快手KVQ这把“尺子”，经过千锤百炼，为打造极致的音视频体验而生，将持续帮助更多行业伙伴，在天平上找到最优解。