赞
踩
国际电信联盟(ITU-T)第12研究组(SG12)和视频质量专家组(VQEG)联合开展了P.NATS(Parametric non-intrusive assessment of TCP-based multimedia streaming quality)竞赛,旨在针对HTTP视频流(如DASH)开发视频质量评估模型。P.NATS共分为两个阶段,最终分别产出了两个系列的标准化视频质量模型:
下表总结了两个系列标准的主要差异:(*注:二者均可提供每秒视频质量预测)
系列 | 评估目标 | 输入类型 | 预测时长 | 编码支持 | 最高帧率 | 最高分辨率 | 适用设备 |
---|---|---|---|---|---|---|---|
P.1203 | 整体质量 | 比特流 | 长期(0.5~5分钟) | H.264 | 30fps | FHD/1080p | PC/TV、手机 |
P.1204 | 视频质量 | 比特流、像素、混合 | 短期(5~10 秒) | H.264/H.265/VP9 | 60fps | UHD-1/4K | PC/TV、手机、平板 |
本文基于对官方文档和论文的翻译、梳理与总结,介绍 ITU-T P.1203和P.1204系列标准内容。如有错漏之处,敬请指正。
上图为P.1203和P.1204的总体结构。模型的输出为1-5的平均意见分数(MOS),其中1代表质量差,5代表质量优秀。
P.1203系列一共包括四个标准文件,其中P.1203是该系列的入口文件,其他三个文件分别对应上图三个模块:
P.1204系列可以看作是对P.1203.1的扩展(基于可靠传输),侧重于视频质量评估,对应上图中的 P v P_v Pv模块。除了入口文件P.1204(对应论文[5])外,还包括五个文件,差异在于访问的信息类型不同:
视频质量评估模型按照输入信息类型开源分为四个类别[5]:
可以看出,P.1203和P.1204系列视频质量评估模型对应不同的类别:
模型 | 类别 |
---|---|
P.1203.1 (mode 0) | Metadata-based (NR) |
P.1203.1 (mode 1-3) | Bitstream-based (NR) |
P.1204.3 | Bitstream-based (NR) |
P.1204.4 | Pixel-based (RR/FR) |
P.1204.5 | Hybrid (NR) |
注意到与基于像素的经典质量评估方法SSIM、PSNR、VMAF不同的是,P.1203.1和P.1204.3均为基于元数据或比特流的无参考(NR)模型。这样的优势[6]一是计算开销小,二是可以应用于大规模质量评估和直播中,不过相应地会在一定程度上牺牲性能。事实上,在所有P.1203和P.1204系列模型中,P.1204.4的性能是最好的[5]。
官方介绍:ITU-T P.1203 and P.1204 model and development
官方技术报告:ITU-T Standardized Bitstream-based Video Quality Models Technical Report
第三方介绍:Introducing ITU-T Metrics P.1203 and P.1204 - Streaming Learning Center
P.1203主要论文:
P.1204主要论文:
P.1203主要开源仓库:
P.1204主要开源仓库:
P.1203包含四种操作模式,区别在于能够访问的视频信息不同(增量访问),对应不同的加密级别[1][4],如上图和下表所示。
模式 | 能访问的信息(增量访问) | 加密级别 | 计算要求 | 性能 |
---|---|---|---|---|
0 | 元数据信息,包括初始延迟、卡顿、视频编码、码率、分辨率、帧率、视频块时长、视频块大小等 | 最高 | 最低 | 最差 |
1 | 模式0信息 + 音频和视频帧大小、音频和视频帧时长、视频帧类型(如是否为I帧) | 较高 | 较低 | 较差 |
2 | 模式1信息 + 最多2%的比特流信息 | 较低 | 较高 | 较好 |
3 | 模式1信息 + 完整比特流信息 | 最低 | 最高 | 最好 |
*注:在使用P.1203的其他研究工作中,模式0较为常用,可能是因为其所需要的信息最少。
在前文结构图的基础上,上图进一步展示了P.1203框架的详细模块及输入输出[1][4]:
P.1203框架中的
P
v
P_v
Pv(即P.1203.1)模型使用一组从I.13导出的主要参数[1]:
注:输入信息由模型使用最大长度为 20 秒的滑动窗口处理,称为测量窗口;在所有 P v P_v Pv模型使用的参数中,只有 q u a n t quant quant会随不同模式(0-3)发生变化,其余参数均与模式无关。
评估视频质量时考虑三种因素导致的质量退化:
其中, D u D_u Du和 D t D_t Dt不会随着模式发生变化。
在计算具体的质量退化数值时:
之后,总体退化值为: D = D u + D t + D q D= D_u+D_t+D_q D=Du+Dt+Dq,注意需要将 D D D限界至0~100。对应地,总体视频质量为: Q v = 100 − D Q_v = 100 - D Qv=100−D。最后,基于 Q v Q_v Qv计算相应的1-5分MOS分数。
上图展示了P.1204系列三种模型的输入与输出信息。三种模型的输出一致,既可以输出5-10s(一个视频块的时长)的短期视频质量MOS评分,也可以输出每秒视频质量评分。在输入方面,三种模型存在以下差异:
P.1204.3包括以下两部分:
P.1204.3的最终质量评分是将参数模型和机器学习模型的评分进行加权平均(论文[5]的式20)。权重默认为0.5,即等权重相加。
P.1204.4需要对参考(源)视频提取特征以完成质量估计;P.1204.5的输入包括解码后的视频信息以及比特流的元数据信息(编码、码率、分辨率、帧率等)。本文不叙述这两个模型的具体计算过程,相关内容可参阅论文[5]及对应标准文件。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。