赞
踩
第一章 视频质量评价分类
首先,什么是视频质量评价,就通常的理解而言,是指通过主客观的方式对两幅主体内容相同的视频图像信息的变化与失真,进行感知、衡量与评价。 那么有没有规范的说法呢,有,国际电信联盟,他对视频质量评价的定义分了两种:主观评价和客观感知测量也就是我们通俗讲的客观评价,主观评价:人类观测小组对节目类图片的质量或损害进行的判断。。客观评价:通过对节目的图片使用客观测量的方法,对整个节目链进行测量,以获得一个近似于从主观评估测试中获得的评分的指标。其实从这里来看,客观评价的目标就是无限趋向于主观评价。说了这么多,大家可能还是没有理解什么是视频质量评价。我举个例子,大家来看右边的这幅图,这是一幅比较经典描述视频质量评价在作什么的图片,圆圈中为原始图片,圆环外为受损后的聚合图片,如果仅看他们像素差异的绝对值之和、是相同的。但是如果通过主观感受,大部分人会认为,圆环上面的图片质量是要以此优于下面图像质量,而我们视频质量评价,要做的就是精确化的表述出这种感受。之所以用图片举例的原因是,目前大多数的客观视频质量评价方案,都是以原始视频与失真视频的每一个对应帧为单位,进行特征比较,从而得出评价结论的。我们所做的视频质量评价,也是将原始视频和受损视频,分解成YUV视频序列后,再做的对比分析。
由上面的介绍可以知道,视频质量评价,可分为主观评价和客观评价。其中主观质量评价的方法有单刺激,双刺激,比较刺激,多媒体视频质量等方法。其中双刺激连续质量标度(DSCQS)曾被广电总局用来对AVS视频编码与MPEG2编码效果进行对比评价。根据ITU-R BT.500的建议书规定,主观评价需要按照左上角的流程展开,首先需要给出主观评价的通用观看条件,如场地,室内照明,背景色度,峰值亮度,观看距离,观看角度等。另外还需要选取抽样人群,筛选标准有,职业类别,性别,年龄,受教育程度等。此外还需要确定测试规模,包括信号源质量,测试素材规模,观察者数量等等。最后指定评分方案,然后培训主观评价人员。最终获取到主观评价的MOS和DMOS值。(MOS)描述的是受损视频序列的平均主观得分,(DMOS)平均主观得分差,描述人眼对无失真图像和有失真图像评价得分的差异取平均值,它更贴切的描述受损视频和原始视频的差异。通过上面的介绍我们知道,主观质量评价的优点在于符合大部分人的评价标准,缺点是耗时长、成本高、存在个体差异、无法实时监测。显然不适合做编码器的视频质量评价标准。下面介绍一下客观质量评价。
客观质量评价按照是否需要原始视频分为全参考(FR)、部分参考(RR)、无参考(FF)方法。下面三个图是,ITU j143给出的三种方法的模型图。全参考方法需要原始视频存在的情况下进行质量评价。其核心思想是对视频序列中两幅图像的信息进行比较,由于信息充足,所以研究方案较多、也比较成熟和准确。部分参考评估,从原始视频和受损视频帧中提取一些属性或特征,并利用它们来测量受损视频的质量。它一般适用于像下图中,A端到B端这种、端到端的测量系统。无参考评估是一种极端情况,此时仅有失真图像而无任何原始图像,一般通过机器深度学习找到图像的特征,然后根据每个块的权重和特征来进行测量。它一般用来测量图像损伤的参数,但与客观图像质量评级不直接相关。在这三类方法中,全参考方法,由于有完整的原始视频作为对比源,结果会更加准确。我们后面介绍的重点也是全参考方法。
提到ITU,我们就需要介绍一下ITU的组织结构,ITU(国际电信联盟它的前身是国际电报联盟)它的组织结构主要分为无线电通信部门(ITU-R)、电信标准化部门(ITU-T)以及 电信发展部门(ITU-D)。1997年ITU-T和ITU-R 联合设立的视频质量专家组(VQEG),此后视频质量客观检测的标准化工作正式展开。视频质量专家组VQEG,是目前国际上对视频质量进行标准化及性能测试的最权威组织。VQEG参与多项ITU工作组的相关标准的起草和制定工作,它提供了数字视频质量评价方法的标准化过程,它的工作方式就是左边这个图。首先VQEG在全球范围内征集各种视频质量评价方法,并进行验证,然后反馈实验结果给工商界和学术界,最后由ITU-T和ITU-R发布标准或报告。
第二章 常用评价算法和全参考方法标准流程
第二章,我们会介绍一下常用的视频图像评价的算法,另外我们会重点说明一下全参考视频质量评价的标准流程。
上面这张图取自同济大学和香港理工大学的几个学生在ICIP发表的一片论文,图里面是一部分比较常用全参考图像质量评价算法的综合对比。它里面有一些参数我们可能不是很理解,这里做一下简单介绍。首先纵坐标,TID2008,CSIQ,LIVE等等,这些都是图像数据集,专门提供原始和受损图像以及对应的主观评价的结果。横坐标的PSNR、NQM、SSIM等,都是客观评价的算法。另外在图像左边第二列,每行都有四种变量,他们是判断主观评价得分和客观评价得分关系时,常会用到三种相关性系数(pearson, spearman, kendall),另外还有一个RMSE均方根误差。上面介绍的这些内容我们后面都会有具体的介绍。
图中的MICT、LIVE、A57等表示图像数据集,它是由视频质量专家组(VQEG)发起的评价算法性能校准的项目,主要思想是通过按照ITU规范,组织测试人员对一批原始图像和受损图像进行主观评价,然后将主观评价结果和图像序列库对应发布出来,其他研发人员便可以通过该图像序列库,以主客观质量的一致性来判断客观评价算法的性能。 我们可以看到这上面不仅提供了原始图像,还有失真图像,最重的要是主观评分的结果也会全部给出,很方便用来验证客观算法。
在判断主观评价得分和客观评价得分关系时,我们常会用到三种相关性系数(pearson, spearman, kendall),他们反应的都是两个变量之间变化趋势的方向以及程度,他的范围是-1到+1,0表示两个变量不相关,绝对值越大表示相关性越强。有时候我们还会用到评价指标RMSE(Root Mean Square Error均方根误差),反映了数据的离散程度,它是由主观数据和客观数据在非线性拟合后的误差,计算得到的。均方根误差越小,说明算法越准确。 其实这一页我们主要讲的就是如何评价算法的可靠性。
右边是我们在网络上经常可以看到的一些图像质量评价的算法,我们将这些算法汇总起来,方便大家对比学习。右边是VQEG图像质量专家组,成立以来推荐的几种图像质量评价的算法,其中最新的是2016年推荐的Vquad_HD,它是基于高清视频上做的主观评价的结果验证,其他几个方法都是在VGA或者CIF以下的分辨率做的主观评价验证。
分辨率大小 | YUV视频序列下载地址 |
CIF、QCIF、720p、1080P | |
CIF、QCIF、720p、1080p、2K、4K、8K | |
1080i、720P、576i | |
4CIF、VGA、720P、1080p、2K | |
CIF、QCIF、VGA、D1、720p、1080p | |
JSVM参考手册上给出 | |
1080i、1080p、720p、576i |
我们平时如果需要找一些YUV的视频序列来直接验证我们编码器的编码效果的话,上面几个网站肯定不错,里面不仅有各种分辨率的视频,还有不同场景,如足球比赛,滑雪,风景,新闻播报等各种场景。不过YUV序列内容较大,建议最好抽假期的时间一直下载为好。另外我们下载完视频在汇总时,建议将视频按照一定的场景分类,便于以后抽取验证。
下面我们介绍下,常用的视频质量评价算法。第一个均方差MSE,它是原始参考帧和失真图像直接做差取平方,然后求和,它的优点是计算复杂度低,缺点是和主观评价差距较大。第二个,PSNR峰值信噪比,它描述的是峰值信号的能量与噪声的平均能量之比,由于MSE描述的就是原始图像与失真图像的噪声能量均值,因此PSNR就是峰值信号能量与MSE比值。PSNR是最广泛使用的评价视频图像质量的客观评价方法,虽然和主观评价不完全一致,但目前还是作为其他算法的比较基准。PSNR的优点是计算复杂度低。缺点是和主观评价有一定差距。第三个是边缘峰值信噪比,它首先对源视频序列应用边缘检测算法来定位边缘像素。然后,通过计算均方误差来测量这些边缘像素的退化。最终通过累加这些边缘均方误差,计算出边缘峰值信噪比EPSNR。下面我具体介绍一下边缘像素提取的过程,首先,我们需要了解一个梯度的概念,其实就是对一幅图像的水平或者垂直方向上的每一个像素点进行求导,由于像素不连续,所以采用有限差分近似计算梯度。如上图,原图像的花朵,我们首先对其进行水平求导,求出其水平梯度,然后再对其垂直求导,计算出其垂直梯度,最后合并计算出其震级梯度。然后将其按照固定的阈值进行二值化,那么就提取出了它的边缘信息。 需要注意的是在部分场景下提取边缘信息时我们会裁剪部分图片,目的是为了防止其他干扰。
SSIM结构相似度,它的原理框图如左下图所示。SSIM认为图像的质量与信息丢失的三个方面相关:结构失真,对比度失真和亮度失真。结构相似度的优点是通过感知结构信息来评价失真,它更接近人眼主观评价。右下图的是一幅非常经典的图片,这应该是SSIM算法的论文中的原图。我们可以看到即使是在MSE相同的情况下,人眼观看质量也有很大差异的,论文以此来证明SSIM更接近人眼的主观感受。目前MSE和PSNR我们在友商的编码器参数状态中可以查询到该值,SSIM在芯原完成一帧编码的输出状态中也可以查询到该值。另外XH264编码中也有将编码帧的SSIM和PSNR的状态值打印的开关。
2000年VQEG在 ITU-T J.143中提出了全参考的两种应用场景。这两种概念分别是基于传输链的应用,和基于编解码器的应用。显然我们更关注在编解码器上的质量评价方法。左边这幅图是我们根据VQEG前期发布的多份建议书提取的标准流程,首先在视频序列输入端,编码参数上会有码率和分辨率的不同区分,视频序列复杂度的估计主要考虑两个方面,就是ITU-R BT.1788提出的空间感知信息SI和时间感知信息TI的概念。视频画面细节越多,空间复杂度SI越大;视频内容运动越剧烈,时间复杂度TI越大。我们可以根据视频序列的时间复杂度和空间复杂度筛选合适的测试序列。标准的视频图像序列从哪里获取,一般我们使用前面介绍的几个标准的图像序列库。编码器即是我们需要评价的编码器。参考解码器规范上没有明确指定建议,我们使用官方JM的稳定版本。在采样到参考视频序列和失真视频序列以后,我们首先需要对视频序列进行配准,配准包含时间对准,空间对准,和亮度调整以及色度调整。配准的过程,每个建议书都会提供不最后通过前面提到的图像质量评价的算法,我们提取到图像的相似和差异特征,然后进行多种类特征分析,最后汇聚分析结果,至此我们就拿到了视频质量的客观评价结果。如果上面使用的图像质量的评价算法是一种我们自己研发的算法,我们可以验证当前的算法是否准确,可以使用参考视频序列库进行评测,完成评测后可以使用线性拟合来计算RMSE或者直接计算线性相关系数,确认算法的可靠性。同的算法,我们后面详细介绍。
刚才提到了视频序列的配准,下面我介绍两种方案,第一种方案,如左上图所示,首先默认受损视频序列和原始视频序列的头部序列是对齐的,然后设置一个对比窗口,比如选择3,5或者7,然后在对齐窗口内依次计算受损视频序列和原始视频序列的MSE值,MSE低于阈值的帧认为是互相对应的帧序列,依次排列开。中间小房子图片举例了一个有多个受损帧与原始序列帧对齐的情况,可以采用边缘峰值信噪比epsnr提取原始视频序列的边缘特征值,然后根据epsnr最大的值作为相互匹配的帧序列,这样就将整个视频序列完整对齐。另外一种方法是,通过时间对准递归方法来对齐视频序列帧,如左下图所示,将原始视频序列的一个固定帧与受损序列中的某一帧进行匹配,然后将这两个序列拆分,在每个子序列中再选择一个固定帧并再次进行匹配。他的具体做法是利用每个帧的MSE值作比对,找到最匹配的值然后拆分列表,继续比对,如果未找到最匹配则降低阈值再次查找。他的本质是一个最匹配列表。 空间对齐,如右下图所示,它是指对于两个视频帧反复尝试可能的空间位移,最终找到两个帧差的最小MSE。 J340中有关于增益调整的psnr_search的例子。
第三章 视频质量评价工具和友商编码器质量评价
下面我们介绍几个比较好的视频质量评价工具,另外我们会使用该工具对友商的编码器编码的视频进行评价对比。
MSU的VQMT, MSU VQMT它是莫斯科国立大学的图像和媒体实验室制作的一款客观视频质量评价程序。该工具是商业图形界面工具,界面相对比较友好。它支持8bit,和10bit的YUV数据对比,支持多种YUV格式如YUV422,NV21,YUV444以及单独Y分量等格式,它还可以通过offset选项中的auto,seek,skip等选项调整对比帧序列的开始和结束值。我们可以设置一定的对比阈值,将超出阈值的序列帧单独输出到指定路径,方便后续对比分析。VQMT它提供了多种全参考视频质量评价方法,如PSNR(峰值信噪比),SSIM(结构相似度),MSSSIM(多尺度结构相似度),VQM(ITU-T J144中推荐的VQM),VMAF(网飞公司的VMAF,他在git hub上提供了基于C的库文件,以及基于python的源码)。选择完对比算法后,单击界面最下方的“start”按钮。可以查看计算的结果,像右上图这样。图中列出了受损视频序列每一帧的计算结果,可以整体或者局部的查看某一具体值。我们还可以通过其show frame按钮,show出其原始视频和受损视频的每一帧的对比情况,如右下角的这个图,黑色表示完全相同,红色表示完全不相同。
左上角的图片是MSU VQMT 工具 对比输出的json和csv结果,另外如果我们设置的超出对比阈值输出对应帧文件的功能,就可以在指定路径下看到超出阈值的多对视频帧图像。由于MSU的视频质量对比工具是商业工具,目前有部分功能我们是没有办法使用的,有两个重要的功能需要注意,一个是目前非商业版本只支持8bit的YUV视频序列对比,另一个是目前非商业版本只支持720P以下的视频质量评价。
VQMT_master该工具是开源的,基于命令行的,适用于批处理。它由法国洛桑学院的一个实验室开发,在git hub上可以下载到该工具的源码进行编译使用。该工具支持psnr,ssim,多尺度结构相似度等多种算法。右边是其软件的功能描述。后面关于友商的编码器视频质量的对比也是基于此软件进行的。
这是友商编码器在ice场景下的SSIM,和PSNR的编码质量评价值,ICE为滑雪场景,空间复杂度SI正常,时间复杂度TI较高。
这是友商编码器在ice场景下的akiyo,和PSNR的编码质量评价值,Akiyo为女主播播报新闻场景,空间复杂度SI正常,时间复杂度TI较低。从各种指标对比的情况看,3519的视频编码质量不是很稳定。目前我的测量是基于3516和3519编解码后的视频序列直接作对比,没有经过配准可能会有一定的影响。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。