赞
踩
这些传统基准测试存在以下问题:
本文提出的观点:论文链接:https://arxiv.org/pdf/2307.06281.pdf
MMBench,是一个针对大规模多模态模型的新型评估基准。随着视觉语言模型在感知和推理能力方面的显著进步,如何有效地评估这些模型成为了一个主要难题。传统基准如VQAv2和COCO Caption提供了定量性能测量,但在细粒度能力和鲁棒性评估指标方面存在不足。而像OwlEval这样的主观性基准虽然能够全面评价模型能力,但其可扩展性差且易受偏见影响。
MMBench设计了一套综合的评估流水线,包含两大核心元素:
通过MMBench对14个知名视觉语言模型进行全面评估后发现,现有模型在多项选择题上的表现普遍不尽人意,大多数模型在MMBench测试集上面对最多4个选项的选择题时,Top-1准确率未达到50%,表明当前VLMs在应对不同提示下的预测一致性以及跨实例理解与逻辑推理等方面的能力有限。特别是跨实例理解和逻辑推理能力显得尤为薄弱,需要作为未来研究的重要方向加以改进。
此外,文档提到对象定位数据的引入有望提高模型性能,其中Kosmos-2和Shikra等模型在应用了此类数据后显示出明显的性能提升。同时,文中列举了多个视觉语言模型及其参数规模,并报告了它们在MMBench开发集上的具体表现,强调了采用更加严格、合理的CircularEval评估策略的重要性。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。