煮酒与君饮

这个屌丝很懒，什么也没留下！

热门标签

Can We Edit Multimodal Large Language Models?阅读笔记

作者：煮酒与君饮 | 2024-06-27 03:40:02

踩

can we edit multimodal large language models?

论文阅读笔记（一）

Can We Edit Multimodal Large Language Models?

Cheng S, Tian B, Liu Q, et al. Can We Edit Multimodal Large Language Models?[C]//Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. 2023: 13877-13888.

论文导读

模型编辑是近期NLP领域较为热门的研究方向之一，其目标是在避免重新训练模型或者高成本微调模型的前提下，实现对模型内错误参数知识的纠正或者外部新知识的注入。目前的模型编辑主要面向大规模语言模型，并且已经展示出一定效果，然而，面向文本的模型编辑技术是否能在图像、多模态类模型上仍然有效，仍是需要探索的问题。该文将面向多模态编辑任务，验证、分析已有知识编辑模型在多模态编辑上的效果。

摘要解读

摘要开句介绍了该文研究任务：多模态模型编辑。

进一步引出与单模态编辑相比存在的挑战：相比于单模态编辑，多模态编辑需要考虑更多的影响因素，如导致模型错误的原因是文本特征还是图像特征还是其他原因。

接下来介绍了本文做的事情：构建了一个用于评估多模态编辑的数据集；在不同模态的模型上测试了多种基线编辑模型的效果并对结果进行了分析

最后介绍了实验的结论以及发现：已有编辑模型在多模态编辑任务上有一定效果，但还不够好，需要提出更加高效、鲁棒的方法来实现多模态模型编辑。

引言解读

引言第一段和第二段分别对应摘要中前两句，简要介绍了模型编辑的定义以及意义，并进一步强调了多模态编辑的必要性和存在的挑战：模型出现错误的原因更加多样化，难以确定，并且修改难度更大。

第三段介绍了本文针对多模态编辑提出的数据集并且借鉴文本上的编辑给出了多模态编辑的评价指标：Reliability, Locality, and Generality。

第四段给出多模态编辑的3个评价指标定义以及评估方法，进一步介绍了实验设置和实验结论，最后强调了本文的3个贡献：

1.首次将模型编辑拓展到多模态编辑上，扩大了模型编辑应用范围。

2.针对多模态编辑，给出任务定义，评价指标并构建数据集对已有编辑方法进行评估。

3.介绍实验结论，发现已有方法在多模态编辑上的效果一般，需要提出更加鲁棒的模型编辑方法。

结合第二三四段内容以及图1，可以基本了解多模态编辑在干什么：

如图中所示，在编辑前，当给定一段问题描述以及相应图片时，模型将图片中的“street barrie” 错误识别为了“ladder”。通过模型编辑，可以让模型重新认识到“street barrie”（实现了Reliability和Generality），同时保持模型对其他实体如“little bear”的认知（实现了Locality）。

方法解读

多模态编辑示意图：

图像上半部分表示多模态模型推理过程测，先将图片通过Image-Encoder进行编码表示，再与文本和问题拼接通过文本编辑器进行表示，最后得到文本格式的输出。

图像下半部分表示分别使用模型编辑方法对图像编码起或者文本编码器进行参数更新，实现模型输出的更新。

任务定义

对于一个多模态模型LLM f, 输入包含图像输入 $i_e$ , 以及文本输入 $x_e$ , $y_o$ 和 $y_e$ 分别表示修改前后模型的输出。
给出定义后，多模态编辑需要满足以下属性：

Reliability, $M_{rel}$ ，当f在更新参数 $\theta(i_e,x_,y_e)$ 的作用下，模型可以正确的输出更新后的输出 $y_e$ .

Locality, $M_{loc}^*$ , 当更新参数 $\theta(i_e,x_,y_e)$ 后，模型应该保持与更新前相同的输出。这里作者针对多模态特性，分别对图像编码器和文本编码器保持不变。

Generality, $M_{gen}^*$ , 更新后的模型，需要对与更新知识相关的信息保持一致性，如对于一张图片的相同问题的不同问法需要给出相同的答案。
同样，作者分别对对图像一致性和文本一致性提出了相应指标。

综上所述，多模态模型编辑需要满足下图中，绿色和蓝色框内知识的正确更新，对于框外的知识模型答案应该保持不变。

数据集构造

已有的数据集难以满足对以上编辑指标的评估，因此，作者构造了MMEdit数据集来对已有编辑方法在多模态数据上进行评估。
包含2个字任务：Editing VQA（E-VQA）和Editing Image Captioning （E-IC）。
VQA同时考验模型对文本和图像的理解，并考验图像与文本的对应关系；
而IC需要对图像整体有较为全面的理解，并以自然语言的形式表述图像内容。

针对Reliability，作者基于VQAv2和COCO数据集构造了编辑数据。

针对Locality，作者分别从NQ数据和OK-VQA中抽取数据来评估模型在文本和图像方面的局部性。

针对Generality，作者使用ChatGLM和人工构造的方式对编辑数据集中的文本一致性数据进行构造。针对图像模态的一致性，作者使用 Stable Diffusion 2.1来生成图像一致性数据。

模型和基线选择

被编辑模型方面，作者选择了BLIP-2 OPT和MiniGPT4作为被修改的基线模型。

编辑方法上，作者选择了FT，MEND，KE，SERAC以及IKE作为编辑方法。此处缺少Locate-Then-Edit Method 方法。

实验结果

主要实验结果：

FT结果在两个模型两个任务上性能较差。
已有编辑方法在VQA任务上性能略高于IC。但两者在M-Loc上性能均较低，说明了对图像参数的更新能力仍不足。

泛化性方面，多模态上整体性能低于文本。

修改模块上，对图像编码器修改的性能远低于对文本编码器的修改。

结论

多模态模型中，图像编码器和文本编码器共同扮演较为重要的角色，因此，在编辑多模态模型时，需要综合考虑两部分结构信息进行修改。

TODO

对论文代码进行复现，实现以下目标：

1.举例介绍如何计算不同评价指标，特别是多模态方面如何计算。
2.论文代码复现讲解，特别是如何将编辑方法应用在多模态模型上。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/煮酒与君饮/article/detail/761209