cogvlm：visual expert for large lanuage models_cogvlm,

作者：喵喵爱编程 | 2024-07-29 08:51:34

踩

cogvlm,

CogVLM: Visual Expert For Large Language Models论文笔记 - 知乎github: https://github.com/THUDM/CogVLM简介认为原先的shallow alignment效果不好（如blip-2，llava等），提出了visual expert module用于特征的deep fusion在10项任务上达到SOTA，效果堪比PaLI-X 55B分为专家模…https://zhuanlan.zhihu.com/p/6627642351.introduction

shallow alignment不好，blip2，minigpt4，llava，visualglm等通过可训练的Q-former或线性层将冻结的预训练视觉编码器和语言模型连接起来，将图像特征映射到语言模型的输入嵌入空间中，虽然收敛速度快，但是不如联合训练视觉和语言模块的方法，例如PaLi-X，容易产生幻觉。shallow alignment较差的原因是视觉和语言之间缺乏

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/喵喵爱编程/article/detail/898031