这个屌丝很懒，什么也没留下！

【多模态】BLIP——统一视觉语言理解和生成的引导语言图像预训练模型_blip模型

作者：AllinToyou | 2024-04-04 21:53:13

多模态指的是多种模态的信息，包括：文本、图像、视频、音频等。而多模态研究的就是这些不同类型的数据的融合的问题。目前大多数工作中，只处理图像和文本形式的数据，即把视频数据转为图像，把音频数据转为文本格式。