当前位置:   article > 正文

【多模态】BLIP——统一视觉语言理解和生成的引导语言图像预训练模型_blip模型

blip模型

        多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。而多模态研究的就是这些不同类型的数据的融合的问题。目前大多数工作中,只处理图像和文本形式的数据,即把视频数据转为图像,把音频数据转为文本格式

目录

 

推荐阅读
相关标签