赞
踩
链接:https://arxiv.org/pdf/2204.14198
论文:Flamingo: a Visual Language Model for Few-Shot Learning
multi-image visual dialogue
7. 实验效果
在16个任务上有6个超过了sota(包括微调)结果。
Overview
Perceiver Resampler接收从Vision Encoder输出的时空特征,输出特定数量的视觉tokens。这些视觉tokens用于Pre-Trained LM 中的cross-attention(随机初始化的)来调节冻结的 LM。这些新引入的层将视觉信息引入next-token prediction task。
Visual processing and the Perceiver Resampler
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。