赞
踩
http://www.cips-cl.org/static/CCL2021/index.html
NLP理解任务单向/双向/Seq2Seq…
自然语言处理NLP——计算机视觉CV——跨模态预训练
语言可以映射到一个语义空间学习
视觉内容上的生成与创造。
生成一些没有见到的内容
spatial attention
预训练数据不平衡//生成的视频/图片质量与输入文本相关性怎么克服//多模态人工智能(预训练模型、理解生成、可视化数据学习常识知识、可视化内容生成…)
Transformer引入到多模态领域,VQVAE//VQGAN改进,针对视觉的预训练模型。MAE
以文本生成图片
VQVAE——图像变离散字典上Token
PreNorm——Sandwitch-LN
有重叠部分的Token
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。