赞
踩
云里雾里的文章,没看懂,方向和我的方向不同就算了,作者写得也感觉有点乱。
第一阶段是用dEVA编码器把图像编码为32*32的图像标记(iamge tokens)
第二步用dEVA解码器把标记还原为图像。
最后用transformer计算图像和token之间的关联度,找出关联度最大的。之后,将读入的文字转为token,就能解码出图像。