赞
踩
u-Net结构:encode,decode,先卷积收缩,再扩散上卷积,u形,concat方式叠加,concat方式使深层与浅层融合更充分,所以更优于FCN方式
FCN结构:add方式叠加
统一不同分辨率、不同宽高比、不同格式的视频数据patchs化
encoder后的数据加入噪声,再去噪,decoder
基于扩散模型的主干u-net:可以限定模型规模
理解时空编码:spacetime latent patches
sora 支持不同长度、不同分辨率的输出
NaVit:google论文:将多个patch打包成单一的序列,就可以投喂不同分辨率,不同时长的视频,能保证输出不同分辨率,不同时长的输出;同时可以去重,如果两个patch变化率很小,可以过滤,不重复计算,减少计算量,但会造成负载不均衡,Patchify方法可以解决这个问题
scale up后视频生成质量有所提升
DiT利用transformer 结构探索新的扩散模型,成功用tranformer替换U-Net主干
以上都是推理可能使用到的技术
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。