文生图、文生视频领域PaperList [持续更新]

作者：运维做开发 | 2024-07-25 08:54:19

踩

AutoEncoder 【自编码器】 : https://arxiv.org/abs/2003.05991
VAE 【变分自编码器，Diffusion Model的源头】: https://arxiv.org/abs/1906.02691
非均衡热动力学深度无监督学习【Diffusion的理论基础】: https://arxiv.org/abs/1503.03585
DDPM 【第一篇将Diffusion成功应用于图像生成的论文】: https://arxiv.org/abs/2006.11239
DDIM【DDPM之改进和加速】: https://arxiv.org/abs/2010.02502
恺明大神对扩散模型的解剖式分析: https://arxiv.org/abs/2401.14404
DiT【据说是SORA和SD3的基础架构】：https://arxiv.org/abs/2212.09748
CLIP 【文生图的基础，文图统一embedding】: https://arxiv.org/abs/2103.00020
ControlNet 【基于SD进行风格控制】: https://arxiv.org/abs/2302.05543
LoRA 【轻量级插件头以实现形象保持】: https://arxiv.org/abs/2106.09685
Dreambooth 【主体保持】: https://arxiv.org/abs/2208.12242
Stable Diffusion 【最好的开源文生图】: https://arxiv.org/abs/2112.10752
SDXL 【SD的改进】: https://arxiv.org/abs/2307.01952
SORA 技术报告: https://openai.com/research/video-generation-models-as-world-simulators
SD3【报告尚未出，但宣称用了DiT和Flow Matching】： https://stability.ai/news/stable-diffusion-3
DALL·E【OpenAI出品】: v1: https://arxiv.org/abs/2102.12092, v2: https://cdn.openai.com/papers/dall-e-2.pdf, v3: https://cdn.openai.com/papers/dall-e-3.pdf
SAM 【经典的分割一切模型】: https://github.com/facebookresearch/segment-anything?tab=readme-ov-file
SVD 【Stability.AI 出品的视频生成】: https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets
V-JEPA 【Meta出品文生视频】： https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】