赞
踩
在近年来的 AI 领域,随着 NLP 和 CV 的日益融合,多模态学习越来越受到学界和业界的重视,其中文本生成图像更是成为现象级研究方向。输入一段语言描述,AI 即能输出对应的图像,兼具速度与质量。
在这股以文生图风潮中,AI 底蕴深厚的国外大厂纷纷推出多模态文生图模型,比如 DALL-E 2、 GauGAN2 和 Disco Diffusion 等。这些 AI 模型生成的图像都给人留下了深刻的印象,在逼真度、趣味性、风格等方面各有特点。
国内 AI 巨头在中文多模态特别是文生图这一赛道也颇有建树,尤以百度基于知识增强的文心跨模态大模型语义理解技术为代表,其中的跨模态生成大模型 ERNIE-ViLG 可以根据用户输入的语言描述自动创作不同风格(水彩、粉笔画、卡通、油画、蜡笔画、儿童画)的图像。前段时间,百度数字人度晓晓更是创作出了引发热议的「无界」系列画作,被专业美院教授评价为「已经达到了本科美术生的基本要求」。
Latent Diffusion
- 开源地址1:https://github.com/CompVis/stable-diffusion
- 开源地址2:https://github.com/CompVis/latent-diffusion
PI-REC
开源项目:https://github.com/youyuge34/PI-REC#jump_zh
Disco Diffusion
开源地址:https://github.com/alembics/disco-diffusion
DALLE
- 开源地址1:https://github.com/lucidrains/DALLE2-pytorch
- 开源地址2:https://github.com/openai/DALL-E
- 开源地址3:https://github.com/borisdayma/dalle-mini
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。