人工智能作画_doodle and sketch recognition

作者：Li_阴宅 | 2024-07-24 06:44:06

踩

doodle and sketch recognition

在近年来的 AI 领域，随着 NLP 和 CV 的日益融合，多模态学习越来越受到学界和业界的重视，其中文本生成图像更是成为现象级研究方向。输入一段语言描述，AI 即能输出对应的图像，兼具速度与质量。

在这股以文生图风潮中，AI 底蕴深厚的国外大厂纷纷推出多模态文生图模型，比如 DALL-E 2、 GauGAN2 和 Disco Diffusion 等。这些 AI 模型生成的图像都给人留下了深刻的印象，在逼真度、趣味性、风格等方面各有特点。

国内 AI 巨头在中文多模态特别是文生图这一赛道也颇有建树，尤以百度基于知识增强的文心跨模态大模型语义理解技术为代表，其中的跨模态生成大模型 ERNIE-ViLG 可以根据用户输入的语言描述自动创作不同风格（水彩、粉笔画、卡通、油画、蜡笔画、儿童画）的图像。前段时间，百度数字人度晓晓更是创作出了引发热议的「无界」系列画作，被专业美院教授评价为「已经达到了本科美术生的基本要求」。

文心 · 一格

Latent Diffusion


开源地址1：https://github.com/CompVis/stable-diffusion
开源地址2：https://github.com/CompVis/latent-diffusion

PI-REC

开源项目：https://github.com/youyuge34/PI-REC#jump_zh

Disco Diffusion

开源地址：https://github.com/alembics/disco-diffusion

DALLE


开源地址1：https://github.com/lucidrains/DALLE2-pytorch
开源地址2：https://github.com/openai/DALL-E
开源地址3：https://github.com/borisdayma/dalle-mini

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Li_阴宅/article/detail/873345