当前位置:   article > 正文

重磅!UltraPixel:革新超高分辨率图像生成技术!开源了!

ultrapixel

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer111,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

5ac8e4ba8c2493c3d7bec53ed2accf38.png

65ccafcb4e8af1bb0f8c596bc8816d96.png

主页:https://jingjingrenabc.github.io/ultrapixel/

代码:https://github.com/catcathh/ultrapixel

论文:https://arxiv.org/abs/2407.02158

UltraPixel,全新的高分辨率图像生成方法,支持从1K到6K任意分辨率的图像生成,效果媲美 MidJourney 和 DALL·E 3,“遥遥领先”!

在社交媒体上获得广泛赞誉,Stability AI创始人Emad也在Twitter上热情转发。

ac0a5de0cbf48e6489f2f8aed63595ed.png

197bced9b7ebf4eea6a45fbe183f7ed7.png

背景与挑战

现有的文生图(T2I)模型如 Imagen、SDXL 和 PixArt,在生成1024×1024分辨率图像时表现优异,但在高分辨率图像生成方面却面临诸多挑战:细节丢失、小物体重复、推理时间长、参数调整繁琐等。为了满足人们对4K或8K高分辨率图像生成的需求,迫切需要一个高质量的文生图模型。

核心贡献

f7aebbf8113401ddedb4e6b76c7dc90c.png

UltraPixel拥有以下卓越特性:

• 高效率:训练效率极高,仅需8卡即可完成训练;推理速度显著提升,生成4K图像仅需30秒,比 Pixart-Σ 快3.6倍,比 DemoFusion 快9.3倍。

• 高质量:视觉效果远超业界开源模型,媲美闭源商业产品MidJourney V6和 DALL·E 3。

• 高灵活性:支持从1K到6K的任意分辨率图像生成。

3718ae555befe34ebae28cdb89536f2a.png

UltraPixel通过高压缩比和分辨率鲁棒的自解码器,确保高分辨率图像的生成的质量和效率。基于用户提供的文本信息,模型在1:42的隐空间内生成小分辨率图像特征,利用这些丰富的语义信息指导大分辨率图像特征的生成,再通过级联解码器生成高清图像。凭借隐式表达和分辨率自适应模块,UltraPixel支持生成任意分辨率的高清图像。

实验结果

6765299da1a71ef4bbe5726bf708eb09.png

52e84edb0bf4e14e153058e160d174c8.png

UltraPixel生成的图像质量媲美MidJourney V6和DALL·E 3等闭源商业产品

0dd660238f7e8282c5a9ca698f7cc49f.png

UltraPixel生成图像的视觉效果显著优于现有开源模型

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
  1. 扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
  2. 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
  1. ▲扫码或加微信号: CVer111,进交流群
  2. CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!
  3. ▲扫码加入星球学习
 
 
  1. ▲点击上方卡片,关注CVer公众号
  2. 整理不易,请赞和在看
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/1018851
推荐阅读
  

闽ICP备14008679号