赞
踩
“文字图像生成(Text-image generation)”即生成带有指定文字的图像。如下图所示,市面常见的通用文生图很难准确地生成带有指定文字的图像。文字图像生成也被称为文本渲染(Text rendering)。
参考排版研究论文合集(Typography Research Collection)
[
1
]
^{[1]}
[1] 和文本图像的 Diffusion 论文合集
[
2
]
^{[2]}
[2],相关研究可分为视觉文字生成与编辑(Visual Text Generation and Editing)和字体风格迁移与字形生成(Font Stye Transfer and Glyph Generation)两类:
第一类的输出结果是带有文字的图像,图中带有文字,文字不一定是主体。并且,输出结果大多为 .png/.jpg 等格式的位图/栅格图像(raster image)。(如文章第一张图)
第二类的输出结果是纯文字的图像,或者各类创意字体,文字就是主体。并且,输出结果大多为.svg 格式的矢量图(vector image)或位图。(如下图)
上篇中介绍了纯文字(字体、文字作为主体)的最新研究,本篇则介绍生成文字图像(文字是图像中的一部分)的最新工作,均是带有开源代码的工作。(上篇指路:https://blog.csdn.net/weixin_44212848/article/details/137567675?spm=1001.2014.3001.5502)
整体流程:
部分实验结果:
注意看该方法(Ours 那列)能够很好地区分字母的大小写。
论文题目:UDiffText: A Unified Framework for High-quality Text Synthesis in Arbitrary Images via Character-aware Diffusion Models
该方法可实现(a)文字编辑,(b)特定位置文字生成,(c)文字矫正。
背景:近年来,基于扩散模型的文生图(T2I)生成方法引起了广泛关注。尽管这些图像合成方法产生了视觉上吸引人的结果,但在生成图像中呈现文本时,它们经常会出现拼写错误。这些错误表现为缺失、错误或多余的字符,严重影响了基于扩散模型的文本图像生成性能。
方法概述:为了解决上述问题,本文利用了一个预训练的 Stable Diffusion。
整体训练流程:
更多对比结果
TextDiffuser 可以生成准确的文字,并根据模版或特定区域进行文字的 inpainting。
TextDiffuser-2 则可以生成更加合理的布局,并使得文字在图像中更加和谐/合理。
两个工作是同一团队的延续性工作,TextDiffuser-2 延续了 TextDiffuser 的两阶段方法(先得到文字的 layout/布局,再根据 layout 信息生成文字),但引入了 LLM 辅助 layout 的生成。
TextDiffuser-2 的整体架构:
更多 TextDiffuser-2 的结果可以看出可控性和文字细节都很不错。
该方法主要针对场景图(如街景、路牌等),并支持多个语种的文字
整体流程:
更多实验结果
方法概述:为了解决该问题,作者提出了 AnyText,一个基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中渲染准确和连贯的文本,其包含两个主要元素:一个辅助潜在模块(Auxiliary latent module)和一个文本嵌入模块(Text embeding module)。如下图所示。
辅助潜在模块 (蓝色虚线框)使用文本字形(Glyph)、位置(Position)和遮罩图像(Masked image)等输入生成文本生成或编辑的潜在特征。
文本嵌入模块(绿色虚线框)利用 OCR 模型(Encoder)将笔画数据(Glyph lines)编码为嵌入,与经过分词器(Tokenizer)处理的提示词(Prompt)嵌入相结合,生成与背景无缝融合的文本。
作者采用了文本控制扩散损失( L t d L_{td} Ltd)和文本感知损失(棕色虚线框)进行训练,进一步提高了书写准确性,并可以用多种语言编写字符。
值得一提的是,AnyText 可以插入到社区中现有的扩散模型中。
此外,作者贡献了首个大规模多语言文本图像数据集 AnyWord-3M,其中包含300万个图像-文本对,具有多种语言的OCR注释。基于AnyWord-3M数据集,作者提出了用于评估视觉文本生成准确性和质量的 AnyText-benchmark。
更多实验结果如下:
[1] https://github.com/IShengFang/TypographyResearchCollection
[2] https://github.com/yeungchenwa/Recommendations-Diffusion-Text-Image
[3] https://github.com/google-research/byt5
[4] https://github.com/PaddlePaddle/PaddleOCR
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。