赞
踩
文字图像生成是什么?
“文字图像生成(Text-image generation)”即生成带有指定文字的图像。如下图所示,市面常见的通用文生图很难准确地生成带有指定文字的图像。文字图像生成也被称为文本渲染(Text rendering)。
为什么重要?
在图像生成中进行文本渲染至关重要,因为文本在海报、书籍封面和表情包等各种视觉形式等广泛应用
[
1
]
^{[1]}
[1],这也对 AIGC 在时尚、包装、平面、logo、字体、产品等众多设计领域的真正落地至关重要。
相关研究分类
参考排版研究论文合集(Typography Research Collection)
[
2
]
^{[2]}
[2] ,相关研究可分为视觉文字生成与编辑(Visual Text Generation and Editing)和字体风格迁移与字形生成(Font Stye Transfer and Glyph Generation)两类:
第一类的输出结果是带有文字的图像,图中带有文字,文字不一定是主体。并且,输出结果大多为 .png/.jpg 等格式的位图/栅格图像(raster image)。(如文章第一张图)
第二类的输出结果是纯文字的图像,或者各类创意字体,文字就是主体。并且,输出结果大多为.svg 格式的矢量图(vector image)或位图。(如下图)
本文的目标
从开源仓库
[
1
,
2
]
^{[1,2]}
[1,2]中筛选出近两年,附带有开源代码的工作,并概述工作的整体方法和开源代码所包含的大概内容(如是否含有训好的模型权重、是否有训练代码、数据集是否可用等)。
避免篇幅过长,分上下两篇。上篇介绍“字体风格迁移与字形生成”(图像主体为字),下篇则介绍“视觉文字生成与编辑”(图像主体不一定是字)。
论文题目:DeepVecFont-v2: Exploiting Transformers to Synthesize Vector Fonts with Higher Quality(发表于 CVPR 2023)
背景:矢量字体合成在计算机视觉和计算机图形领域是一个具有挑战性且持续存在的问题。最近提出的 DeepVecFont [ 3 ] ^{[3]} [3] 通过利用矢量字体的图像和序列模态的信息,实现了最佳效果。然而,它对于处理长序列数据的能力有限,并且在图像引导的轮廓细化后处理方面依赖性较强。因此,由 DeepVecFont 合成的矢量字形通常仍然会包含一些失真和瑕疵,并且无法与人类设计的结果相匹敌。
方法概述:为解决上述问题,DeepVecFont-v2
代码仓库:https://github.com/yizhiwang96/deepvecfont-v2
个人总结:一方面模型并没有用上预训练的 diffusion 模型,另一方面也可能由于矢量图的训练数据较少,所以模型能够输出的字体有限,形状变化并不是很多样。
论文题目:Word-As-Image for Semantic Typography(发表于 SIGGRAPH 2023 - Honorable Mention Award)
背景:单词即图像(Word-As-Image)是一种语义排版技术,其中单词的插图呈现了单词的含义的可视化,同时保持其可读性。输出的也是矢量图格式。
方法概述:
python code/main.py --semantic_concept "BUNNY" --optimized_letter "Y" --font "KaushanScript-Regular" --seed 0
即只针对 BUNNY 单词中的 Y 进行字体艺术变形。Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。