当前位置:   article > 正文

【带文字的图像生成-附开源代码】AIGC 如何在图像中准确生成文字?字体篇(上)_deepvecfont-v2: exploiting transformers to synthes

deepvecfont-v2: exploiting transformers to synthesize vector fonts with high
  1. 文字图像生成是什么?
    “文字图像生成(Text-image generation)”即生成带有指定文字的图像。如下图所示,市面常见的通用文生图很难准确地生成带有指定文字的图像。文字图像生成也被称为文本渲染(Text rendering)。
    上图源于论文《TextDiffuser: Diffusion Models as Text Painters》(NeurlPS 2023)

  2. 为什么重要?
    在图像生成中进行文本渲染至关重要,因为文本在海报、书籍封面和表情包等各种视觉形式等广泛应用 [ 1 ] ^{[1]} [1],这也对 AIGC 在时尚、包装、平面、logo、字体、产品等众多设计领域的真正落地至关重要。

  3. 相关研究分类
    参考排版研究论文合集(Typography Research Collection) [ 2 ] ^{[2]} [2] ,相关研究可分为视觉文字生成与编辑(Visual Text Generation and Editing)和字体风格迁移与字形生成(Font Stye Transfer and Glyph Generation)两类:

    • 第一类的输出结果是带有文字的图像,图中带有文字,文字不一定是主体。并且,输出结果大多为 .png/.jpg 等格式的位图/栅格图像(raster image)。(如文章第一张图)

    • 第二类的输出结果是纯文字的图像,或者各类创意字体,文字就是主体。并且,输出结果大多为.svg 格式的矢量图(vector image)或位图。(如下图)上图源于论文《DS-Fusion: Artistic Typography via Discriminated and Stylized Diffusion》(ICCV 2023)

  4. 本文的目标
    从开源仓库 [ 1 , 2 ] ^{[1,2]} [1,2]中筛选出近两年,附带有开源代码的工作,并概述工作的整体方法和开源代码所包含的大概内容(如是否含有训好的模型权重、是否有训练代码、数据集是否可用等)。
    避免篇幅过长,分上下两篇。上篇介绍“字体风格迁移与字形生成”(图像主体为字),下篇则介绍“视觉文字生成与编辑”(图像主体不一定是字)。

DeepVecFont-v2

  • 论文题目:DeepVecFont-v2: Exploiting Transformers to Synthesize Vector Fonts with Higher Quality(发表于 CVPR 2023)
    作者以及机构

  • 背景:矢量字体合成在计算机视觉和计算机图形领域是一个具有挑战性且持续存在的问题。最近提出的 DeepVecFont [ 3 ] ^{[3]} [3] 通过利用矢量字体的图像和序列模态的信息,实现了最佳效果。然而,它对于处理长序列数据的能力有限,并且在图像引导的轮廓细化后处理方面依赖性较强。因此,由 DeepVecFont 合成的矢量字形通常仍然会包含一些失真和瑕疵,并且无法与人类设计的结果相匹敌。

  • 方法概述:为解决上述问题,DeepVecFont-v2

    • 首先,采用Transformer而不是RNN来处理序列数据,并设计了一种放松(relaxation)表示来表示矢量轮廓,显著提高了模型合成长而复杂轮廓的能力和稳定性。
    • 其次,提出除了控制点外还采样辅助点,以精确对齐生成和目标贝塞尔曲线或线条。
    • 最后,为了减轻序列生成过程中的误差累积,作者开发了基于另一个基于Transformer的解码器的基于上下文的自我细化模块,以消除最初合成的字形中的瑕疵。

DeepVecFont-v2的整体流程

  • 整体框架:
    输入是参考字形,既包括栅格图像(Input images)又包括矢量轮廓(Input glyphs)。
    ( a ) 基于 Transformer 和 CNN 的双分支架构,旨在合成目标矢量字形。
    ( b ) 自我细化模块,旨在消除最初合成的矢量字形中的瑕疵。
    ( c ) 除了控制点外,采样辅助点通过贝塞尔曲线对齐损失将合成的字形与相应目标对齐。

部分结果

  • 代码仓库:https://github.com/yizhiwang96/deepvecfont-v2

    • 包含Trained Checkpoints, 训练和测试集。
    • 但需注意由于数据来源于方正字库,所以未经方正字库许可,不能用于任何商业用途。
  • 个人总结:一方面模型并没有用上预训练的 diffusion 模型,另一方面也可能由于矢量图的训练数据较少,所以模型能够输出的字体有限,形状变化并不是很多样。

Word-As-Image

  • 论文题目:Word-As-Image for Semantic Typography(发表于 SIGGRAPH 2023 - Honorable Mention Award)
    作者以及机构

  • 背景:单词即图像(Word-As-Image)是一种语义排版技术,其中单词的插图呈现了单词的含义的可视化,同时保持其可读性。输出的也是矢量图格式。
    论文的示例结果

  • 方法概述:

    • 作者提出了一种自动创建单词作为图像插图的方法。这项任务非常具有挑战性,因为它需要对单词的语义有深刻理解,并且需要在视觉上以一种令人愉悦和易读的方式创造性地描绘这些语义。
    • 作者基于最近的大型预训练语言-视觉模型(CLIP)的显著能力,以视觉方式提炼文本概念。研究的目标是简单、简洁、黑白设计,清晰传达语义。作者有意不改变字母的颜色或质地,也不使用装饰。
    • 该方法优化每个字母的轮廓以传达所需的概念,由预训练的 Stable Diffusion 模型引导。并加入了额外的损失项,以确保文本的可读性和字体风格的保留。

Word-As-Image的整体流程

  • 整体框架:
    • 给定输入是由一组控制点 P P P 表示的字母 l i l_{i} li(上图的原始 S 字型), 以及一个概念(显示为紫色高亮的 Surfing [冲浪]),然后迭代地优化变形字母 l i ^ \hat{l_{i}} li^(下图的 S 字型的冲浪人) 的新位置 P ^ \hat{P} P^。在每次迭代中,将集合 P ^ \hat{P} P^ 输入到可微分光栅化器(DiffVG [ 4 ] ^{[4]} [4] 标记为蓝色),该光栅化器输出光栅化的变形字母 l i ^ \hat{l_{i}} li^
    • 然后,将 l i ^ \hat{l_{i}} li^ 通过预训练的冻结 Stable Diffusion 进行增强,并使用 ∇ P ^ L LSDS ∇_{\hat{P}}\mathcal{L}_\text{LSDS} P^LLSDS 损失(1)驱动字母形状传达语义概念。
    • l i l_{i} li l i ^ \hat{l_{i}} li^ 还通过低通滤波器(LPF 标记为黄色)进行处理,以计算 L tone \mathcal{L}_\text{tone} Ltone(2),这鼓励保留字体风格的整体色调以及局部字母形状。
    • 此外,将 P P P P ^ \hat{P} P^ 通过 Delaunay 三角剖分运算符(D 标记为绿色)传递,定义 L acap \mathcal{L}_\text{acap} Lacap(3),这鼓励保留初始形状。

论文中的部分展示效果

  • 代码仓库:https://github.com/Shiriluz/Word-As-Image
    • 主要基于 diffusers 包中的 stable diffusion,以及 diffvg [ 4 ] ^{[4]} [4] 和 Live [ 5 ] ^{[5]} [5] 两个开源项目。
    • 全文并没有提及模型训练,估计是 training-free/ inference-only 的方法,所以也没有给出训练数据和训练代码。
  • 个人总结:(1)不确定复现出的真实效果,感觉实际的效果可能需要手工调整参数,并且一般只能针对某个特定的字母进行变形。(2)可能也受限于矢量图的数据集较小,没有探索更丰富的彩色创意字体。
    • 代码仓库中的例子:python code/main.py --semantic_concept "BUNNY" --optimized_letter "Y" --font "KaushanScript-Regular" --seed 0 即只针对 BUNNY 单词中的 Y 进行字体艺术变形。
    • 代码仓库中有提到如果结果不符合期望,可以尝试:
      1. 调整 L acap \mathcal{L}_\text{acap} Lacap 损失的权重
        声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/592338
推荐阅读
相关标签