赞
踩
文字擦除领域其实和图像修复差不多,erasenet中有一段讲述两者区别的描述。
传统的文字擦除输入的image,gt和mask,将文字定位包含到文字擦除任务中是不大合理的,像做水印擦除的思路,一般是先检测出水印的位置,再去做文字擦除,当然不直接做文字检测,用生成出来的样本做文字擦除也可以,此外文字擦除和图像修复比较类似,其实本质也是一个图像修复的任务,是想获取生成之后去掉了文字的图,背景是要恢复的,从这个角度出发,是肯定需要image和去掉了文字的gt,这里去掉了文字的gt是比较难获取的,一般要通过ps去操作,而通常合成的这种数据,尤其是随机合成的这种数据某种程度上还是有缺陷的,合成数据也需要输入一张纯净图以及对应要输入的文字。
1.self-supervised text erasing with controllable image synthesis,阿里的自监督的文字擦除,输入是未经过文字ps的原图以及对应文字位置的mask,这个其实很难,因为只给了对应文字的位置,其实没给去掉文字应该恢复回来的背景,即真正的gt。
2.Erasenet: end-to-end text removal in the wild,金连文的这篇输入是原图以及对应的经过ps的gt以及文字位置的mask,文字位置的mask是用来做文字擦除位置感知loss的gt的。
类似这块领域,比如超分,修复,擦除等,原本就是unet结构,后面l1/l2损失监督一下,输入低情图和高清图即可,目前主要就是将gan技术引入,gan技术的引进,就是将原本unet的encode-decode结构放在生成器中,生成器的输入也不再是噪声,而是低清图,相当于latent空间更加约束了,原本生成器后面接一下l1/l2就可以了,现在引入gan,就是生成的图和真实图对抗一波,用判别器来衡量一下两个分布的距离,越近越好,因此从这个角度出发,所以基于生成的方法都可以用来做类似的问题。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。