当前位置:   article > 正文

OmniParser

omniparse

统一图文解析模型:文字检测识别、视觉信息抽取和表格识别

本文提出了一种面向文字图像的统一解析框架,将OCR多个核心任务进行了形式上的统一,同时展现出对于其他OCR任务如层次化文字检测的泛化能力,对于开发OCR领域的统一大模型又近了一步。

本文简要介绍CVPR 2024录用论文“OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition”的主要工作。这篇文章提出了一个新的统一框架,将文字领域的核心任务(文字检测识别,关键信息抽取和表格识别)巧妙融合在一起,无需额外的任务相关的定制化模块设计。

一、研究背景

随着深度学习的快速发展,模型可用训练数据规模呈指数级上升,大规模语言模型[1]和多模态模型[2]的通用理解能力得到了巨大的提高,出现了一批能解决多种任务的统一模型[3-5]。

文字图像解析涉及到多种OCR领域核心技术,如文字检测识别,关键信息抽取和表格识别,尽管有部分模型[6-7]尝试仅通过一个模型覆盖多种文字解析任务,但它们通常依赖于外部预先得到的OCR结果或缺乏文字的精确定位能力。SPTS[8]尝试将文字检测识别通过一个序列完成,但由于文字形状复杂多变以及文字内容长短不一,使用一个序列包含这些信息将会导致序列长度过长,极大降低了模型的推理效率。

这篇文章首次提出文字图像的统一解析模型OmniParser,在一个框架内解决多个任务的同时提供了精确的文本位置,模型可解释性大幅提高。同时,OmniParser将OCR基础任务检测识别与结构化序列进行解耦,通过并行化处理检测识别大幅减少了推理时间。随着深度学习的快速发展,模型可用训练数据规模呈指数级上升,大规模语言模型[1]和多模态模型[2]的通用理解能力得到了巨大的提高,出现了一批能解决多种任务的统一模型[3-5]。

文字图像解析涉及到多种OCR领域核心技术,如文字检测识别,关键信息抽取和表格识别,尽管有部分模型[6-7]尝试仅通过一个模型覆盖多种文字解析任务,但它们通常依赖于外部预先得到的OCR结果或缺乏文字的精确定位能力。SPTS[8]尝试将文字检测识别通过一个序列完成,但由于文字形状复杂多变以及文字内容长短不一,使用一个序列包含这些信息将会导致序列长度过长,极大降低了模型的推理效率。

这篇文章首次提出文字图像的统一解析模型OmniParser,在一个框架内解决多个任务的同时提供了精确的文本位置,模型可解释性大幅提高。同时,OmniParser将OCR基础任务检测识别与结构化序列进行解耦,通过并行化处理检测识别大幅减少了推理时间。

图1 OmniParser多任务输入输出结构形式

二、方法原理简述

OmniParser整体框架如图2所示,模型主要包含图像编码器,结构化中心点序列解码器,检测框解码器以及文本内容解码器。首先,文字图像经过图像编码器得到预处理图像特征;其次,图像特征和任务提示符(用于区分不同任务,如<S_TR>、<S_KIE>、<S_TS>分别表示表格识别、关键信息抽取、文本识别。)一起输入结构化中心点序列解码器,得到任务相关的结构化序列,该结构化序列包含丰富的信息,如表格中的行列结构以及信息抽取中的实体类别;接着,将上一步得到的结构化中心点序列中的中心点和图像特征一起输入到检测框解码器和文本内容解码器,得到中心点对应的文本包围框以及文字识别内容;最后,根据解码后的文字包围框、文本内容以及结构化中心点序列得到最终的图像解析结果。文字包围框以及内容解码可以多个中心点并行处理,同时三个编码器的设计也进一步大幅降低了模型推理时间。

图2 OmniParser整体框架图

三、主要实验结果

作者主要在三个OCR核心任务上验证了OmniParser的先进性,在文字检测识别任务上,OmniParser不仅在常规文字数据集上达到了领先的效果,在曲形文字数据集以及文字行数据集上也超越了之前的方法。

表1 文字检测识别任务上方法效果对比

在关键信息抽取任务上,OmniParser可以同时得到实体的类别信息以及精确的位置信息,在CORD以及SROIE数据集上也取得了比之前方法更好的表现,值得注意的是多数端到端抽取方法无法提供精确的文本定位能力,这削弱了方法的可解释性,部分情况下会出现较为严重的幻觉问题。表3展示了OmniParser在表格识别任务上的性能对比,其不仅可以获得准确的表格结构,同时可以得到单元格的具体位置以及文本内容,通过一次前向处理端到端的得到最终的表格解析结果。

作者进一步探究了OmniParser在层次化文字检测任务[9]上的表现,如图3所示,从左至右分别为单词、文字行和段落级别的检测粒度,可以看到OmniParser可以准确的区分出不同层次的文字粒度信息,这仅需要针对该任务将结构化中心点序列进行相应的改造适配,模型其他部分并不需要过多改动,即可实现对新任务的高效迁移。     whaosoft aiot http://143ai.com

图3 OmniParser在层次化文字检测任务上的部分可视化结果

四、未来展望

本文提出了一种面向文字图像的统一解析框架,将OCR多个核心任务进行了形式上的统一,同时展现出对于其他OCR任务如层次化文字检测的泛化能力,对于开发OCR领域的统一大模型又近了一步,未来考虑将解码器替换为更加先进的大规模语言模型,实现更通用的文本理解能力。

五、相关资源

论文链接:https://arxiv.org/abs/2403.19128

代码:https://github.com/AlibabaResearch/AdvancedLiterateMachinery

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/码创造者/article/detail/865276
推荐阅读
相关标签
  

闽ICP备14008679号