赞
踩
GPT-4V与专用OCR模型的性能不匹配
。具体来说,GPT-4V在拉丁语内容方面表现优异,但在处理其他语言时遇到限制。此外,GPT-4V在HMER, TSR和VIE等复杂场景下的任务中挣扎。我们专注于词级文本识别和端到端文本识别。对于词级文本识别,我们使用了英语中的CUTE80、SCUT-CTW1500、Total-Text、WordArt和中文中的ReCTS。我们从上面的每个数据集中随机选择50张图像进行评估。数据集从[GitHub - Yuliang-Liu/MultimodalOCR: On the Hidden Mystery of OCR in Large Multimodal Models (OCRBench)]下载。
说明字级场景文本识别。在GPT-4V的答案中,我们将与GT匹配的字符用绿色突出,不匹配的字符用红色突出。GPT-4V可以识别曲线型、斜体、艺术型的英文文本,而不能识别普通字体的中文文本。
CUTE80包含80张专门用于评估弯曲文本的图像。
SCUT-CTW1500是一个包含1500张图像的综合曲线文本数据集。
Total-Text有1555个场景图像,这些图像是用曲线文本收集的。
WordArt由6316个艺术文本图像组成,主要以具有挑战性的艺术文本为特色。
ReCTS是一个包含25000张图片的大型数据集,主要用于标识牌中文文本的读取。
在端到端文本识别任务中,我们使用MLT19来评估GPT-4V的多语言能力。对于每种语言,我们从训练集中随机选择20张图像。此外,为了研究图像分辨率对识别结果的影响,我们从上述子集中选择了20张英文图像,并将它们的长边分别调整为128、256、512、1024和2048像素。
对于单词级的英语文本识别,我们使用以下提示:“图像中的场景文本是什么?”,而对于中文的ReCTS,我们将提示翻译成中文,得到:“图片中的场景文字是什么?”端到端文本识别的提示是:“图像中的所有场景文本是什么?不要翻译。”
为了评价词级识别,我们采用忽略大小写和符号的词精度(WAICS)作为度量。在端到端文本识别任务中,GPT-4V 和 ground truth (GT) 的预测被空格分割,然后使用准确率和召回率进行评估。准确率表示正确识别的单词与GPT-4V生成的单词的比率,召回率是正确识别的单词与GT单词总数的比率。我们还计算 F 1 F_1 F1 分数如下。
结果与分析结果分别如表1、表2、表3所示。我们在后文图中可视化了一些示例。根据研究结果,我们得出以下结论:
(1)对中英文文本的识别准确率存在较大差异。如下表所示,英文文本识别的性能是值得称道的。相反,中文文本识别的准确率为零(ReCTS)。我们推测这可能是由于GPT-4V中缺乏中文场景文本图像作为训练数据。
词级场景文本识别结果。CUTE80和WordArt的SOTA分别由[Revisiting scene text recognition: A data perspective]和[Looking and listening: Audio guided text recognition.]实现。[Reading and writing: Discriminative and generative modeling for self-supervised text recognition]报道了SCUT-CTW1500和Total-Text的SOTA。ReCTS的SOTA可以在[Stanford Alpaca: An instruction-following LLaMA model]中找到。
(2) GPT-4V对拉丁字符的识别能力较强,优于其他语言。如下表所示,可以观察到,与非拉丁字母语言相比,GPT-4V在英语、法语、德语和意大利语中的表现明显更好。这表明GPT-4V的多语言OCR功能存在明显的局限性。
(3) GPT-4V支持不同分辨率的输入图像。如下表所示,输入图像分辨率与识别性能呈正相关关系。这表明,与以前的lmm将图像调整为固定大小不同,GPT-4V支持可变分辨率的输入图像。同时,我们假设GPT-4V的图像编码器采用固定的patch大小,因此增加输入图像的分辨率会导致更长的序列,这有助于模型捕获更多的信息。
为了评估GPT-4V在手写文本识别方面的能力,我们使用了两个常用的手写数据集:IAM](英文)和CASIA-HWDB(中文)。我们从IAM和CASIA-HWDB的每个测试集中随机抽取50页和50个文本行进行评估。
提示词:对于IAM,我们使用提示:“Recognize the text in the image.”作为输入。CASIA-HWDB,我们使用中国提示“请直接告诉我,图片中的文字都是什么?,意思是“Please tell me directly, what are all the text in the image?”
手写英语文本的评估有两个指标:单词错误率(Word Error Rate, WER)和字符错误率(Character Error Rate, CER)。为了评估手写中文文本的性能,我们使用 AR 和 CR 指标。
(1)英文和中文手写文本也存在显著的性能差距。这一现象与2.1节的研究结果一致,共同表明 GPT-4V 在英文文本识别方面表现良好,但在中文文本识别方面面临显著挑战。
(2) GPT-4V在中文文本识别中表现出显著的幻觉。如上图 ©和(d)所示,GPT-4V生成的响应在语法和语义上都表现出高度的流畅性。然而,它们实质上偏离了(GT) 的文本内容,似乎以一种看似认真的方式产生了无意义的信息。
手写文本识别的插图。(a)、(b)、©、(d)分别是页级IAM、行级IAM、页级CASIA-HWDB和行级CASIA-HWDB的示例。在 GPT-4V 的响应中,我们用绿色突出显示与GT匹配的字符,用红色突出显示不匹配的字符。对于英文文本,GPT-4V表现出色。相比之下,对于中文文本,GPT-4V生成了一段语义连贯的文本,但它不与文本(GT)相关联。
CASIA-HWDB结果。页面级CASIA-HWDB在AR和CR指标中的SOTA分别由[Writer-aware CNN for parsimonious HMM-based offline handwritten Chinese text recognition]和[High performance offline handwritten Chinese text recognition with a new data preprocessing and augmentation pipeline]实现。而线级SOTA是通过[Recognition of handwritten Chinese text by segmentation: a segment-annotation-free approach]实现的。
在本任务中,我们使用了两个具有代表性的数据集:CROHME2014和HME100K。我们从这两个数据集的每个测试集中随机选择50张图像进行评估。
提示词:在这个任务中,我们使用“This is an image of a handwritten mathematical expression. Please recognize the expression above as LaTeX”。
我们采用的指标包括表达水平的正确率,最多有一到三个错误。
结果与分析结果如下表所示。通过对失败案例的分析,我们得出以下结论。
(1) GPT-4V在处理摄像头捕捉和字迹不佳的场景时似乎受到限制。如上表所示,与CROHME2014相比,HEM100K(具有相机捕获的图像和较差的笔迹)的性能显著下降。如下图所示,(a)和©是来自CROHME2014的示例,(b)和(d)是来自HEM100K的示例,GPT-4V在前者上表现良好,而在后者上表现较差。
(2) GPT-4V在细粒度字符识别方面存在一定的挑战。在失败的案例中,我们观察到 GPT-4V 偶尔会遗漏小规模字符。下图 (e)和(f)中显示了两个示例。对于这两个例子,GPT-4V分别省略了一个上标和一个下标。这一发现与Liu等人对其他多模态模型的评估结果一致,表明GPT-4V也可能存在某些细粒度的感知问题。
手写数学表达式识别的插图。在每个示例中,左侧显示输入图像,而右侧显示GPT-4V从LaTeX序列输出呈现的图像。在GPT-4V的答案中,我们用绿色标出与GT匹配的元素,用红色标出与GT不匹配的元素。红色的符号 _ 表示输出中缺少的元素。
我们用于这项任务的数据集包括SciTSR和WTW。我们从SciTSR和WTW的每个测试集中随机选择50个表进行评估。接下来[TSRFormer: Table structure recognition with transformers],我们从原始图像中裁剪表格区域进行评估。
对于SciTSR和WTW,我们都使用提示符“Please read the table in this image and return a html-style reconstructed table in text, do not omit anything”作为输入。
为了评估GPT-4V在表结构识别中的性能,我们使用了TEDS- s指标,这是基于树编辑距离的相似性(TEDS)的一种变体,它不考虑单元格的文本内容,只评估表结构预测的准确性。结果与分析结果如下表所示。基于这些结果,我们得到了两个重要的发现:
(1) GPT-4V难以处理复杂的表。GPT-4V在处理具有结构化布局和一致文本分布的表时表现出出色的性能,如下图(a)。然而,当处理其他类型的表时,包括那些具有大量空单元格、不均匀文本分布、倾斜、旋转或密集排列的表,其性能明显下降。
(2) GPT-4V在处理长表时存在内容遗漏问题。尽管在提示中强调了“不要省略任何东西”的要求,但我们仍然在回复中观察到一些内容省略的情况,特别是在一个大表的情况下。一个典型的例子如下图 (e)所示,表图像图 ©包含许多行,但GPT-4V只重建其中的三行。
表结构识别的说明。(a)、©为两张输入图像,(b)、(d)为GPT-4V的html样式输出序列对应的可视化图像。(e)为©的输出序列,其中GPT-4V表示省略内容的元素以红色突出显示。
我们在fundd和XFUND中文子集(XFUND-zh)上评估GPT-4V。
我们在语义实体识别(SER)和端到端对抽取任务上对GPT-4V进行了评估。SER任务要求模型识别每个文本段的类别,这些文本段在fundd和XFUND中预定义为标题、问题、答案等。端到端对提取任务要求模型提取给定文档图像中的所有键值对。我们使用完整的测试集(fundd和XFUND-zh都包含50个样本)进行性能评估
对于fundd,我们使用以下提示符进行SER:【Please read the text in this image and return the information in the following JSON format (note xxx is placeholder, if the information is not available in the image, put “N/A” instead). “header”: [xxx, …], “key”: [xxx, …], “value”: [xxx, …]】。需要强调的是,我们将“问题”和“答案”的官方实体类型重新定义为“键”和“值”,以保持与Pair提取任务的一致性。对于端到端的Pair提取,我们使用以下提示符:【You are a document understanding AI, who reads the contents in the given document image and tells the information that the user needs. Respond with the original content in the document image, do not reformat. No extra explanation is needed. Extract all the key-value pairs from the document image.】
对于SER任务,我们采用实体级 F 1 F_1 F1分数进行性能评估。此外,与其他端到端 VIE 方法一样,也计算归一化编辑距离(NED)。然而,由于 GPT-4V 为实体生成精确边界框的能力的限制,我们使用最小编辑距离原则将预测与 GT 对齐。SER和Pair Extraction的结果分别见8和9。我们发现:
SER任务的错误情况说明。红色框内的文本内容被错误地标识为标题实体。
在fundd数据集中对完整文档图像进行实体预测的说明。由于GPT-4V识别汉字的能力有限,我们在此上下文中从XFUND-zh数据集中排除了示例。放大查看最佳评论。
配对抽取任务的错误案例说明。红色框内的文本内容被错误地标识为实体对。
专门化模型在OCR领域还有研究价值吗?GPT-4V有三个主要缺点。(1)从第2节的实验结果来看,GPT-4V的OCR能力仅限于拉丁文内容,难以应对多语种复杂场景。(2)推理成本和延迟都非常高,在一些实际场景中存在可用性挑战。(3)更新周期长,过程复杂,小问题难以及时解决。考虑到上述缺点和其他一些lmm有限的OCR能力[On the hidden mystery of OCR in large multimodal models],我们认为现有的lmm很难同时在各种OCR任务中表现出色。因此,我们认为,在OCR领域的专业模型继续具有重要的研究价值。
我们如何才能充分利用像GPT-4V这样的lmm在OCR领域的潜力?这些是一些可能的策略。(1)语义理解增强:lmm的一个显著特点是经过大规模数据的大量训练,其语义能力突出。由于语义理解是文档理解和一些相关任务的关键因素,因此利用lmm的语义潜力可以大大提高这些任务的性能。(2)下游任务微调:另一种充分利用lmm先验知识的方法是微调,特别是在数据有限的情况下。微调允许模型适应特定的任务或领域,从而提高性能。(3)自动/半自动数据构建:使用LMMs进行自动/半自动数据标注和生成,将大大降低人工标注的成本,是解决数据获取困难的有效策略。
多语言和复杂场景中表现出明显的困难
。此外,高推断成本和持续更新带来的挑战对GPT-4V的实际部署构成了重大障碍。因此,我们认为,在OCR领域的专业模型继续具有重要的研究价值。尽管存在这些限制,GPT-4V和其他现有的通用lmm仍然可以在几个方面为OCR领域的发展做出重大贡献。这将包括增强语义理解、对下游任务进行微调,以及促进自动/半自动数据构建。Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。