当前位置:   article > 正文

PP-ChatOCRv2赋能期刊出版,打造千家杂志社数字阅读新体验

pp-chatocrv2

81299d2c2e34aa5602976d0f33c2a22d.gif

在数字化阅读与期刊发行的交汇点上,杂志铺(http://www.zazhipu.com)以其庞大的在线订阅平台和卓越的期刊发行服务,已与3000多家杂志社建立合作,提供7000多种杂志,持续为500多万读者提供阅读资源。

目前,杂志铺已经在线上、线下多渠道布局,并通过自有平台、App、官网以及各大电商平台、旗舰店等方式广泛触达读者。但在各类杂志内容深度理解和知识拓展方面,仍存在巨大的提升空间。尤其在AI技术迅猛发展的今天,如何帮助上千家杂志社快速应用AI技术,优化期刊的阅读助读和知识拓展功能,并通过智能化手段提升读者的阅读体验,帮助读者更好地理解和吸收知识,成为了杂志铺等一众期刊发行服务企业新的挑战与机遇。构建一个SaaS系统,旨在帮助几千家杂志社快速应用AI技术,优化期刊的阅读助读和知识拓展功能,是杂志铺当前的首要工作。

该系统基于飞桨,探索利用OCR技术帮助用户识别和扫描内容,逐步实现了文章解读、作文批改、图片识别等多元化功能,这不仅极大丰富读者的阅读体验,还有效提升了知识的传播效率和广度。

a93751cb8fd31db0e091426765d98414.png

场景难点

通过拍照或扫描杂志内页,恢复复杂版面的阅读顺序,实际上是一项颇具挑战的任务。其关键在于攻克两大难题:

  • 首先,需要精准地预测出复杂的版面布局;

  • 其次,还需准确识别文字内容,并在此基础上恢复出正确的阅读顺序。

这两个问题的解决对于实现高效的版面分析和文档重构至关重要。

因此在搭建杂志智能推荐系统时,我们面临着几个显著的难点:

1、杂志版面复杂性:

杂志版面设计通常较为复杂,包含多种元素如文字、图片、列表和表格等,且这些元素在版面中的布局和组合方式多变,给版面预测带来了挑战。

2、杂志文档格式多样性:

杂志文档可能以PDF、扫描件或拍照图片等多种格式存在。这些格式在数据结构、图像质量和解析难度上都有所不同,增加了版面预测的复杂性。

3、杂志版式多样性:

不同厂家的杂志往往使用独特的版面格式,导致没有统一的标准可供参考。这种版式的多样性要求预测系统能够适应各种不同的布局和设计风格。

4、多语言支持:

杂志中可能包含中文、英文等多种语言,每种语言的字符特征、排版规则和阅读习惯都有所不同,这对OCR处理能力提出了更高的要求。

5、阅读顺序恢复问题:

杂志图片转文字时,常常遇到多栏或跨页文档,需要模型识别出各栏的边界以及判断页面的连续性,并按照实际的阅读顺序将文字内容重新排列,以确保转换后的文本内容连贯、完整。

0d9e12485fe0ae080326a0d9f497e829.png

方案设计

基于上述问题,本场景依赖高精度的版面分析和OCR能力,因此非常适合选用飞桨低代码开发工具中的文档场景信息抽取(PP-ChatOCRv2_doc)模型产线作为解决方案。该产线融合了通用OCR技术和文本图像版面分析技术,使得其不仅能够准确识别文档中的文字,而且能深入解析文档的版面结构;结合文心大模型强大的能力,还可以完成全文摘要生成并智能推荐,打造全新的数字化阅读体验。

3ae3eb8efc7f2f409001e78bd2efabec.png

文档场景信息抽取产线涵盖了四大核心模块:版面分析、文本检测、文本识别和表格识别,总共集成了六个模型。为了满足不同场景和需求,文本检测和文本识别模块都分别提供了高精度的server模型注重效率与性能平衡的mobile模型。其中杂志里通常不会出现表格,基于对任务需求的理解和模型精度的考量,我们决定采用版面分析模块配以OCR server模型作为视觉模型方案。

确定微调模型:

首先,我们通过官方在线体验页面测试了模型的效果。在上传杂志图片后,我们发现OCR识别结果的精度已经满足要求,但版面分析的结果并不准确,导致无法恢复多栏文档的正确阅读顺序。鉴于此,我们决定微调版面分析模型,以提升版面布局的识别效果。

ed5935a76115910e87b535650b8faff5.png

零代码开发

数据校验

本次的训练数据来自人工拍摄的杂志图片,通过数据标注工具获得1300张高质量标准数据,包含"标题、作者、正文、分割线"四个预测类别。标注工具将自动导出为 COCO 标注格式,可以直接提交到零代码产线中进行数据校验。经过数据上传和数据校验我们可以得到如下结果,包含了数据集在训练集、验证集抽样的 10 个样本带可视化标签的图像,方便校验数据标注的正确性。

d947054ffad19408a6921d4480d0deec.png

模型训练

在深度学习中,超参数选取对模型的训练起着至关重要的作用,星河零代码产线将模型中影响最大的超参数展示在前端页面上,方便用户快速设置,进行实验调试。在文档版面分析任务中,选择 Pico_ Det_layout 算法模型后 ,对结果精度影响最大的超参数是学习率训练轮数,我们将选取这两个参数作为我们测试调试的选项。

为了让我们的实验尽可能可靠准确,我们使用控制变量法进行了 4 组对比实验 ,基于固定的训练轮数(100),初步选定了合适的学习率(0.1):

bbb5523e099d78be06798fc6cfe1c4a3.png

55699d8be5b4480654983b1b0a72e611.png

由此我们就得到了一个mAP@0.5 为 63.8%的杂志版面分析检测模型

性能调优

版面分析模型(mAP@0.5 为 63.8%)能够检测出杂志页面的布局分类等信息,但仍然存在一些问题,针对一些插图和排版较为复杂的页面来说,仍然很难十分正确地检测出最终结果。为了让模型的精度进一步提升,我们通过badcase分析后对训练数据集进行了扩充,针对复杂场景增加了 500 张杂志版面图像,进一步提高版面分析模型的性能,复用先前训练时采取的模型超参分别训练100 epoch、200 epoch、500epoch。 最终版面分析模型最高精度为74.9%,较之前提升11%。

45db599ca43783ab2add563108409dc1.png

e312d74c0869e71f9a491b207a03c0ce.png

模型部署

星河零代码产线极大地简化了模型部署流程,使得用户可以轻松选择已标记的模型权重,并通过一键操作将其部署为在线服务API。这一功能不仅允许其他联网设备轻松调用API,还提供了在线体验应用,用户可借助单图测试迅速验证模型的效果。

下图为选择自己部署的模型方案进行在线体验,通过版面分析与OCR识别的结合,可以精准地预测出文档中的多个自然段,并准确识别其中的文本内容。

49bc8bd14ab8101177278ac8218799b1.png

d0c7e936796f40f84e7c719ed4f51070.png66492bc8e0f3d1828ec790b34f971496.png

若希望将模型部署到离线设备上进行更深入的代码定制,PaddleX还支持获取离线部署包。该部署包不仅包含了模型的标记权重,还配备了特定环境的示例代码。借助这些示例文档,您可以在自己的设备上轻松实现快速且准确的模型部署。

例如,本方案需要对版面分析的输出结果进行后处理(排序操作),您可以通过获取离线部署包来实现。这个部署包中包含图片中各个元素(如文本框)的坐标信息。您可以在这些坐标信息的基础上编写后处理代码,定义排序规则,并按照特定位置输出。完成这些步骤后,您可以获得更直观的可视化效果,如下所示:

ac1ce23deb7559a7f4ac82d7383ced70.png

5362bf3d6169cb6d4f90e56805fcd341.png

用户声音

作为完全没有模型训练经验的用户,杂志铺表示:“在官方的简洁指引下,我们能够轻松完成数据标注和模型训练这一整个流程,而且模型预测的效果还如此精准,帮助我们完成了辅助阅读工具的搭建。

在没有版面检测和OCR模型之前,杂志的文字标注对我们来说是一项繁琐且耗时的工作。每篇文章的录入都需要花费大约10分钟的时间,对人力的消耗很大。然而,使用PaddleX针对我们的场景训练出高精度模型之后,一切都变得轻而易举。它能在几秒钟内快速完成信息录入,并且接入大模型后,我们还能得到准确的推荐结果。这不仅极大地节省了我们的人工标注成本,还让我们有更多的时间和精力去专注于创作。

对于未来,我充满了期待。我相信,随着技术的不断进步,PaddleX将在更多场景上展现出其强大的能力。我也将继续利用这一工具,在更多领域上进行创作,探索更多的可能性。感谢你们为我们带来了如此优秀的工具和服务!”

67d6ea7e80b96fd067f6d2b6b1b2ec09.png

精彩课程预告

为了让小伙伴们更快速地了解应用范例教程,百度研发工程师将于5月30日(周四)19:00为大家深度解析从数据准备、数据校验、模型训练、性能调优到模型部署的开发全流程开发难点,从场景、产线、工具完成产业实操体验。赶快扫描下方海报二维码预约报名!

c19fac556b7b524d6b6f8fa3ade8aa79.png

d204c358135ee76b3c5d1d62dd53f139.png

e2777a08258eac6868576ed1e1c85a80.png

25737060773ccf10651b851a456923e4.png

fa3cd7bc66160823531bbb841e2b58f1.gif

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/662974
推荐阅读
相关标签
  

闽ICP备14008679号