所见即所得，赋能RAG：PDF解析里的段落识别与阅读顺序还原

作者：一键难忘520 | 2024-07-26 18:33:00

踩

前几天，有一位用户使用OCR产品识别多栏论文后向我们询问：要怎么解决不合适的断句、分段以及错误阅读顺序的问题？

我们用一个相似案例为大家直观展示这位用户遇到的情况。

如图中的多栏期刊，如果用OCR识别，或直接在一些办公软件对文字进行复制黏贴，我们就会得到右侧的效果——按PDF排版而不是语义进行换行分段，对多栏文字直接从左向右排布，得到完全不通顺的文字段落。

显然这样的效果是无法接受的。

于是，我们向用户推荐了文档解析产品，建议在处理多栏文件时使用文档解析来获得更好的识别结果。

这是文档解析的同一篇期刊论文输出示例

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/一键难忘520/article/detail/886657