当前位置:   article > 正文

所见即所得,赋能RAG:PDF解析里的段落识别与阅读顺序还原

所见即所得,赋能RAG:PDF解析里的段落识别与阅读顺序还原

前几天,有一位用户使用OCR产品识别多栏论文后向我们询问:要怎么解决不合适的断句、分段以及错误阅读顺序的问题?

我们用一个相似案例为大家直观展示这位用户遇到的情况。

如图中的多栏期刊,如果用OCR识别,或直接在一些办公软件对文字进行复制黏贴,我们就会得到右侧的效果——按PDF排版而不是语义进行换行分段,对多栏文字直接从左向右排布,得到完全不通顺的文字段落。

显然这样的效果是无法接受的。

于是,我们向用户推荐了文档解析产品,建议在处理多栏文件时使用文档解析来获得更好的识别结果。

这是文档解析的同一篇期刊论文输出示例

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/一键难忘520/article/detail/886657
推荐阅读
相关标签