NLP结构化流程记录_nlp文档结构化识别组件

作者：码创造者 | 2024-08-21 13:00:04

踩

nlp文档结构化识别组件

1. 句子分割

2. 词汇标记化，把文档分割成句子，再把这个句子分成不同的单词或标记（标记化）。

3. 预测每个标记词词性

4。文本词形还原，找出句子中每个单词的最基本的形式或词条，词形还原通常是通过基于词性的词条形式的查找表来完成的，并且可能通过一些自定义规则来处理一些你从未见过的单词。

5. 识别停止词

6. 依赖分析，句子中的所有单词是如何相互关联的，除了识别每个单词的父词外，还可以预测两个词之间存在的关系类型，依赖解析也可以通过将单词输入机器学习模型并输出结果来工作；

可参考：Matthew Honnibal 的文章「Parsing English in 500 Lines of Python」，尽管在 2015 这种方法是标准的，但实际上已经过时了。在 2016，谷歌发布了一个新的依赖性分析器Parsey McParseface，

使用了一种新的深度学习方法并超越了以前的基准。一年后又发布了ParseySaurus 的模型。此外很多英语句子都是模棱两可的，难以解析的。

这种情况下，模型将根据该句子的解析版本进行猜测，但并不完美，有时该模型将导致令人尴尬的错误。

7. 寻找名词短语，组合词以表达意思。

8. 命名实体识别（NER），使用的是一个单词如何出现在句子中的上下文和一个统计模型来猜测单词代表的是哪种类型的名词。

一个好的 NER 系统可以通过上下文线索来区分「Brooklyn Decker」这个人名和「Brooklyn」这个位置。

标记的对象类型：人名，公司名称，地理位置（物理和政治），产品名称，日期与时间，金钱数量，事件名称。NER 可以很容易地从文本中获取结构化数据。

9. 共指解析

参考：

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】