NLP中的基本概念_nlp 如何区分英语中的句号和人名中的点

作者：Guff_9hys | 2024-07-18 02:17:08

踩

nlp 如何区分英语中的句号和人名中的点

自然语言处理以不同的粒度处理自然语言。对于一个英文句子"“my name is xiaowang”，基本组成单元是字符（character），由空格符得到的是单词（word）。如果不考虑单词出现的重复情况，这个句子认为有4个token。加上标点符号的叫句子(Sentence)，多个句子组成的叫段落(Paragraph)，多个段落组成的叫篇章(Document)

NLP的常见任务：

断句（Sentence Segmentation）

通过标点符合实现

词性标准（Tokenization）

是给句子中的每个词标记响应的词性，词性又分为“动词、名词、形容词、副词”等

词形还原（Part-of-Speech Tagging）

是指将某一单子还原至原型，包括单词的单复数、BE动词以及动词的过去时态等

句法依存分析（Dependency Synatax Parsing）

是指识别句子的句法结构，其主要手段是分析句子中各语言成分之间的依存关系，其分析结果是一颗依存书，数的根节点root是关键动词，节点为名词主语。识别句子语法结构是浅层理解的重要形式。
对于语义分析，有命名实体识别、共指消解与语义角色标注等。命名实体识别成为NER，是识别句子中的实体，将句子内容分为人名、机构等，在医学上，常用的有IOBE标注格式（有篇NER的论文在审，希望好运）。共指消解是在识别句子中同一实体的不同表达，比如张三绰号阿三，老张，那么阿三和老张均对应张三。

语义角色标注

又称为浅层语义分析，是指将句子中的某些词或短语标注为给定语义角色的过程，通常围绕动词短语的相关成分展开识别，比如行为人、时间、地点等

文本的向量化表示

是指将文本表示为计算机能够运算的数值的向量形式。又分为离散表示和连续表示，其中离散表示使用独热编码（为每个单词做一个索引编码），好处是编码方便，缺点是规模可能比较大，另一种离散的表示形式是词袋表示。词袋表示常用语文本表示，直接将文本中单词的独热向量相加。
连续表示是利用Skip-fram或CBOW模型进行处理。
关于文本的向量表示，可以参看文本的向量表示方法。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Guff_9hys/article/detail/843086