当前位置:   article > 正文

NLP中的基本概念_nlp 如何区分英语中的句号和人名中的点

nlp 如何区分英语中的句号和人名中的点

自然语言处理以不同的粒度处理自然语言。对于一个英文句子"“my name is xiaowang”,基本组成单元是字符(character),由空格符得到的是单词(word)。如果不考虑单词出现的重复情况,这个句子认为有4个token。加上标点符号的叫句子(Sentence),多个句子组成的叫段落(Paragraph),多个段落组成的叫篇章(Document)

NLP的常见任务:

  1. 断句(Sentence Segmentation)

通过标点符合实现

  1. 词性标准(Tokenization)

是给句子中的每个词标记响应的词性,词性又分为“动词、名词、形容词、副词”等

  1. 词形还原(Part-of-Speech Tagging)

是指将某一单子还原至原型,包括单词的单复数、BE动词以及动词的过去时态等

  1. 句法依存分析(Dependency Synatax Parsing)

是指识别句子的句法结构,其主要手段是分析句子中各语言成分之间的依存关系,其分析结果是一颗依存书,数的根节点root是关键动词,节点为名词主语。识别句子语法结构是浅层理解的重要形式。
对于语义分析,有命名实体识别、共指消解与语义角色标注等。命名实体识别成为NER,是识别句子中的实体,将句子内容分为人名、机构等,在医学上,常用的有IOBE标注格式(有篇NER的论文在审,希望好运)。共指消解是在识别句子中同一实体的不同表达,比如张三绰号阿三,老张,那么阿三和老张均对应张三。

  1. 语义角色标注

又称为浅层语义分析,是指将句子中的某些词或短语标注为给定语义角色的过程,通常围绕动词短语的相关成分展开识别,比如行为人、时间、地点等

文本的向量化表示

是指将文本表示为计算机能够运算的数值的向量形式。又分为离散表示和连续表示,其中离散表示使用独热编码(为每个单词做一个索引编码),好处是编码方便,缺点是规模可能比较大,另一种离散的表示形式是词袋表示。词袋表示常用语文本表示,直接将文本中单词的独热向量相加。
连续表示是利用Skip-fram或CBOW模型进行处理。
关于文本的向量表示,可以参看文本的向量表示方法

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Guff_9hys/article/detail/843086
推荐阅读
相关标签
  

闽ICP备14008679号