当前位置:   article > 正文

深度理解机器学习5-词性标注的应用_机器学习词性标注

机器学习词性标注

词性标注的应用

就像文本预处理技术通过鼓励机器只关注重要的细节来帮助机器更好地理解自然语言一样,词性标注帮助机器实际解释文本的上下文,从而理解它。虽然文本预处理更像是一个清理阶段,词性标注实际上是机器开始输出有关语料库的有价值信息的部分。

机器以多种方式处理自然语言:·词性标注有助于区分同音异义词——拼写相同但含义不同的词。例如,单词“play”可以指进行活动时的动词,也可以指将在舞台上表演的戏剧作品中的名词。词性标注器可以通过确定词性标注来帮助机器理解单词“play”在什么上下文中使用。·词性标注建立在句子和分词需求的基础上,这是自然语言处理的基本任务之一。·词性标注被其他算法用于执行更高级别的任务,我们将在本章讨论命名实体识别。·词性标注也有助于情感分析和问题回答的过程。

词性标注的类型

词性标注器可以是有监督学习类型和无监督学习类型。

1.基于规则的词性标注器

这些词性标注器的工作方式几乎和它们的名字一样——按照规则。给标注器一组规则的目的是确保它们在大多数情况下准确地标记一个模棱两可或未知的单词,因此大多数规则仅在标注器遇到模棱两可或未知的单词时才适用。

2.随机的词性标注器

随机词性标注器是使用除了基于规则的方法之外的任何方法来给单词指定标注的标注器。因此,有许多方法属于随机范畴。当确定单词的词性标注时,所有结合统计方法(如概率和频率)的模型都是随机模型。

1)单位法或词频法

最简单的随机词性标注器仅根据一个单词与一个标签一起出现的概率将词性标注分配给模棱两可的单词。这基本上意味着,标注器在训练集中发现的与某个单词最常链接的任何标注,都会被分配给同一个单词的模糊实例。

2)n元法

这基于前面的方法。名称中的n代表在确定一个单词属于特定词性标注的概率时要考虑多少个单词。在单位标注器中,n=1,因此只考虑单词本身。增加n值会导致标注器计算n个词性标注的特定序列一起出现的概率,并基于该概率为单词分配标签。

3)隐马尔可夫模型

隐马尔可夫模型结合了词频法和n元法。马尔可夫模型是描述一系列事件或状态的模型。每种状态发生的概率仅取决于前一事件所达到的状态。这些事件基于观察。隐马尔可夫模型的“隐藏”方面是事件可能隐藏的一组状态。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/599316
推荐阅读
相关标签
  

闽ICP备14008679号