当前位置:   article > 正文

文本挖掘 - 分词_文本挖掘分词

文本挖掘分词

分词即对词语进行划分。

分词的基本方法包括:最大匹配法,最大概率分词法,最短路径分词法(最小切分法)。其中最大匹配法、最短路径法属于机械式分词法,最大概率分词法属于基于统计的分词方法。

分词的难点:分词歧义,未登录词识别(冷启动)

1. 最大匹配法

最大匹配法实际上是一种贪心算法,它同时还利用现实中人们使用的词语长度都是在一个比较固定的范围内。利用这个长度的限制来逐步贪心。

1.1 正向最大匹配算法

从左到右截取词组并判断是否为一个词语。

  1. s: 待分的句子
  2. temp:
  3. max_len: 最大词语长度
  4. dic
本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号