思想:
把每个词看成是各个字组成,如果相连的字在不同的文本中出现次数越多,相连的字很可能是一个词
利用字与字相邻出现的频率反映词的可靠度
buzhou:
建立统计语言模型
对句子进行单词划分,然后对划分结果进行概率计算,获得最大概率的分词方式
语言模型:
长度为m的字符串确定其概率分布为P(w1,w2,.......wm)其中,w1,w2,wm依次表示文本中的各个词语
赞
踩
思想:
把每个词看成是各个字组成,如果相连的字在不同的文本中出现次数越多,相连的字很可能是一个词
利用字与字相邻出现的频率反映词的可靠度
buzhou:
建立统计语言模型
对句子进行单词划分,然后对划分结果进行概率计算,获得最大概率的分词方式
语言模型:
长度为m的字符串确定其概率分布为P(w1,w2,.......wm)其中,w1,w2,wm依次表示文本中的各个词语
转载于:https://www.cnblogs.com/hapyygril/p/9924188.html
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。