当前位置:   article > 正文

朴素贝叶斯法实现拼写检查器_朴素贝叶斯 拼写检查器 代码

朴素贝叶斯 拼写检查器 代码

转 https://blog.csdn.net/wenyichuan/article/details/78572007 

  1. import re, collections
  2. #我们利用一个叫 words 的函数把语料中的单词全部抽取出来, 转成小写, 并且去除单词中间的特殊符号
  3. # 单词就会成为字母序列, don't 就变成 don 和 t 了,为了简化操作我们就忽略这个细节
  4. def words(text): return re.findall('[a-z]+', text.lower())
  5. def train(features):
  6. #defaultdict类的初始化函数接受一个类型作为参数,当所访问的键不存在的时候,可以实例化一个值作为默认值,及所有键的初始值都为1
  7. model = collections.defaultdict(lambda: 1)
  8. for f in features:
  9. model[f] += 1
  10. return model
  11. #NWORDS为一个字典 {单词:次数}
  12. NWORDS = train(words(open('big.txt').read()))
  13. #字母表 用于编辑距离函数的插入
  14. alphabet = 'abcdefghijklmnopqrstuvwxyz'
  15. #返回所有与单词 w 编辑距离为 1 的集合
  16. def edits1(word):
  17. n = len(word)
  18. return set([word[0:i] + word[i + 1:] for i in range(n)] + # 减少一个字母
  19. [word[0:i] + word[i + 1] + word[i] + word[i + 2:] for i in range(n - 1)] + # 调换相邻间两个字母顺序,ps:人们应该不会将距离远的俩字母写反!
  20. [word[0:i] + c + word[i + 1:] for i in range(n) for c in alphabet] + # 替换一个字母
  21. [word[0:i] + c + word[i:] for i in range(n + 1) for c in alphabet]) # 插入一个字母
  22. #返回所有与单词 w 编辑距离为 2 的集合
  23. #在这些编辑距离小于2的词中间, 只把那些正确的词作为候选词
  24. def known_edits2(word):
  25. return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)
  26. #返回在字典中可以找到的编辑单词
  27. def known(words): return set(w for w in words if w in NWORDS)
  28. def correct(word):
  29. # 为了简便我们采用python的短路表达式,如果known(set)非空, candidate 就会选取这个集合,
  30. # 而不会再继续计算后面的,当然我们也可以将代码写成if-else形式
  31. candidates = known([word]) or known(edits1(word)) or known_edits2(word) or [word]
  32. return max(candidates, key=lambda w: NWORDS[w])
  33. if __name__ == '__main__':
  34. print(correct('somethin'))

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/370942
推荐阅读
相关标签
  

闽ICP备14008679号