赞
踩
关于语言模型的训练,网上搜索到的基本是理论为主,尤其训练文本的获取和处理,
往往一笔带过。通过项目中的实践经验,整理成文,可能存在疏漏乃至错误。
语言模型(Language Model, LM),是针对某种语言建立的概率模型,目的是建立一个能够描述给定词序列在语言中的出现的概率的分布。
Ngram模型是最常用的建模技术,采用了马尔科夫假设(马尔科夫假设:一个词的出现仅仅依赖与它前面出现的有限的一个或者几个词。),可表示为p(S)=p(w1,w2,w3,w4,w5,…,wn)=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,…,wn-1)
语言模型技术广泛应用于语音识别、OCR、机器翻译、输入法等产品上。语言模型建模过程中,包括词典、语料、模型选择等,对产品的性能有至关重要的影响。
构建语言模型的流程如下:
文本抓取过程见之前的文章 使用Scrapy递归爬取网页 。
文本处理的目的是,从原始html形式的文本中提取有效数据,并处理成构造语言模型(Language Model)所需要的格式。
步骤如下:
对于大数据文本的处理,可通过拆分合并,每个文件保持一定的大小,通过多进程并行处理
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。