赞
踩
最近做了些关于NLP中文本分类的工作,记录一下相关知识。
one hot:首先根据语料库corpus构建词典,假设词典长度为T,那么那么每个词就可以用一个one hot向量表示。
word2vec:把一个词映射成一个M维向量,可以用来处理相似度,分类等问题
BOW:词袋模型,根据语料库先建词典Dict,词典中的词称term,然后分别将每个text表示成一个词典向量,词典的每个元素是这个词在text中的词频。
TFIDF:TF比较好理解,就是Term-Frequency-词频,IDF是逆文本频率指数。
其中Dw表示w在Dw个文档中出现过,D代表整个语料库,假设整个语料库有10亿篇文档,的字在10篇文档中都出现过,那么
IDF(的)=log(D/D的)=log(10亿/10亿)=log(1)=0
IDF(应用)=log(D/D应用)=log(10亿/5亿)=log(2)=1
IDF(原子能)=log(D/D原子能)=log(10亿/200w)=log(500)=8.96
例子:假设词典是2w维的,那么一段文本可以通过如下三种方式表示
1. 统计语言模型
统计语言模型的初衷是为了解决语音识别问题,在语音识别中,计算机需要知道一个文字序列是否能构成一个大家理解而且有意义的句子。
一个句子是否合理,就看它在语料库中出现的可能性大小。
一个句子就是一个词序列S,它在语料库中的概率,可以表示为w的联合概率分布,通过Bayes公式,可以写作:
依据Markov Chain定理,假设每个词只与它前面的n-1个词有关,也就是所谓的n-gram模型。
n-gram模型:以二元模型为例,其假设是每个词只与他前面的一个词有关。n-gram模型就是每个词只与他前面的n-1个词有关。
2. 神经概率语言模型
基础研究:
词法与句法分析:李正华、陈文亮、张民(苏州大学)
语义分析:周国栋、李军辉(苏州大学)
篇章分析:王厚峰、李素建(北京大学)
语言认知模型:王少楠,宗成庆(中科院自动化研究所)
语言表示与深度学习:黄萱菁、邱锡鹏(复旦大学)
知识图谱与计算:李涓子、候磊(清华大学)
应用研究:
文本分类与聚类:涂存超,刘知远(清华大学)
信息抽取:孙乐、韩先培(中国科学院软件研究所)
情感分析:黄民烈(清华大学)
自动文摘:万小军、姚金戈(北京大学)
信息检索:刘奕群、马少平(清华大学)
信息推荐与过滤:王斌(中科院信工所)、鲁骁(国家计算机网络应急中心)
自动问答:赵军、刘康,何世柱(中科院自动化研究所)
机器翻译:张家俊、宗成庆(中科院自动化研究所)
社会媒体处理:刘挺、丁效(哈尔滨工业大学)
语音技术:说话人识别——郑方(清华大学)、王仁宇(江苏师范大学),
语音合成——陶建华(中科院自动化研究所),
语音识别——王东(清华大学) 文字识别:刘成林(中科院自动化研究所)
多模态信息处理:陈晓鸥(北京大学)
医疗健康信息处理:陈清财、汤步洲(哈尔滨工业大学)
少数民族语言信息处理:吾守尔•斯拉木(新疆大学)、那顺乌日图(内蒙古大 学)、海银花(内蒙古大学)等
nltk stanford开源的分词,词型标注,语义等nlp基础工具
gensim - 文本表示,文本分类
fasttext - 文本表示,文本分类,除了快还是快
各个工具功能,性能对比
参考:
http://www.cnblogs.com/peghoty/p/3857839.html
中文信息处理发展报告 http://cips-upload.bj.bcebos.com/cips2016.pdf
文本表示 http://www.jeyzhang.com/text-classification-in-action.html
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。