赞
踩
1.背景与目标
2.数据探索
3.数据预处理
4.文本的向量表示
5.模型训练与评价
1.背景与目标
2.数据探索
3.数据预处理
步骤:数据清洗----分词—添加词典去停用词—绘制词云
中文分词
中文分词是指以词作为基本单元,使用计算机自动对中文文本进行词语的切分,即使词之间有空格,这样方便计算机识别出各语句的重点内容。
正向最大匹配法
NLP概率图:HMM针对中文分词应用-Viterbi算法
利用Viterbi算法找出一条概率最大路径。
python 结巴分词(jieba)支持三种分词模式
支持繁体分词
支持自定义词典
停用词过滤
中文表达中最常用的功能性词语是限定词,如“的”、“一个”、“这”、“那”等。这些词语的使用较大的作用仅仅是协助一些文本的名词描述和概念表达,并没有太多的实际含义。
而大多数时候停用词都是非自动生产、人工筛选录入的,因为需要根据不同的研究主题人为地判断和选择合适的停用词语。
绘制词云图
词云图是文本结果展示的有利工具,通过词云图的展示可以对短信文本数据分词后的高频词予以视觉上的强调突出效果,使得阅读者一眼就可获取到主旨信息。
垃圾短信
正常短信
如何将文本数据放入模型?
4.文本的向量表示
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。