赞
踩
网络上存在大量的数字化文本,通过文本挖掘我们可以获得很多有价值的信息。
本文将告诉大家什么是文本挖掘,以及他的处理步骤和常用的处理方法。
每到春节期间,买火车票和机票离开一线城市的人暴增——这是数据
再匹配这些人的身份证信息,发现这些人都是从一线城市回到自己的老家——这是信息
回老家跟家人团聚,一起过春节是中国的习俗——这是知识
上面的例子是显而易见的,但是在实际业务中,有很多不是那么显而易见的信息,比如:
而文本挖掘的意义就是从数据中寻找有价值的信息,来发现或者解决一些实际问题。
维基百科:
文本挖掘,也称为文本数据挖掘,大致相当于文本分析,是从文本中获取高质量信息的过程。高质量信息通常是通过统计模式学习等手段设计模式和趋势而得出的。文本挖掘通常涉及构造输入文本的过程(通常解析,添加一些派生的语言特征和删除其他特征,然后插入到数据库中),在结构化数据中导出模式,最后评估和解释输出。文本挖掘中的“高质量”通常是指相关性,新颖性和兴趣的某种组合。典型的文本挖掘任务包括文本分类,文本聚类,概念/实体提取,粒度分类法的生成,情感分析,文档摘要和实体关系建模(即,命名实体之间的学习关系)。
文本分析涉及信息检索,词汇分析以研究词频分布,模式识别,标记 / 注释,信息提取,数据挖掘技术,包括链接和关联分析,可视化和预测分析。最重要的目标是通过应用自然语言处理(NLP)和分析方法将文本转换为数据进行分析。 典型的应用是扫描以自然语言编写的一组文档,并为文档集建模以用于预测分类目的,或者用提取的信息填充数据库或搜索索引。
文本挖掘大致分为以下5个重要的步骤。
文本挖掘的5个步骤:
文本挖掘 (维基百科)
NLP(1)— 初识文本挖掘 (jianshu)
文本数据分析:文本挖掘还是自然语言处理?(csdn)
用 Python 做文本挖掘的流程 (zhihu)
Python英文文本预处理:步骤、使用工具及示例 (csdn)
以虎嗅网4W+文章的文本挖掘为例,展现数据分析的一整套流程 (jiqizhixin)
文本挖掘 – Text mining (easyai)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。