赞
踩
文本挖掘与自然语言处理之间的区别
术语“ 文本挖掘”用于自动机器学习和为此目的使用的统计方法。它用于从非结构化和结构化文本中提取高质量信息。可以在文本或匹配结构中对信息进行模式化,但不考虑文本中的语义。自然语言是我们用于交流的语言。处理此类数据以理解基本含义的技术统称为自然语言处理(NLP)。数据可能是语音,文本甚至是图像,并且方法涉及在数据上应用机器学习(ML)技术来构建涉及分类,提取结构,汇总和翻译数据的应用程序.NLP试图处理人类语言的所有复杂性,例如语法和语义结构,情感分析等
文本挖掘与自然语言处理之间的主要区别
以下是文本挖掘和自然语言处理之间的区别:
应用 – NLP的概念在以下基本系统中使用:
语音识别系统
问答系统
从一种特定语言到另一种特定语言的翻译
文字摘要
情绪分析
基于模板的聊天机器人
文字分类
主题细分
高级应用程序包括:
理解自然语言命令并以自然语言与人类互动的人类机器人。
构建通用机器翻译系统是NLP领域的长期目标
它为给定的文档生成逻辑标题。
为特定主题或给定图像生成有意义的文本。
先进的聊天机器人,可为人类生成个性化文本并忽略人类书写中的错误
文本挖掘的流行应用:
内容相关广告
内容丰富
社交媒体数据分析
垃圾邮件过滤
通过索赔调查发现欺诈
开发生命周期 –
对于开发NLP系统,一般的开发过程将包括以下步骤
了解问题陈述。
确定解决问题所需的数据或语料库类型。数据收集是解决问题的基本活动。
分析收集的语料库。语料的质和量是多少?根据数据和问题陈述的质量,您需要进行预处理。
一旦完成预处理,就从特征工程过程开始。功能工程是NLP和与数据科学相关的应用程序中最重要的方面。为此使用了诸如解析,语义树之类的不同技术。
确定了从原始预处理数据中提取的特征后,您将决定使用哪种计算技术来解决问题陈述,例如,您要应用机器学习技术还是基于规则的技术?对于现代NLP系统,几乎所有时间都在使用基于深度神经网络的高级ML模型。
现在,根据要使用的技术,您应该阅读要提供的功能文件,作为决策算法的输入。
运行模型,对其进行测试并进行微调。
重复上述步骤以获得所需的精度
对于文本挖掘应用程序,诸如定义问题之类的基本步骤与NLP中的相同。但是也有一些不同的方面,下面列出
在大多数情况下,文本挖掘会像NLP一样分析文本,不需要参考语料库。在数据收集部分,外部语料库的需求非常少。
文本挖掘和自然语言处理的基本功能工程。诸如n-gram,TF – IDF,余弦相似度,Levenshtein距离,特征哈希等技术在文本挖掘中最为流行。使用深度学习的NLP依赖于称为自动编码器的专门神经网络来获得文本的高级抽象。
文本挖掘中使用的模型可以是基于规则的统计模型,也可以是相对简单的ML模型
正如我们前面提到的,这里显然可以测量系统精度,因此在文本挖掘中,模型的运行,测试,Finetune迭代相对容易。
与NLP系统不同,“文本挖掘”系统中将有一个表示层,用于显示挖掘结果。这更多的是艺术而不是工程。
未来的工作 –随着Internet使用的增加,文本挖掘变得越来越重要。Web挖掘和生物信息学等新的专业领域正在兴起。到目前为止,大多数数据挖掘工作都在于数据清理和数据准备工作,这些工作效率较低。正在进行积极的研究以使用机器学习使这些工作自动化。
NLP每天都在进步,但是自然的人类语言很难用机器解决。我们很容易表达笑话,讽刺和每一种情感,每个人都能理解。我们正在尝试使用深度神经网络集成来解决该问题。当前,许多NLP研究人员正在致力于使用无监督模型进行自动机器翻译。自然语言理解(NLU)现在是另一个有趣的领域,它对聊天机器人和人类可以理解的机器人产生了巨大影响。
比较基础 文字挖掘 自然语言处理
目标
文字挖掘:从非结构化和结构化文本中提取高质量信息。可以在文本或匹配结构中对信息进行模式化,但不考虑文本中的语义。 自然语言处理:试图了解人类以自然语言传达的内容-可能是文字或语音。分析了语义和语法结构。
工具类
文字挖掘:
文本处理语言(如Perl)
统计模型
ML模型
自然语言处理:
进阶机器学习模型
深度神经网络
Python中的NLTK等工具包
范围
文字挖掘:
数据源是记录的集合
提取自然语言文档的代表性特征
基于语料库的计算语言学的输入
自然语言处理:
数据源可以是任何形式的自然人类交流方法,例如文本,语音,招牌等
从输入中提取语义和语法结构
使与机器的所有级别的交互对人类来说更加自然
结果 文字挖掘:使用统计指标对文本进行解释,例如
1.单词的
频率2.单词的
样式3.单词内的相关性
自然语言处理:
了解通过文本或语音传达的内容,例如
1.表达的情感
2.文本的语义含义,以便可以将其翻译成其他语言
3.语法结构
系统精度 文字挖掘:绩效指标是直接的,相对简单。在这里,我们有明显可测量的数学概念。措施可以自动化
自然语言处理:测量机器的系统精度非常困难。大多数时候都需要人工干预。例如,考虑一个NLP系统,该系统将英语翻译成印地语。自动衡量系统执行翻译的难度有多困难。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。