赞
踩
自然语言处理(NLP)是一门集合了语言学、数学、计算机科学交叉的学科.
目标在于:
1.更好的人机交互,辅助生活和工作.
2.进行非结构化数据的分析/挖掘:舆情分析、文本分类、知识抽取、智能问答和辅助决策
非结构化数据的特点:具有稀疏性和高维性,且文本中含有停用词、低频词和标点符号,这都使得词边界带有模糊性
常见的困难:
1.难以划分语义的边界——过几天天天天气不好
2.同义、同音字的区分(消歧问题)——朝阳机场的飞机迎着朝阳起飞
3.全局特征与局部特征的取舍问题——单身的原因有两个,一是谁都看不上,二是谁都看不上.
有人说过:“如果真的有不止一种理解文本的方式,那么所有解释就不可能是相同的.”,所以NLP任务对人、对机器而言都是十分困难的.
主要任务:
1.序列标注任务
2.文本分类任务
3.文本匹配
4.关系抽取任务
5.文本增强任务
6.seq2seq任务
7.知识图谱构建
NLP常用工具
1.tensorflow:无需多说
2.pytorch:反正很强就对了
3.Sklearn:大量机器学习算法
4.Numpy:各种向量矩阵操作(文本向量化后主力工具)
Python数据处理常用库
1.Jieba:分词,词性标注
2.Pandas:数据处理,可以读取excel,csv格式的文件
3.Re:正则表达式
4.Json:读取json格式数据
5.Matplotlib:可视化工具
NLP推荐数据库(个人倾向)
1.MySQL
2.Neo4j
NLP常用步骤
1.数据获取
2.数据预处理
3.文本向量化
4.算法选择:常见(Transformer、LSTM、BERT、CNN、RNN、DNN、GNN等)
5.算法调优
6.模型评价(准确率、召回率、F1值)
内容会不断更新,如果哪里有错误也欢迎指出,共同交流进步!!!!!!!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。