赞
踩
系统性地学NLP本来就既不可能也没必要,这么大个领域,而且一直在飞速发展,等你学完了黄花菜都凉了。
NLP的方法可以分成基于规则的方法和基于统计的方法。由于自然语言具备歧义性、递归性和创新性等特点,基于规则的方法局限性非常大, 因此主流的是基于统计的方法——机器学习/深度学习方法可以视作基于统计的方法的延伸。
到2020年的今天,数据驱动的监督式学习方法(包括传统机器学习和深度学习)基本上成了NLP的主流——所以你只需要首先从机器学习/深度学习方法入手就可以了,其他的可以随用随学。
我自己把目前的监督式学习方法分成了三类,把这三类方法都掌握了基本上你就可以拥有一个比较系统的知识框架了,足够解决绝大多数问题,其他的随用随学就行:
(1)基于统计特征的传统机器学习方法:直接用常见的SVM、决策树等模型加上针对文本的特征工程(例如TF-IDF),对于小数据集和计算资源紧张的情况依然有很大用处——基本上如果要执行文本分类任务的话用SVM跑个baseline是必须的
(2)基于非上下文相关的词向量的传统深度学习方法:使用word2vec,GloVe和FastText等工具,将文本转化为嵌入式词向量,然后输入到神经网络中,这里使用的神经网络也基本上是跟深度学习其他方向通用的,比如全连接网络,CNN、RNN,图神经网络和Self-Attention等(注意单独的Transformer编码器和BERT不是一个东西)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。