当前位置:   article > 正文

NLP基础、发展历程与前进方向、学习路径_基础方向路径

基础方向路径

自然语言基础

三大基础:

  1. 词向量:词转换为向量。
  2. 序列生成:生成一个序列。
  3. 注意力机制:有很多信息,从中找出重要的。

两个任务:

  1. 文本分类任务
  2. 机器翻译任务
    在这里插入图片描述

自然语言处理发展历程与前进方向

1. 2003年NNLM模型

基于前馈神经网络的语言模型。
在它之前:传统方法都是通过统计的方法,数出每个词出现的次数。通过统计n-grams来学习语言模型。
NNLM:通过深度学习的方式自动学习一个语言模型,是将词映射到向量。并且和n-grams模型的效果相当。
在这里插入图片描述

2. 2013年Word2vec模型

之前的词向量学习:速度太慢,训练时间太长,无法在大规模语料进行训练,所以效果较差。
Word2vec:通过两种方法加快词向量的训练,实现在大规模语料上训练得到非常好的词向量,极大推动了自然语言处理的发展。
在这里插入图片描述

3. 2014年TextCNN模型

之前的文本分类模型:模型复杂,效果一般Word2vec:通过使用预训练的词向量在简单的CNN模型上取得了非常好的效果。

模型:
Word2Vec词向量+Conv+Pooling+全连接
在这里插入图片描述

4. 2014年Deep NMT模型

Deep NMT:四层LSTM+神经机器翻译

之前的统计机器翻译:复杂的规则和统计方法。
神经机器翻译:通过神经网络自动训练神经机器翻译模型,2016年,谷歌翻译正式使用神经机器翻译代替统计机器翻译,其负责人表示:这意味着用500行神经网络模型代码取代 50万行基于短语的机器翻译代码
在这里插入图片描述

5.2015年Attention模型

注意力机制:注意力机制是自然语言处理处理最核心的算法之一,它通过简单的机制能够自动从复杂的信息中选择关键的信息。
在这里插入图片描述

论文学习方式

导读:储备知识+背景知识
精读:模型结构+实验分析+论文总结(关键点、创新点、启发点)
代码实现:数据集+pytorch实现
在这里插入图片描述

学习路径

  1. 可以复现代码
  2. Baseline学习:词向量、文本分类、Seq2Seq、Attention。
  3. 进阶:文本分类、预训练、图神经网络等。
    在这里插入图片描述
    在这里插入图片描述

NLP的Baseline

在这里插入图片描述

NLP的三大顶会

  • ACL——ENCL
  • EMNLP
  • NAACL

ICIR

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小舞很执着/article/detail/1017897
推荐阅读
相关标签
  

闽ICP备14008679号