你好赵伟

这个屌丝很懒，什么也没留下！

热门标签

【最新】2021年自然语言处理(NLP)算法学习路线！

作者：你好赵伟 | 2024-04-03 05:09:09

踩

自然语言处理学习路径

NLP近几年非常火，且发展特别快。像BERT、GPT-3、图神经网络、知识图谱等技术应运而生。我们正处在信息爆炸的时代、面对每天铺天盖地的网络资源和论文、很多时候我们面临的问题并不是缺资源，而是找准资源并高效学习。但很多时候你会发现，花费大量的时间在零零散散的内容上，但最后发现效率极低，浪费了很多宝贵的时间。为了迎合大家学习的需求，我们这次重磅推出了《自然语言处理精英训练营》。

课程覆盖了从经典的机器学习、文本处理技术、序列模型、深度学习、预训练模型、知识图谱、图神经网络所有必要的技术，30+项目案例帮助你在实战中学习成长。5个月时间博导级大咖全程辅导答疑、帮你告别疑难困惑。

01 课程大纲

第一部分：机器学习基础篇

第1章：自然语言处理概述

| 什么是自然语言处理及现状和前景
| 自然语言处理应用
| 自然语言处理经典任务
| 学习自然语言处理技术

第2章：数据结构与算法基础

| 时间复杂度、空间复杂度
| 斐波那契数列的时间和空间复杂度
| 动态规划算法
| 经典的DP问题

第3章：机器学习基础 - 逻辑回归

| 分类问题以及逻辑回归重要性
| 逻辑回归的条件概率
| 最大似然估计
| 构建逻辑回归的目标函数
| 优化与梯度下降法
| 随机梯度下降法

第4章：机器学习基础 - 模型的泛化

| 理解什么是过拟合
| 如何防止过拟合现象
| L1与L2正则
| 交叉验证
| L1正则与拉普拉斯分布
| L2正则与高斯分布

第二部分：文本处理篇

第5章：分词、词的标准化、过滤

| 文本分析流程
| 中英文的分词
| 最大匹配算法
| 基于语言模型的分词
| Stemming和Lemmazation
| 停用词的使用
| 拼写纠错问题
| 编辑距离的实现
| 暴力搜索法
| 基于后验概率的纠错

第6章：文本的表示

| 单词的独热编码表示
| 句子的独热编码表示
| tf-idf表示
| 句子相似度比较
| 独热编码下的单词语义相似度
| 从独热编码到词向量
| 词向量的可视化、句子向量

第7章：【项目作业】豆瓣电影评分预测

| 数据描述以及任务
| 中文分词
| 独热编码、tf-idf
| 分布式表示与Word2Vec
| BERT向量
| 句子向量

第8章：词向量技术

| 独热编码表示的优缺点
| 独热编码与分布式表示的比较
| 静态词向量与动态词向量
| 学习词向量 - 分布式假设
| SkipGram与CBOW
| SkipGram模型的目标
| 负采样（Negative Sampling）
| 基于矩阵分解的词向量学习
| 基于Glove的词向量学习
| 在非欧式空间中的词向量学习

第9章：【项目作业】智能客服问答系统

| 问答系统和应用场景
| 问答系统搭建流程
| 文本的向量化表示
| FastText
| 倒排表技术
| 问答系统中的召回、排序

第10章：语言模型

| 语言模型的必要性
| 马尔科夫假设
| Unigram语言模型
| Bigram、Trigram语言模型
| 语言模型的评估
| 语言模型的平滑技术

第三部分：自然语言处理与深度学习

第11章：深度学习基础

| 理解神经网络
| 各类常见的激活函数
| 理解多层神经网络
| 反向传播算法
| 神经网络中的过拟合
| 浅层模型与深层模型对比
| 深度学习中的层次表示

第12章：Pytorch的使用

| 环境安装
| Pytorch与Numpy的语法比较
| Pytorch中的Autograd用法
| Pytorch的Forward函数

第13章：RNN与LSTM

| 从HMM到RNN模型
| RNN中的梯度问题
| 解决梯度爆炸问题
| 梯度消失与LSTM
| LSTM到GRU
| 双向LSTM模型
| 基于LSTM的生成
| 练习：利用Pytorch实现RNN/LSTM

第14章：Seq2Seq模型与注意力机制

| Seq2Seq模型
| Greedy Decoding
| Beam Search
| 长依赖所存在的问题
| 注意力机制
| 注意力机制的不同实现

第15章：【项目作业】智能营销文案生成

| 构建Seq2Seq模型
| Beam Search的改造
| 模型调优
| 评估标准 Rouge
| Pointer-Generator Network
| PGN与Seq2Seq的融合
| 项目：智能营销文案生成

第16章：动态词向量与ELMo技术

| 基于上下文的词向量技术
| 图像识别中的层次表示
| 文本领域中的层次表示
| 深度BI-LSTM
| ELMo模型简介及优缺点
| ELMo的训练与测试

第17章：自注意力机制与Transformer

| 基于LSTM模型的缺点
| Transformer结构概览
| 理解自注意力机制
| 位置信息的编码
| 理解Encoder与Decoder区别
| 理解Transformer的训练和预测
| Transformer的缺点

第18章：BERT与ALBERT

| 自编码器介绍
| Transformer Encoder
| Masked LM
| BERT模型及其不同训练方式
| ALBERT

第19章：【项目作业】基于闲聊的对话系统搭建

| 对话系统介绍
| 常见的对话系统技术
| 闲聊型对话系统框架
| 语料库的准备及数据的处理

第20章：GPT与XLNet

| Transformer Encoder回顾
| GPT-1，GPT-2，GPT-3
| ELMo的缺点
| 语言模型下同时考虑上下文
| Permutation LM
| 双流自注意力机制
| Transformer-XL
| XLNet总结

第四部分、信息抽取

第21章：命名实体识别与实体消歧

| 信息抽取的应用和关键技术
| 命名实体识别
| NER识别常用技术
| 实体消歧技术
| 实体消歧常用技术
| 实体统一技术
| 指代消解

第22章：关系抽取

| 关系抽取的应用
| 基于规则的方法
| 基于监督学习方法
| Bootstrap方法
| Distant Supervision方法

第23章：依存文法分析

| 从语法分析到依存文法分析
| 依存文法分析的应用
| 使用依存文法分析
| 基于图算法的依存文法分析
| 基于Transtion-based的依存文法分析
| 其他依存文法分析方法论

第24章：知识图谱

| 知识图谱以及重要性
| 知识图谱中的实体和关系
| 利用非结构化数据构造知识图谱
| 知识图谱的设计

第25章：【项目作业】搭建基于医疗知识图谱的问答系统

| 基于知识图谱的问答系统框架
| 医疗专业词汇的使用
| 获取问句的意图
| 问句的解释，提取关键实体
| 讲意图和关键信息转化为查询语句
| 把查询结果转化为自然语言的形式

第五部分：图神经网络以及其他前沿主题

第26章：模型的压缩

| 模型压缩的必要性
| 常见的模型压缩算法总览
| 基于矩阵分解的压缩技术
| 从BERT到ALBERT的压缩
| 基于贝叶斯模型的压缩技术
| 模型的量化
| 模型的蒸馏方法

第27章：图神经网络

| 卷积神经网络的回顾
| 图神经网络发展历程
| 图卷积神经网络（GCN）
| GAT详解

第28章：【项目作业】新闻文本摘要生成

| 文本摘要生成任务介绍和应用场景
| 基于抽取式的摘要提取技术
| 关键句子的提取技术
| 基于图神经网络的摘要生成方法
| 基于生成式的摘要提取技术
| Seq2Seq、Transformer模型的使用
| 文本摘要系统的评估指标

第29章：图神经网络与其他应用

| Node Classification
| Graph Classification
| Link Prediction
| Community Detection
| 推荐系统中的应用
| 文本分类中的应用
| 图神经网络的未来发展

第30章：贝叶斯深度学习与不确定性

| Uncertainty Prediction
| MLE, MAP, Bayesian
| 贝叶斯深度学习
| Stochastic Attention
| GNN与不确定性
| 小数据下的训练
| Adversial Attack

限时推出：《返学费计划》你学习我买单

仅限99人，关于活动和课程其他的细节

添加课程顾问微信

报名、课程咨询

????????????

02 课程中的部分案例

1. 基于语言模型的语法纠错

2. 基于SkipGram的推荐系统

3. 从零实现Word2Vec

4. 基于神经网络的人脸识别

5. 基于LSTM的情感分析

6. 实现AI程序帮助写文章

7. 基于Transformer的机器翻译

8. 基于知识图谱的风控系统

9. 基于知识图谱的个性化教学

10. 利用GCN实现社交推荐

11. 基于GAT的虚假新闻检测

（剩下10+个案例被折叠，完整请咨询...）

03 课程中的部分项目作业

1. 豆瓣电影评分预测

涉及到的知识点：

中文分词技术
独热编码、tf-idf
分布式表示与Word2Vec
BERT向量、句子向量

2. 智能客服问答系统

涉及到的知识点：

问答系统搭建流程
文本的向量化表示
FastText
倒排表
问答系统中的召回、排序

3. 基于闲聊的对话系统搭建

涉及到的知识点：

常见的对话系统技术
闲聊型对话系统框架
数据的处理技术
BERT的使用
Transformer的使用

4. 搭建基于医疗知识图谱的问答系统

涉及到的知识点：

医疗专业词汇的使用
获取问句的意图
问句的解释、提取关键实体
转化为查询语句
文本摘要生成介绍
关键词提取技术
图神经网络的摘要生成
基于生成式的摘要提取技术
文本摘要质量的评估

04 课程中带读的部分论文

主题	论文名称
机器学习	XGBoost: A Scalable Tree Boosting System
机器学习	Regularization and Variable Selection via the Elastic Net
词向量	Evaluation methods for unsupervised word embeddings
词向量	Evaluation methods for unsupervised word embeddings
词向量	GloVe: Global Vectors for Word Representation
词向量	Deep Contexualized Word Representations
词向量	Attention is All You Need
词向量	BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding
词向量	XLNet: Generalized Autoregressive Pretraining for Language Understanding
词向量	KG-BERT: BERT for Knowledge Graph Completion
词向量	Language Models are Few-shot Learners
图学习	Semi-supervised Classification with Graph Convolutional Networks
图学习	Graph Attention Networks
图学习	GraphSAGE: Inductive Representation Learning on Large Graphs
图学习	Node2Vec: Scalable Feature Learning for Networks
被折叠	其他数十篇文章......

05 课程适合谁？

大学生

理工科相关专业的本科/硕士/博士生，毕业后想从事NLP工作的人
希望能够深入AI领域，为科研或者出国做准备
希望系统性学习NLP领域的知识

在职人士

目前从事IT相关的工作，今后想做跟NLP相关的项目
目前从事AI相关的工作，希望与时俱进，加深对技术的理解
希望能够及时掌握前沿技术

06 报名须知

1、本课程为收费教学。

2、本期仅招收剩余名额有限。

3、品质保障！正式开课后7天内，无条件全额退款。

4、学习本课程需要具备一定的机器学习基础。

●●●

限时推出：《返学费计划》你学习我买单

仅限99人，关于活动和课程其他的细节

添加课程顾问微信

报名、课程咨询

????????????

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/354480