【自然语言处理】1. 细讲：Attention模型的机制原理_传统attention 问题

作者：你好赵伟 | 2024-04-04 13:55:25

踩

传统attention 问题

NLP系列讲解笔记

本专题是针对NLP的一些常用知识进行记录，主要由于本人接下来的实验需要用到NLP的一些知识点，但是本人非NLP方向学生，对此不是很熟悉，所以打算做个笔记记录一下自己的学习过程，也是为了博士的求学之路做铺垫。希望大家喜欢。
如果有哪里写的不对，欢迎大家批评指正，感谢感谢！

前言

最近两年，注意力模型（Attention Model）被广泛使用在自然语言处理（Natural Language Processing, NLP）、图像识别及语音识别等各种不同类型的深度学习任务中，是深度学习技术中最值得关注与深入了解的核心技术之一，甚至于是传统的时序数据的预测，都很容易遇到注意力模型的身影。

在NLP领域，BERT（Bidirectional Encoder Representations from Transformers）近期提出之后，作为一个Word2Vec的替代者，其在NLP领域的11个方向大幅刷新了精度，在许多方向甚至都达到了SOTA(state of the art)，可以说是近年来自残差网络（ResNet）最有突破性的一项技术了，在NLP中达到了全新的高度，将已经走向瓶颈期的Word2Vec带向了一个新的方向，并再一次炒火了《Attention is All you Need》这篇论文（强烈建议大家精读此文章），而BERT所采用的就是在各领域所霸榜的Transformer。

而Transformer所采用的主要算法模型即Attention（multi-headed self-attention、masked multi-headed self-attention以及Encoder-Decoder Attention），所以，了解注意力机制的工作原理至关重要。

由于个人接下来的实验也要用到Attention机制，好记性不如烂笔头，为了加深印象，也为了分享给大家我的理解和看法，我将把我的理解、心得做个记录，接下来我还要继续分享Transformer（主要是对《Attention is All you Need》的深度解析）、BERT以及Word2Vec模型的原理、机制，希望大家多多关注哈，感谢感谢声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop】

【自然语言处理】1. 细讲：Attention模型的机制原理_传统attention 问题

NLP系列讲解笔记

目录

前言