当前位置:   article > 正文

【自然语言处理】1. 细讲:Attention模型的机制原理_传统attention 问题

传统attention 问题

NLP系列讲解笔记

本专题是针对NLP的一些常用知识进行记录,主要由于本人接下来的实验需要用到NLP的一些知识点,但是本人非NLP方向学生,对此不是很熟悉,所以打算做个笔记记录一下自己的学习过程,也是为了博士的求学之路做铺垫。希望大家喜欢。
如果有哪里写的不对,欢迎大家批评指正,感谢感谢!


前言

最近两年,注意力模型(Attention Model)被广泛使用在自然语言处理(Natural Language Processing, NLP)、图像识别及语音识别等各种不同类型的深度学习任务中,是深度学习技术中最值得关注与深入了解的核心技术之一,甚至于是传统的时序数据的预测,都很容易遇到注意力模型的身影。

在NLP领域,BERT(Bidirectional Encoder Representations from Transformers)近期提出之后,作为一个Word2Vec的替代者,其在NLP领域的11个方向大幅刷新了精度,在许多方向甚至都达到了SOTA(state of the art),可以说是近年来自残差网络(ResNet)最有突破性的一项技术了,在NLP中达到了全新的高度,将已经走向瓶颈期的Word2Vec带向了一个新的方向,并再一次炒火了《Attention is All you Need》这篇论文(强烈建议大家精读此文章),而BERT所采用的就是在各领域所霸榜的Transformer

Transformer所采用的主要算法模型即Attention(multi-headed self-attention、masked multi-headed self-attention以及Encoder-Decoder Attention),所以,了解注意力机制的工作原理至关重要。

由于个人接下来的实验也要用到Attention机制,好记性不如烂笔头,为了加深印象,也为了分享给大家我的理解和看法,我将把我的理解、心得做个记录,接下来我还要继续分享Transformer(主要是对《Attention is All you Need》的深度解析)、BERT以及Word2Vec模型的原理、机制,希望大家多多关注哈,感谢感谢声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】

推荐阅读
相关标签