赞
踩
目录
在开始本章节之前可能需要学习以下知识:
什么是自然语言处理(NLP)什么是循环神经网络(RNN、LSTM【长短期记忆循环】、GRU【门控循环】)
什么是大模型(具有较大规模和复杂性的模型)
了解OpenAI、谷歌、等相关公司、企业
操作系统:不限
python:3.8
框架:pytorch(torch==1.10.2)
是否需要GPU:无要求
QQ:1757093754
公众号:(搜“我叫人工智能”)
位置编码(Positional Encoding):
多头自注意力机制(Multi-Head Attention):
头的拼接(Concatenation of Heads):将多个注意力头的输出拼接在一起,形成一个更高维的输出向量。这样,模型能够同时捕捉多个不同方面的关系。
输出变换(Output Transformation):将拼接后的结果通过一个可学习的线性变换(通常是矩阵乘法和加法),生成最终的多头自注意力机制的输出。
残差连接(ADD)(Residual Connection):
梯度爆炸:另一方面,梯度也可能因为某些原因变得非常大,导致权重更新过大,网络不稳定。残差连接通过提供一个额外的路径,使得梯度能够绕过较深层,从而有助于缓解梯度爆炸问题。
层归一化(Norm)(Layer Normalization):
前馈神经网络(Feedforward Neural Network):
编码器(Encoder)和解码器(Decoder):
注意力掩码(Attention Masking):
1.Q、K相乘(通常情况下)得到S,求相似度
2.softmax归一化
3.S、V相乘得到注意力
注意力机制:
自注意力机制:
显卡:8张 NVIDIA P100
训练时间:3.5天
数据集:WMT 2014 English-German dataset
机器翻译:
语言建模和文本生成:
问答系统:
图像处理:
语音识别:
推荐系统:
化学和生物信息学:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。