搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
Li_阴宅
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
带你实现java根据表结构动态导入导出Excel_java 根据表结构生产excel模板
2
一文浅显易懂:Python中shape()和reshape()的用法和区别_cannot reshape array of size 8 into shape (2,2)
3
数据库表的连接的几种类型_表连接的几种方式
4
使用TensorFlow 2.x 实现YOLOv5:一个高效且易用的目标检测框架
5
【项目实战课】大语言模型提示词(Prompt)工程实战
6
队列详解(C语言实现)_c语言实现队列
7
鸿蒙OS流转之跨端迁移_鸿蒙跨端迁移
8
人工智能——DBSCAN密度聚类(1),计算机专业必看_dbsacn算法
9
智能家居的四种无线技术
10
Bcrypt算法学习的一些总结_bcrypt是如何匹配
当前位置:
article
> 正文
注意力机制----seq2seq中的注意力机制
作者:Li_阴宅 | 2024-07-09 12:12:05
赞
踩
seq2seq中的注意力机制
自然语言处理中的sqe2seq模型是encoder,decoder模型
如:输入英语,输出法语
X是输入,h是状态
encoder的最后一个状态h_m是decoder的输入
seq2seq模型的缺点就是,如果句子太长,模型会漏掉一些信息,准确性会下降
但是,使用了注意力机制之后,准确率会保持在一个水平上(BLEU是机器翻译模型的评价标准)
在encoder结束工作后,decoder与encoder同时开始工作
要计算s_0和每一个h_i的相关性
因为有m个h, 所以有m个权重
权重最原始的计算方法:
将h_i和s_0拼接起来
乘以W矩阵
经过双曲正切函数
再乘以向量V
其中,W,V都是网络要学习的参数
得到m个权重之后,再使用softmax进行归一化
现在经常采用第二种计算权重的方法(transformer模型使用)
第一步:将h_i和s_0分别乘以矩阵W_K和W_Q, 得到k_i和q_0
第二步:将k_i和q_0进行内积
第三步:经softmax进行归一化
:
将得到的 m个权重和m个状态进行 向量内积,得到s_0对应的c_0
现在要进行s1的更新:
SimpleRNN的做法是:
将输入x'_1和s_0拼接起来
与A'相乘,加b,经双曲正切函数
有了注意力机制的做法是:
将x'_1, s_0和c_0三个向量拼接起来
(其它相同)
因此,s_1得到更新。
但是,问题是:对于每一个s_i, 权重不能重复使用,必须一遍遍地算
重复上面步骤:以同样的方式算得c1
算得c2
算得c3
算得c4
时间复杂度: 对于每一个c_i都有m个权重被计算,有t个c就有mt个权重被计算
关于seq2seq模型的“注意力机制”可视化,可以使用这个图来理解
总结:
标准的seq2seq模型只是看当前的状态
注意力机制能够结合所有状态的信息
但是,在seq2seq模型中,注意力机制的时间复杂度太高了
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/Li_阴宅/article/detail/802397
推荐阅读
article
nodejs
sqlite
模块...
安装出错,以前没这个问题,这次出错了。最后发现是版本问题,对于 node 10.x 及更高版本,只需安装
sqlite
3@...
赞
踩
article
洞察
数据
资产
的
奥秘:深入剖析
数据
资产
在
企业
运营
中
的
核心作用
,
提出一套全面、
系统
的
数据
资产
解决方案
,
帮...
在数字化浪潮汹涌
的
今天
,
数据
已成为
企业
最宝贵
的
资产
之一。
数据
资产
不仅记录了
企业
的
历史
运营
轨迹
,
更蕴含着指导未来决策
的
智慧...
赞
踩
article
GPT4
比
ChatGPT
强在哪?丨小智
AI
_
gpt4
相比
chatgpt3.5
重点提升的能力...
,
GPT4
回答,“这张图片展现了一个松鼠拿着照相机,像专业摄影师一样拍摄松果,其笑点在于这实际上只有人类才做得到,松鼠是...
赞
踩
article
【
AI
绘图 丨
Stable
_
diffusion
系列教程二】— 无需配置环境 |
Colab
直接运...
Stable
Diffusion
模型(稳定扩散模型)是一种用于生成式建模的深度学习模型,它使用随机微分方程(SDE)来建...
赞
踩
article
VSCode
工程中
task
.
json
的
作用_
vscode
task
s.
json
干什么
的
...
task
s.
json
文件为开发者提供了一种便捷
的
方式来配置和自动化常见
的
任务操作。通过适当地配置该文件,你可以极大地简化...
赞
踩
article
应急
响应
:
应急
响应
流程
,
常见
应急
事件
及处置思路...
这篇文章带大家解读安全
事件
分类分级
,
应急
响应
的组织架构和
流程
,
以及灾备相关知识。_
应急
响应
流程
应急
响应
流程
...
赞
踩
article
【
Kafka
生产者
发消息流程】_
kafka
发送数据
流程...
Kafka
生产者
发消息流程_
kafka
发送数据
流程
kafka
发送数据
流程 ...
赞
踩
article
岭
回归
(
ridge
regression
)...
岭
回归
(
ridge
regression
)在处理
回归
问题时,常遇到的问题 在处理复杂的数据的
回归
问题时,普通的线性
回归
...
赞
踩
article
SQLServer
update
语句
用法...
UPDATE
语句
用于创建一个更新查询,根据指定的条件更改指定表中的字段值。UPDATE
语句
不生成结果集,而且当使用更新查...
赞
踩
article
spark
withColumn
的
使用
(笔记)...
withColumn
():是Apache Spark中用于DataFrame操作
的
函数之一,它
的
作用是在DataFram...
赞
踩
article
uni
app
开发H5
微信
支付
_
uin
-
app
h5
支付
...
【代码】uni
app
开发H5
微信
支付
。_
uin
-
app
h5
支付
uin
-
app
h5
支付
...
赞
踩
article
昇思
25
天
学习
打卡营第
25
天|
DCGAN
生成
漫画
头像
...
这不仅加深了我们对GAN(
生成
对抗网络)原理的理解,也让我们体验到了
生成
模型和判别模型之间的博弈过程。在训练模型的过程中...
赞
踩
article
verilog
多因素影响
仲裁
器
设计_
轮询
仲裁
器
verilog
...
verilog
多因素影响
仲裁
器
设计_
轮询
仲裁
器
verilog
轮询
仲裁
器
verilog
前...
赞
踩
article
St
a
ble Diffusion 本地部署教程不完全指南_
st
a
ble
-
diffusion
-v1-5...
St
a
ble Diffusion 本地部署教程不完全指南_
st
a
ble
-
diffusion
-v1-5
does
not ...
赞
踩
article
TCP
/
IP
模型
和
OSI
模型
的区别...
在计算机网络的上下文中,"端"通常指的是一个特定的通信实体,它可以是主机上的一个应用程序,也可以是主机上的一个特定端口。...
赞
踩
article
高能干货
:
OpenCV
看这篇就够
了
,
9段代码详解
图像
变换
基本操作
...
导读
:
OpenCV
是一个以BSD许可证开源的、跨平台的计算机视觉库。它提供
了
Python、C++、Java、Matlab...
赞
踩
article
【
chatgpt
】
PyTorch
中
repeat
方法
用于沿指定的
维度
重复
张量
...
repeat
方法
用于沿指定
维度
重复
张量
。它接受一个或多个整数参数,表示每个
维度
的
重复
次数。通过
重复
操作,可以扩展
张量
以匹...
赞
踩
article
C++
算法
与
数据结构
...
本文的
算法
汇总,包括但不限于动态规划、回溯、贪心、分支、图论、组合数学、数量等。C++
算法
与
数据结构
...
赞
踩
article
Linux之彻底
结束
脚本
运行
_
linux
结束
某个
脚本
运行
...
选项是非常强大的,因为它们会匹配所有包含指定字符串的命令行,所以请确保你提供了足够详细且唯一的
脚本
名称或路径,以避免意外...
赞
踩
article
【
新星
计划
·2024】
Linux
文件
权限
讲解...
对于初学者来说,这个部分是相当重要的,因为
文件
的
权限
与属性是学习
Linux
的一个相当重要的关卡,如果没有这部份的概念...
赞
踩
相关标签
sqlite
数据库
大数据
人工智能
运维
数据资产解决方案
数据资产平台建设方案
数据资产管理
AI作画
stable diffusion
vscode
json
ide
网络安全
web安全
安全
kafka
分布式
java
sqlserver
table
sql
date
扩展