搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
盐析白兔
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
离线知识库服务(Langchain-Chatchat)本地搭建_bge-large-zh-v1.5
2
人工智能导论笔记-第四章-不确定性推理方法_已知输入的模糊集合a=1/a_1 +0.8/a_2 +0.2/a_3 +0.5/a_4 , 输出的模
3
【深入浅出C#】章节 6: 异常处理和调试:异常的概念和处理机制_c#异常处理机制
4
基于Python爬虫辽宁丹东二手房数据可视化系统设计与实现(Django框架) 研究背景与意义、国内外研究现状
5
MMLU数据集分享_cais/mmlu数据集
6
3d怎么两个模型连接圆润?---模大狮模型网
7
python江苏南京天气预报数据可视化大屏全屏系统设计与实现(django框架)_基于python的天气预测系统研究
8
拿到字节跳动奖学金,入职字节跳动做科研,他们经历了什么?_浙大毕业生在字节跳动
9
python 使用 max函数求字典的最大值(lambda表达式)_python编写max函数求两个数最大值
10
Datawhale 动手学大模型应用开发 第四五章笔记 向量数据库 / Prompt / 检索chain / 记忆_私人数据集检索prompt
当前位置:
article
> 正文
强化学习douzero模型伪代码_douzero代码解读
作者:盐析白兔 | 2024-03-31 23:57:53
赞
踩
douzero代码解读
文章目录
伪代码
中文逻辑
算法1 Douzero的Actor过程
算法2 Douzero的Learner过程
伪代码
中文逻辑
算法1 Douzero的Actor过程
Input: 对于每一次entry,共享buffer
B L , B U , B D B_L, B_U, B_D
B
L
,
B
U
,
B
D
有B个entries,size为
S S
S
,探索超参数为
ϵ \epsilon
ϵ
,折扣为
γ \gamma
γ
初始化本地Q-networks
Q L , Q U , Q D Q_L,Q_U,Q_D
Q
L
,
Q
U
,
Q
D
,本地buffers
D L , D U , D D D_L,D_U,D_D
D
L
,
D
U
,
D
D
for 迭代=1,2,…,T do
用learner过程异步化
Q L , Q U , Q D Q_L,Q_U,Q_D
Q
L
,
Q
U
,
Q
D
for t = 1,2,…,T do
#生成一个回合
Q
← \leftarrow
←
基于一个位置,
Q L , Q U , Q D Q_L,Q_U,Q_D
Q
L
,
Q
U
,
Q
D
其中的一个
a t ← { a r g m a x a Q ( s t , a ) , w i t h p r o b ( 1 − ϵ ) 随 机 动 作 , w i t h p r o b ϵ a_t \leftarrow
{
a
r
g
m
a
x
a
Q
(
s
t
,
a
)
,
w
i
t
h
p
r
o
b
(
1
−
ϵ
)
随
机
动
作
,
w
i
t
h
p
r
o
b
ϵ
{
a
r
g
m
a
x
a
Q
(
s
t
,
a
)
,
w
i
t
h
p
r
o
b
(
1
−
ϵ
)
随
机
动
作
,
w
i
t
h
p
r
o
b
ϵ
a
t
←
{
a
r
g
m
a
x
a
Q
(
s
t
,
a
)
,
w
i
t
h
p
r
o
b
(
1
−
ϵ
)
随
机
动
作
,
w
i
t
h
p
r
o
b
ϵ
执行
a t a_t
a
t
,观察到
s t + 1 s_{t+1}
s
t
+
1
和奖励
r t r_t
r
t
存
{ s t , a t , r t } \{s_t,a_t,r_t \}
{
s
t
,
a
t
,
r
t
}
进相应的
D L , D U , D D D_L,D_U,D_D
D
L
,
D
U
,
D
D
end for
for t=T-1,T-2,…,1 do
#获得累计奖励
r t ← r t + γ r t + 1 r_t \leftarrow r_t+\gamma r_{t+1}
r
t
←
r
t
+
γ
r
t
+
1
然后更新
D L , D U , D D D_L,D_U,D_D
D
L
,
D
U
,
D
D
中的
r t r_t
r
t
end for
for
p ∈ { L , U , D } p\in \{L,U,D \}
p
∈
{
L
,
U
,
D
}
do
#多线程优化
if
D p . l e n g t h ≥ L D_p.length \ge L
D
p
.
l
e
n
g
t
h
≥
L
then
请求并等待
B p B_p
B
p
的一个空entry
从
D p D_p
D
p
中移动大小为
L L
L
的
{ s t , a t , r t } \{s_t,a_t,r_t\}
{
s
t
,
a
t
,
r
t
}
到
B p B_p
B
p
end if
end for
end for
算法2 Douzero的Learner过程
Input: 对于每一次entry,共享buffer
B L , B U , B D B_L, B_U, B_D
B
L
,
B
U
,
B
D
有B个entries,size为
S S
S
, batch size
M M
M
,学习率为
ψ \psi
ψ
初始化全局Q-networks
Q L g , Q U g , Q D g Q^g_L,Q^g_U,Q^g_D
Q
L
g
,
Q
U
g
,
Q
D
g
for 迭代=1,2,… 知道收敛 do
for
p ∈ { L , U , D } p\in \{L,U,D \}
p
∈
{
L
,
U
,
D
}
do
#多线程优化
if
B p B_p
B
p
中的full entries的数目
≥ M \ge M
≥
M
then
从
B p B_p
B
p
中抽样一个
M × S 实 例 { s t , a t , r t } M\times S实例\{s_t,a_t,r_t\}
M
×
S
实
例
{
s
t
,
a
t
,
r
t
}
的一个batch然后释放entris
用MSE loss和学习率
ψ \psi
ψ
更新
Q p g Q^g_p
Q
p
g
end if
end for
end for
声明:
本文内容由网友自发贡献,转载请注明出处:
【wpsshop博客】
推荐阅读
article
卷积
神经网络
的深入理解-
评测
指标
篇(
PR
曲线
,
ROC
曲线
,
AUC
面积,
IOU
,AP含实例)_卷积神经...
卷积
神经网络
的深入理解-
评测
指标
篇绪论什么是
评测
指标
?分类任务
评测
指标
1、准确率/召回率/精确度/F1-score2、P...
赞
踩
article
基于
OpenCV
的
车道
线
检测
_ros:
opencv
车道
线
检测
...
本项目主要使用
OpenCV
库,对视频中的
车道
线
进行识别。通过图像处理技术,实现对
车道
线
的处理、
检测
,并在视频中准确标记出...
赞
踩
article
如何运行
github
上
的
项目
_
github
上
下载
的
项目
如何运行...
如何把Github
上
的
项目
运行起来,简单举个例子!_
github
上
下载
的
项目
如何运行
github
上
下载
的
项目
如何运行 ...
赞
踩
article
性能强
,
成本低
,
运行快!最强
开源
大
模型
出现
,
超越
ChatGPT
和
Llama
!...
大数据人工智能公司 Databricks放大招了!3月27日
,
该公司
开源
了通用大
模型
DBRX
,
并声称该
模型
是
,
比 Me...
赞
踩
article
共享存储集群(DM
DSC
)搭建
_
os
_
asm
_
env
_
init
error
.
code
:
-11041...
共享存储集群(DM
DSC
)搭建DM
DSC
是一个单数据库多实例的集群系统 数据库部署在共享存储上,供所有节点访问,具有...
赞
踩
article
浅谈
LoRa
,
LoRa
WAN,NB-
IoT
三类物联网
技术
_nb卡
lora
...
关于三种物联网
技术
的理解和看法_nb卡
lora
nb卡
lora
...
赞
踩
article
基于
matlab
的
指纹
图像处理
、
脊线
增强
、
脊线
分割
、
脊线
细化
、
细节
点
检测和
细节
点
验证(毕设完整代码+...
基于
matlab
的
指纹
图像处理
、
脊线
增强
、
脊线
分割
、
脊线
细化
、
细节
点
检测和
细节
点
验证(毕设完整代码+报告)_
脊线
提取ma...
赞
踩
article
sklearn
学习之:(4)
PCA
降维
算法 + SVM 的
分类
算法(
SVC
)_先
pca
再
svm
...
文章目录简介1. 原数据直接做人脸
分类
2.
PCA
降维
后(feature_ration是留下来的特征比例)3. 进一步缩...
赞
踩
article
使用
GDB
调试AT&T
汇编
_
gdb
ref
单步
汇编
指令a
t
&
t
...
注:以下内容为学习笔记,多数是从书本、资料中得来,只为加深印象,及日后参考。然而本人表达能力较差,写的不好。因非翻译、非...
赞
踩
article
Fastdfs
集群
部署以及基本操作...
FastDFS引言本地存储与分布式文件系统本地存储的缺点:是否有备份? 没有成本角度? 贵 服务器 :用于计算 ---...
赞
踩
article
Python
应该
怎么
去
练习和使用?
_
python
怎么
训练
...
大三的时候,我在网易云课堂学完了一门
Python
入门课程。然而,学完之后就学完了。喵喵喵?不是说学会
Python
可以干很...
赞
踩
article
Android
集成
科大
讯飞
语音
识别
、
语音
唤醒
、
语音
播报简易封装_
科大
讯飞
语音
唤醒
+命令...
注意其实代码还可以优化,由于公司业务需要,封装的不怎么彻底,使用者可在此基础上进一步封装。其中IflytekAPP_id...
赞
踩
article
RT
-
THread
OS 互斥量创建及实例
_
rt
_
waiting
_
forever
...
RT
-
THread
OS 互斥量创建及实例
_
rt
_
waiting
_
forever
rt
_
waiting
_
forever
...
赞
踩
article
【
SMS
短信接收】
claude
.
ai
open
ai
教程
_
claude
.
ai
怎么接码
注册
...
网站地址:https://sms-activate.org/
_
claude
.
ai
怎么接码
注册
claude
.
ai
怎么接码注...
赞
踩
article
python
评论
情感
分析
nltk
_
Python
手把手教你用机器学习进行
情感
分析
...
本文,我将利用一个例子教大家使用
python
中的机器学习库构建一个可以进行
情感
分析
的模型。首先,我们构建模型需要数据集,...
赞
踩
article
分组
卷积
/
群
卷积
(
Group
Convolution
)
_
组
卷积
与
群
卷积
...
群
卷积
最早出现于AlexNet中。是为了解决显存不够的问题,将网络部署在两张GTX 580显卡上训练,Alex认为gro...
赞
踩
article
【超详细】初学者包会的
Vision
Transformer
(ViT)的
PyTorch
实现
代码
学习_v...
本文参考了b站up霹雳吧啦Wz的视频稿件,图片均为该视频截图。
代码
来源timm库(
PyTorch
ImageModels,...
赞
踩
article
Pytorch
(三)
:
Dataset
和
Dataloader
的理解
_
tensordataset
...
Dataloader
函数原型
:
torch.utils.data.DataLoader(dataset, batch
_
si...
赞
踩
article
[
数据
可视化]
词云
(
Word
Cloud
)...
本文主要讲解
词云
_
词云
词云
词云
介绍
词云
,又称文字云,是文本
数据
的视觉表示,由词汇组成类似云...
赞
踩
article
深度
学习
之
目标
检测
R-
CNN
模型
算法
流程详解说明(超详细理论篇)_cnn
目标
检测
cvpr
...
R
CNN
算法
分为4个步骤:获取候选区域:对于一张输入的图像,首先使用selective search
算法
获取2000个左...
赞
踩
相关标签
cnn
深度学习
人工智能
opencv
计算机视觉
github
前端
简历
面试
chatgpt
llama
物联网
网络
网络协议
matlab
图像处理
图形渲染
python
开发语言
爬虫
后端
语音识别
java
android