赞
踩
通过神经网络近似最优动作价值函数: Q ( s , a ; W ) ∼ Q ⋆ ( s , a ) Q(s,a;W)\sim Q^\star(s,a) Q(s,a;W)∼Q⋆(s,a)
通过神经网络近似最优状态价值函数: V ( s ; W V ) ∼ V ⋆ ( s ) V(s;W^V)\sim V^\star(s) V(s;WV)∼V⋆(s)
通过神经网络近似优势函数: A ( s , a ; W A ) ∼ A ⋆ ( s , a ) A(s,a;W^A)\sim A^\star(s,a) A(s,a;WA)∼A⋆(s,a)
Dueling Network为:
Q
(
s
,
a
;
W
A
.
W
V
)
=
A
(
s
,
a
;
W
A
)
+
V
(
s
;
W
V
)
−
m
a
x
a
A
(
s
,
a
;
W
A
)
后
续
使
用
W
=
(
W
A
,
W
V
)
Q(s,a;W^A.W^V)=A(s,a;W^A)+V(s;W^V)-max_aA(s,a;W^A)\\后续使用W=(W^A,W^V)
Q(s,a;WA.WV)=A(s,a;WA)+V(s;WV)−maxaA(s,a;WA)后续使用W=(WA,WV)
Q
(
s
,
a
;
W
)
=
A
(
s
,
a
;
W
A
)
+
V
(
s
;
W
V
)
−
m
a
x
a
A
(
s
,
a
;
W
A
)
Q(s,a;W)=A(s,a;W^A)+V(s;W^V)-max_aA(s,a;W^A)
Q(s,a;W)=A(s,a;WA)+V(s;WV)−maxaA(s,a;WA)
Dueling Network与DQN的功能、输入、输出完全一致,在网络结构上不同。
by CyrusMay 2022 04 11
我们在小孩和大人的转角
盖一座城堡
——————五月天(好好)——————
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。