DQN 交互模式 | JoyRL Book

跳到主要内容

环境步数0

Episode1

优化步数0

Online/Target 差值0.00

交互走廊环境

从中间状态出发，向右抵达 goal 会获得 +1 奖励。

等待第一步

S0state

S1state

S2start

S3state

S4goal

当前位置S2

最近动作尚未执行

随机数 / ε--

下次自动同步4 次优化后

Online Network

输出层快照

S0

L

0.00

R

0.00

S1

L

0.00

R

0.00

S2

L

0.00

R

0.00

S3

L

0.00

R

0.00

S4goal

L

0.00

R

0.00