跳到主要内容
环境步数0
Episode1
优化步数0
Online/Target 差值0.00

交互走廊环境

从中间状态出发,向右抵达 goal 会获得 +1 奖励。

等待第一步
S0state
S1state
S2start
S3state
S4goal
当前位置S2
最近动作尚未执行
随机数 / ε--
下次自动同步4 次优化后

Online Network

输出层快照
S0
L
0.00
R
0.00
S1
L
0.00
R
0.00
S2
L
0.00
R
0.00
S3
L
0.00
R
0.00
S4goal
L
0.00
R
0.00