跳到主要内容
首页
强化学习基础
离线强化学习
大模型与强化学习
JoyRL 文档
GitHub
阅读模式
第 7 章 · DQN 算法
▾
前言
阅读
术语与符号说明
阅读
第 1 章 · 绪论
阅读
第 2 章 · 马尔可夫决策过程
阅读
第 3 章 · 动态规划
阅读
第 4 章 · 蒙特卡洛方法
阅读
第 4.1 章 · 时序差分方法
阅读
第 5 章 · Dyna-Q 算法
阅读
第 6 章 · 深度学习基础
阅读
第 7 章 · DQN 算法
交互
第 8 章 · DQN 算法进阶
阅读
第 9 章 · 策略梯度方法
阅读
第 10 章 · Actor-Critic 算法
阅读
第 11 章 · DDPG 算法
阅读
第 11.1 章 · TRPO 算法
阅读
第 12 章 · PPO 算法
阅读
第 13 章 · SAC 算法
阅读
第 14 章 · 模仿学习
阅读
上一章
下一章
环境步数
0
Episode
1
优化步数
0
Online/Target 差值
0.00
交互走廊环境
从中间状态出发,向右抵达 goal 会获得 +1 奖励。
等待第一步
S0
state
S1
state
S2
start
S3
state
S4
goal
当前位置
S2
最近动作
尚未执行
随机数 / ε
--
下次自动同步
4 次优化后
Online Network
输出层快照
S0
L
0.00
R
0.00
S1
L
0.00
R
0.00
S2
L
0.00
R
0.00
S3
L
0.00
R
0.00
S4
goal
L
0.00
R
0.00