跳到主要内容

Dyna-Q 算法

待补充,敬请期待!

算法是一种结合了模型学习与规划的强化学习方法,旨在提高学习效率和性能。该算法通过同时进行真实环境交互和基于模型的规划,来加速策略的改进过程。