基础强化学习术语与符号说明本页总览README符号说明 符号说明强调一段轨迹中第 步的状态、动作、奖励,有时也写作,大写更强调随机变量某个事件的概率,以区分与状态转移矩阵 回报( ),指从时间步 开始的未来(折扣)奖励和状态价值,表示在策略 下,从状态 出发的期望回报动作价值,表示在策略 下,从状态 出发,采取动作 的期望回报 术语说明 符号说明从某个初始状态出发,根据当前策略与环境交互,采样出一整条轨迹的过程。,即最大步数减去当前步数,表示智能体能向前“看到”的时间长度回报,即从时间步 开始的未来(折扣)奖励和