Gymnasium 环境介绍
Gymnasium(曾用名为
如图 1 所示,对于每个环境,

在奖励说明中,通常会提到奖励临界值(
Gymnasium 环境接口
在 Gymnasium 中,每个环境都遵循一个标准的接口,包括以下几个关键方法:
reset(): 初始化环境并返回初始观测。step(action): 执行动作并返回下一个观测、奖励、是否结束标志和额外信息。render(): 可视化当前环境状态。close(): 关闭环境并释放资源。
通过这些方法,用户可以轻松地与环境交互,收集数据,如代码 1 所示。
import gymnasium as gym
# 创建环境
env = gym.make("CartPole-v1")
obs, info = env.reset() # 重置环境,获得初始观测或状态
for _ in range(100):
# env.render() # 显示画面
action = env.action_space.sample() # 随机采样一个动作
obs, reward, done, truncated, info = env.step(action) # 与环境交互
if done or truncated: # 如果回合结束,重置环境
obs, info = env.reset()
env.close()
其中,env.step(action) 返回的 done 和 truncated 标志用于指示当前回合是否结束。done 通常表示智能体达到了终止状态,而 truncated 则表示由于时间限制等原因导致的回合结束,通常 truncated 会比 done 更早触发。