← 课程主页实验 5强化学习实践

强化学习实践

综合性实验 | 2学时 | 支持课程目标2、3、4

在 Grid World 环境中训练 AI Agent,直观理解强化学习的状态-动作-奖励循环和 Q-Learning 算法。

教学要点:强化学习核心循环:Agent 观察状态(S) → 选择动作(A) → 获得奖励(R) → 到达新状态(S') → 更新Q值 → 循环

Grid World 环境

Episode: 0Steps: 0Total Reward: 0

奖励曲线

环境说明

🤖 Agent (蓝色) 从左上角出发
⭐ 目标 (金色) 在右下角,奖励 +10
💣 陷阱 (红色) 会扣分,奖励 -5
⬜ 墙壁 (灰色) 不可通过
每一步基础奖励 -0.1(鼓励最短路径)

点击空白格子可以设置/取消陷阱和墙壁

Q-Learning 参数






Q-Learning 公式

Q(s,a) = Q(s,a) + alpha * [R + gamma * max Q(s',a') - Q(s,a)]

epsilon-greedy 策略:
以 epsilon 概率随机探索,以 1-epsilon 概率选择当前最优动作。
训练初期多探索(epsilon大),后期多利用(epsilon小)。

Q表:记录每个状态-动作对的价值估计,通过不断交互更新收敛到最优策略。