强化学习实践

综合性实验 | 2学时 | 支持课程目标2、3、4

在 Grid World 环境中训练 AI Agent，直观理解强化学习的状态-动作-奖励循环和 Q-Learning 算法。

Grid World 环境

Episode: 0Steps: 0Total Reward: 0

奖励曲线

环境说明

🤖 Agent (蓝色) 从左上角出发
⭐ 目标 (金色) 在右下角，奖励 +10
💣 陷阱 (红色) 会扣分，奖励 -5
⬜ 墙壁 (灰色) 不可通过
每一步基础奖励 -0.1（鼓励最短路径）

点击空白格子可以设置/取消陷阱和墙壁

Q-Learning 参数

学习率 (alpha): 0.1

折扣因子 (gamma): 0.9

探索率 (epsilon): 0.2

Q-Learning 公式

Q(s,a) = Q(s,a) + alpha * [R + gamma * max Q(s',a') - Q(s,a)]

epsilon-greedy 策略：
以 epsilon 概率随机探索，以 1-epsilon 概率选择当前最优动作。
训练初期多探索(epsilon大)，后期多利用(epsilon小)。

Q表：记录每个状态-动作对的价值估计，通过不断交互更新收敛到最优策略。