综合性实验 | 2学时 | 支持课程目标2、3、4
在 Grid World 环境中训练 AI Agent,直观理解强化学习的状态-动作-奖励循环和 Q-Learning 算法。
🤖 Agent (蓝色) 从左上角出发⭐ 目标 (金色) 在右下角,奖励 +10💣 陷阱 (红色) 会扣分,奖励 -5⬜ 墙壁 (灰色) 不可通过每一步基础奖励 -0.1(鼓励最短路径)点击空白格子可以设置/取消陷阱和墙壁
Q(s,a) = Q(s,a) + alpha * [R + gamma * max Q(s',a') - Q(s,a)]