计算机系统应用教程网站

网站首页 > 技术文章 正文

强化学习中最有名的算法——Q-Learning

btikc 2024-10-14 08:51:22 技术文章 4 ℃ 0 评论

算法简介

Q-Learning算法,目标是达到目标状态并获取最高收益,一旦到达目标状态,最终收益保持不变。因此,目标状态又称之为吸收态。

算法核心:

1、设置好 γ 值以及矩阵R

2、初始化矩阵Q全为0

3、For each episode:

  • Select a random initial state
  • Do while the goal state hasn’t been reached.
  • End Do

4、End For

代码实现

整个算法就是一直不断更新 Q table 里的值, 然后再根据新的值来判断要在某个 state 采取怎样的 action. Qlearning 是一个 off-policy 的算法, 因为里面的 max action 让 Q table 的更新可以不基于正在经历的经验。

maze_env :环境模块, maze_env 模块我们可以不深入研究, 可以去看看如何使用 python 自带的简单 GUI 模块 tkinter 来编写虚拟环境。

RL_brain: 这个模块是 Reinforment Learning 的大脑部分。

算法主要内容:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表