< 强化学习:Markov决策过程(MDP)——手把手教你入门强化学习(二)_华体育app官网登录_华体育app官网登录|华体会手机版

  强化学习:Markov决策过程(MDP)——手把手教你入门强化学习(二)

  本文内容由阿里云实名注册用户自发贡献,版权属于原本的作者所有,阿里云开发者社区不拥有其著作权,亦不承担对应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和 《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

  本文是“手把手教你入门强化学习”系列的第二篇,重点讲解了强化学习的核心数学模型——Markov决策过程(MDP)。文章从马尔可夫性质出发,逐步引入马尔可夫过程、马尔可夫奖励过程,最终深入到马尔可夫决策过程,详细解析了状态转移、奖励机制、价值函数及贝尔曼方程等关键概念。同时,文中还介绍了策略函数、最优价值函数等内容,并指出求解强化学习问题的重点是寻找最优策略。通过理论推导与实践结合的方式,帮助读者更好地理解强化学习基础原理。

  本期是手把手教你入门强化学习第二篇了,在这期,笔者会介绍强化学习中最核心的数学模型——Markov决策过程,用来描述智能体(Agent)与环境(Environment)交互的框架。同样会尽量通俗易懂,不过本次会有大量数学推导,如果对此不了解的友友,看不懂的没有关系,跟上期一样同样会有实践代码环节,帮大家更好地理解背后的原理。

  强化学习:基础知识篇(包含Gym库的简单实践)——手把手教你入门强化学习(一)

  我们在一个时序的过程中,若t+1时的状态只跟t时的状态有关,而与t时之前的任何状态都没关系,我们就认为t时的状态具有马尔可夫性质。

  而具备马尔可夫性质的随机过程称为马尔可夫过程(MP)或者马尔可夫链(MC)。这样的一个过程我们也可以用一个元组来描述。

  如果我们从马尔可夫过程中生成一个状态序列这一过程叫做采样(也就是根据转移概率,随机选择生成一串状态) 若最后一个状态是终止状态,我们就称该状态是完整的状态序列。

  但是上面这个我们还没有引入强化学习中的奖励过程,若我们引入奖励,我们应该变为4元组,称为马尔可夫奖励过程(MRP)。它是由构成的一个元组,其中

  在马尔可夫过程中,我们每经历一次状态转移,也就是强化学习中,智能体做出动作,都会收到环境所给予的奖励,我们把一个状态序列所经历的所有奖励累计起来,叫做收获(return)。

  收获(Return)是在一个马尔可夫奖励过程中从某一状态St开始采样直到终止状态时所有奖励的衰减之和。数学表达式如下:

  在这一过程中,我们引入 $\gamma$ 这个在[0,1]范围内的衰减系数。我们大家可以这样理解,对于当下时刻当前状态来说,当前的奖励对我影响是最大的,随着状态的转移,奖励逐渐衰减。但当 $\gamma$ 衰减系数取1时,我们大家都认为它具有长远眼光,因为它将所有状态(后续转移状态)的奖励同等考虑。

  一个状态的价值是该状态的收获的期望,也就是说从这个状态出发的所有状态序列(一般计算不了,我们尽量算多,算的越多越准确),我们计算它的奖励,然后对其求期望就是这一个状态具备的价值。

  这时候我们提出一个函数,价值函数。它建立了状态到价值的映射关系。不过我们得知它的计算过程过于复杂,有没有更简单的方法呢?

  而又因为$R_{t+1}$的期望就是其自身,因为每次离开同一个状态得到的奖励都是一个固定值,用s表示下一个状态,故最后方程可以写出:

  这就是马尔可夫奖励过程中的贝尔曼方程,他表示一个状态的价值由两部分组成:

  在强化学习问题中,如果智能体能够知道每个状态的价值,就能在当前状态下所有能采取的行为中,选择出哪一个行为最有意义、最有价值。

  马尔可夫奖励过程不涉及智能体的决策选择,而马尔可夫决策过程(MDP)则是由一个五元组组成,相较于奖励过程,我们多一个元素,A表示一个有限行为集。

  这里给出一个概念,策略函数,用字母$\pi$表示。策略函数$\pi$是某一状态下基于行为集合的一个概率分布,我们给出策略函数:

  这里解释一下为什么是概率分布,由于动作的选择就有概率性的,我们采取行为是从这一个动作空间进行抽样得到的。

  这个时候,我们拓展一下之前定义的价值函数,$$v_{\pi}(s)$$是在马尔可夫决策过程中基于策略\pi的状态价值函数,表示从状态s开始,遵循当前策略$\pi$时所获得收获的期望:

  同样,由于引入了行为,为了描述同一状态下采取不同行为的价值,我们定义一个基于策略π的行为价值函数$q_{\pi}(s,a)$,表示在遵循策略π时对当前状态s执行某一具体行为a所能得到的收获的期望:

  定义了基于策略π的状态价值函数和行为价值函数后,依据贝尔曼方程,我们大家可以得到如下两个贝尔曼期望方程:

  由于行为是连接马尔可夫决策过程中状态转换的桥梁,因此一个行为的价值与状态的价值关系紧密,具体表现为一个状态的价值可以用该状态下所有行为价值来表达:

  解决强化学习问题意味着要寻找一个最优的策略(让个体在与环境交互过程中获得始终比其他策略都要多的收获)​,这个最优策略用π表示。一旦找到最优策略π,就从另一方面代表着该强化学习问题得到了解决。寻找最优策略是一件很难的事情,但是能通过比较两个不同策略的优劣来确定一个较好的策略。

  【定义】最优状态价值函数(Optimal Value Function)是所有策略下产生的众多状态价值函数中的最大者:

  【定义】最优行为价值函数(Optimal Action-Value Function)是所有策略下产生的众多行为价值函数中的最大者:

  也就是说最优策略在面对每一个状态时将总是选择能带来最大、最优行为价值的行为。这同时意味着,一旦得到q*(s,a),最优策略也就找到了。因此求解强化学习问题就转变为求解最优行为价值函数问题。

  而求解贝尔曼最优方程不是线性方程,无法直接求解,一般会用迭代法来求解,具体有价值迭代、策略迭代、Q学习、Sarsa学习等多种迭代方法,我将在后面几期的博客中详细介绍。

  本博客从马尔可夫性质引入,到马尔可夫过程,再到马尔可夫奖励过程,最后到马尔可夫决策过程,从中讲述了强化学习中最重要的几个概念,包括策略函数,状态转移,价值函数,最优行为价值函数,这也是我们学强化学习前必须掌握的概念。

  本场景中主要介绍怎么样去使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。

  机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的所有的领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。

  DQN算法是深度学习领域首次大范围的应用于强化学习的算法模型之一。它于2013年由DeepMind公司的研究团队提出,通过将深度神经网络与经典的强化学习算法Q-learning结合,实现了对高维、连续状态空间的处理,具备了学习与规划的能力。本文对DQN算法进行了详细的讲解,包括发展史、算法公式和原理、功能、示例代码以及怎么样去使用。DQN算法通过结合深度学习和Q-learning算法,实现了对高维、连续状态空间的处理,具备了学习和规划的能力。

  强化学习:蒙特卡罗求解最优状态价值函数——手把手教你入门强化学习(五)

  本文介绍了强化学习中的蒙特卡罗算法,包括其基本概念、两种估值方法(首次访问蒙特卡罗与每次访问蒙特卡罗)及增量平均优化方式。蒙特卡罗法是一种基于完整回合采样的无模型学习方法,通过统计经验回报的平均值估计状态或动作价值函数。文章详细讲解了算法流程,并指出其初期方差较大、估值不稳定等缺点。最后对比动态规划,说明了蒙特卡罗法在强化学习中的应用价值。适合初学者理解蒙特卡罗算法的核心思想与实现步骤。

  强化学习:实践理解Markov决策过程(MDP)(干中学系列)——手把手教你入门强化学习(三)

  本博客以实践为主,带领读者巩固上期关于“Markov决策过程”的核心概念。通过构建学生马尔可夫奖励模型、计算收获值与状态价值,进一步验证贝尔曼方程。详细的介绍了转移概率、奖励值及策略概率的设置,并实现了均匀随机策略下的状态价值计算与最优策略的价值评估。结合代码实例,帮助读者深入理解强化学习理论。适合初学者实践与进阶学习。

  强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法

  Richard Sutton领导的团队提出了一种称为“奖励中心化”的方法,通过从观察到的奖励中减去其经验平均值,使奖励更加集中,明显提高了强化学习算法的性能。该方法在解决持续性问题时表现出色,尤其是在折扣因子接近1的情况下。论文地址:

  强化学习是一种通过智能体与环境的互动来学习最优行为策略的机器学习方法。相较于监督学习和无监督学习,强化学习的特点在于具有延迟奖赏和试错机制。在强化学习中,智能体通过选择动作来影响环境,并且从环境中获得奖励作为反馈。强化学习的目标是通过与环境的交互,使得智能体能够学会最优的行为策略。PPO算法属于策略优化(Policy Optimization)算法家族,是由OpenAI在2017年提出的。与其他策略优化算法相比,PPO算法具有较高的样本利用率和较好的收敛性能。

  在车杆环境中,有一辆小车,智能体的任务是通过左右移动保持车上的杆竖直,若杆的倾斜度数过大,或者车子离初始位置左右的偏离程度过大,或者坚持时间到达 200 帧,则游戏结束。智能体的状态是一个维数为 4 的向量,每一维都是连续的,其动作是离散的,动作空间大小为 2,详情参见表 7-1 和表 7-2。在游戏中每坚持一帧,智能体能获得分数为 1 的奖励,坚持时间越长,则最后的分数越高,坚持 200 帧就可以获得最高的分数。

  DQN 算法敲开了深度强化学习的大门,但是作为先驱性的工作,其本身存在着一些问题以及一些可以改进的地方。于是,在 DQN 之后,学术界涌现出了非常多的改进算法。本章将介绍其中两个非常著名的算法:Double DQN 和 Dueling DQN,这两个算法的实现格外的简单,只需要在 DQN 的基础上稍加修改,它们能在某些特定的程度上改善 DQN 的效果。

  动手学强化学习(二):马尔可夫决策过程 (Markov decision process,MDP)

  马尔可夫决策过程(Markov decision process,MDP)是强化学习的重要概念。要学好强化学习,我们第一步要掌握马尔可夫决策过程的基础知识。前两章所说的强化学习中的环境一般就是一个马尔可夫决策过程。与多臂问题不同,马尔可夫决策过程包含状态信息以及状态之间的转移机制。如果要用强化学习去解决一个实际问题,第一步要做的事情就是把这个实际问题抽象为一个马尔可夫决策过程,也就是明确马尔可夫决策过程的各个组成要素。本章将从马尔可夫过程出发,一步一步地进行介绍,最后引出马尔可夫决策过程。

  PAI-STUDIO通过Tensorflow处理MaxCompute表数据

  【新手必看】PyCharm2025 免费下载安装配置教程+Python环境搭建、图文并茂全副武装学起来才嗖嗖的快,绝对最详细!

  【新模型速递】PAI一键云上零门槛部署DeepSeek-V3-0324、Qwen2.5-VL-32B

  强化学习:时间差分(TD)(SARSA算法和Q-Learning算法)(看不懂算我输专栏)——手把手教你入门强化学习(六)

  如何用大模型评估大模型——PAI-Judge裁判员大语言模型的实现简介

  强化学习:蒙特卡罗求解最优状态价值函数——手把手教你入门强化学习(五)

  强化学习:动态规划求解最优状态价值函数——手把手教你入门强化学习(四)

  强化学习:实践理解Markov决策过程(MDP)(干中学系列)——手把手教你入门强化学习(三)

  强化学习:Markov决策过程(MDP)——手把手教你入门强化学习(二)

  强化学习:Gym的库的实践——小车上山(包含强化学习基础概念,环境配置国内镜像加速)——手把手教你入门强化学习(一)

CONTACT US
欢迎随时与我们联系