当前位置: 首页 > news >正文

强化学习——马尔可夫决策过程的理解

在这里插入图片描述

目录

  • 一、马尔可夫决策过程
    • 1.策略
    • 2.状态价值函数
    • 3.动作价值函数
    • 4.贝尔曼期望方程
  • 参考文献

一、马尔可夫决策过程

  马尔可夫决策过程(MDP)是马尔可夫奖励过程(MRP)的扩展,它引入了“动作”这一外界的影响因素,使得智能体能够主动选择行为,从而影响状态转移和奖励。MDP由状态集合、动作集合、折扣因子、奖励函数和状态转移函数构成。与MRP不同,MDP中的状态转移和奖励不仅取决于当前状态,还与智能体选择的动作相关。

  MDP的核心在于智能体与环境之间的持续交互:智能体根据当前状态选择一个动作,然后环境通过状态转移函数和奖励函数生成下一个状态和对应的奖励,并将这些反馈给智能体。智能体的目标是通过选择策略(即根据当前状态选择动作的规则)来最大化其累积奖励。MDP模型广泛应用于离散状态和动作空间的决策问题,而在状态空间为连续时,MDP仍然适用但需采用状态转移函数而非矩阵表示。

1.策略

  策略(Policy)是智能体在马尔可夫决策过程(MDP)中根据当前状态选择动作的规则。策略 π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi (a|s)=P(A_{t}=a|S_{t}=s) π(as)=P(At=aSt=s) 可以是确定性策略或随机性策略。在确定性策略中,每个状态只对应一个确定的动作,即该动作的概率为1,其他动作的概率为0;在随机性策略中,每个状态对应一个关于动作的概率分布,智能体根据该分布随机选择动作。由于马尔可夫性质的存在,策略只与当前状态相关,不依赖于历史状态。策略决定了智能体在每个状态下的行为,从而影响其累积奖励的期望,因此与不同策略对应的状态价值函数也会不同。

2.状态价值函数

  状态价值函数(State Value Function)是用于评估一个智能体在特定策略下,从某一状态开始并持续采取该策略时,期望获得的累积奖励的函数,用 V π ( s ) V^{\pi}(s) Vπ(s) 表示基于策略 π \pi π 的状态价值函数。具体来说,它表示在给定状态下,智能体在未来遵循某策略时所能获得的所有奖励的期望值。状态价值函数是评估和比较不同状态的有用工具,可以帮助智能体选择最优策略,从而最大化累积奖励。

V π ( s ) = E π [ G t ∣ S t = s ] V^{\pi}(s)= \mathbb{E}_{\pi}[G_{t}|S_{t}=s] Vπ(s)=Eπ[GtSt=s]

3.动作价值函数

  动作价值函数(Action Value Function)是用于评估在特定策略下,智能体从某一状态执行某一动作后,期望获得的累积奖励的函数,用 Q π ( s , a ) Q^{\pi}(s,a) Qπ(s,a)表示基于策略 π \pi π 。它表示在给定状态和动作的条件下,智能体在未来继续遵循该策略所能获得的所有奖励的期望值。动作价值函数帮助智能体评估在某一状态下不同动作的优劣,从而选择最优动作来最大化累积奖励。

Q π ( s , a ) = E π [ G t ∣ S t = s , A t = a ] Q^{\pi}(s,a)= \mathbb{E}_{\pi}[G_{t}|S_{t}=s,A_{t}=a] Qπ(s,a)=Eπ[GtSt=s,At=a]

V π ( s ) = ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) V^{\pi}(s)= \sum_{a\in A}\pi (a|s)Q^{\pi}(s,a) Vπ(s)=aAπ(as)Qπ(s,a)

Q π ( s , a ) = r ( s , a ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) V π ( s ′ ) Q^{\pi}(s,a)= r(s,a)+\gamma \sum_{s^{'}\in S} P (s^{'}|s,a)V^{\pi}(s^{'}) Qπ(s,a)=r(s,a)+γsSP(ss,a)Vπ(s)

4.贝尔曼期望方程

V π ( s ) = E π [ R t + γ V π ( S t + 1 ) ∣ S t = s ] = ∑ a ∈ A π ( a , s ) ( r ( a , s ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) ) V^{\pi}(s)= \mathbb{E}_{\pi}[R_{t}+\gamma V^{\pi}(S_{t+1})|S_{t}=s] =\sum_{a \in A}\pi (a,s)(r(a,s)+\gamma \sum_{s^{'}\in S}p(s^{'}|s,a)V^{\pi} (s^{'})) Vπ(s)=Eπ[Rt+γVπ(St+1)St=s]=aAπ(a,s)(r(a,s)+γsSp(ss,a)Vπ(s))

Q π ( s , a ) = E π [ R t + γ Q π ( S t + 1 , A t + 1 ) ∣ S t = s , A t = a ] = r ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) ∑ a ′ ∈ A π ( a ′ , s ′ ) Q π ( s ′ , a ′ ) Q^{\pi}(s,a)= \mathbb{E}_{\pi}[R_{t}+\gamma Q^{\pi}(S_{t+1},A_{t+1})|S_{t}=s,A_{t}=a]=r(s,a)+\gamma \sum_{s^{'}\in S}p(s^{'}|s,a)\sum_{a^{'}\in A} \pi (a^{'},s^{'})Q^{\pi}(s^{'},a^{'}) Qπ(s,a)=Eπ[Rt+γQπ(St+1,At+1)St=s,At=a]=r(s,a)+γsSp(ss,a)aAπ(a,s)Qπ(s,a)

参考文献

[1] 动手学强化学习

[2] 强化学习(Reinforcement Learning)

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 2024年直面天命!2025年或将成为未来十年最容易获批国自然的一年?
  • elementUI——checkbox复选框监听不到change事件,通过watch监听来解决——基础积累
  • JavaWeb【day08】--(MySQL-Mybatis入门)
  • 悟空CRM12密码登录算法类
  • FFmpeg源码:compute_frame_duration函数分析
  • GDB:加载符号表
  • Spring-容器:IOC-基于注解管理Bean
  • xxl-job升级到springboot3.0 导致页面打不开报错)问题
  • 语法分析例题
  • GAMES101(5~6节,光栅化)
  • C++ | Leetcode C++题解之第389题找不同
  • 通过15张图带你掌握网络抓包工具Wireshark必备使用技巧
  • 解决职业摔跤手分类问题的算法与实现
  • MySQL 数据库管理与操作指南
  • 数据结构之“双向链表”
  • ABAP的include关键字,Java的import, C的include和C4C ABSL 的import比较
  • create-react-app项目添加less配置
  • iOS动画编程-View动画[ 1 ] 基础View动画
  • JAVA_NIO系列——Channel和Buffer详解
  • JDK9: 集成 Jshell 和 Maven 项目.
  • Js基础——数据类型之Null和Undefined
  • MQ框架的比较
  • orm2 中文文档 3.1 模型属性
  • Python3爬取英雄联盟英雄皮肤大图
  • Spring Cloud Feign的两种使用姿势
  • SSH 免密登录
  • supervisor 永不挂掉的进程 安装以及使用
  • UEditor初始化失败(实例已存在,但视图未渲染出来,单页化)
  • ⭐ Unity 开发bug —— 打包后shader失效或者bug (我这里用Shader做两张图片的合并发现了问题)
  • weex踩坑之旅第一弹 ~ 搭建具有入口文件的weex脚手架
  • 番外篇1:在Windows环境下安装JDK
  • 前端js -- this指向总结。
  • 悄悄地说一个bug
  • 使用Tinker来调试Laravel应用程序的数据以及使用Tinker一些总结
  • UI设计初学者应该如何入门?
  • 阿里云ACE认证之理解CDN技术
  • ​queue --- 一个同步的队列类​
  • ​七周四次课(5月9日)iptables filter表案例、iptables nat表应用
  • # 利刃出鞘_Tomcat 核心原理解析(七)
  • #QT(智能家居界面-界面切换)
  • #基础#使用Jupyter进行Notebook的转换 .ipynb文件导出为.md文件
  • (35)远程识别(又称无人机识别)(二)
  • (function(){})()的分步解析
  • (zhuan) 一些RL的文献(及笔记)
  • (补充):java各种进制、原码、反码、补码和文本、图像、音频在计算机中的存储方式
  • (附源码)计算机毕业设计SSM在线影视购票系统
  • (全部习题答案)研究生英语读写教程基础级教师用书PDF|| 研究生英语读写教程提高级教师用书PDF
  • (文章复现)基于主从博弈的售电商多元零售套餐设计与多级市场购电策略
  • (一)Kafka 安全之使用 SASL 进行身份验证 —— JAAS 配置、SASL 配置
  • (转)jdk与jre的区别
  • (转)创业的注意事项
  • ***详解账号泄露:全球约1亿用户已泄露
  • .L0CK3D来袭:如何保护您的数据免受致命攻击
  • .Mobi域名介绍
  • .NET 8 编写 LiteDB vs SQLite 数据库 CRUD 接口性能测试(准备篇)