当前位置: 首页 > news >正文

【Saras算法】TD Learning的一种

强化学习相关的Sarsa算法的介绍。此处笔记根据B站课程,王树森老师的强化学习记录而来。7.Sarsa算法 (TD Learning 1_3)(Av374239425,P7)_哔哩哔哩_bilibili

Sarsa算法是TD算法的一种,名字来源于 需要观测的五元组(s(t), a(t), r(t), s(t+1), a(t+1)),即 State-Action-Reward-State-Action ,简称SARSA

1.TD target的推导

U(t)是折扣回报率,根据下面的推导,可以得到U(t)=R(t)+γ*U(t+1), 反映两个相邻回报之间的关系。

 假设R(t)依赖于(S(t), A(t), S(t+1))

QΠ(s(t),a(t))=E(U(t)|s(t),u(t)) 是U(t)的的期望,根据下面的推导可以得到下面的公式。

QΠ可以用r(t)+γ*QΠ(s(t+1),a(t+1)),其中QΠ是估计值,r(t)+γ*QΠ(s(t+1),a(t+1))是TD target y^,r(t)是观测到的奖励,QΠ(s(t+1),a(t+1))是QΠ的预测。r(t)+γ*QΠ(s(t+1),a(t+1))比QΠ更加贴近真实值。

 

2.表格型的SARSA: Tabular Version

适用于状态s和动作a有限的情况,绘制如下所示的表格,每个单元格表示对应动作的价值,用saras算法每次更新一个单元格。观测值( s(t), a(t),    r(t),      s(t+1)),根据Π(.|s(t+1))搜集抽样动作a(t+1),计算TD target y^,计算误差,更新。使QΠ逐渐接近真实值。

3.网络型SARSA: Sarsa Neural Network Version

 

使用神经网络近似,适用于状态s和动作a过多,无法使用表格的情况。需要训练一个价值网络q(s,a;w)近似QΠ(s,a),网络q随机初始化,学习参数w,根据观测到的reward,使用梯度下降更新w.

 

 Summary:

 

 

相关文章:

  • 可裂解试剂142439-92-7,Biotin-bisamido-SS-NHS ester 性质特点有哪些?
  • (附源码)springboot炼糖厂地磅全自动控制系统 毕业设计 341357
  • 神经网络架构图讲解教程,神经网络架构图讲解图
  • 【分享】使用 PXE + Kickstart 无人值守安装 Linux
  • 我赢助手之爆款内容创作:爆款内容的底层逻辑,检查下自己的内容是否符合呢?
  • ISO认证证书上常见的认可标志
  • 【ES8】新特性
  • [CISCN2019 华东南赛区]Web11
  • 【JavaScript 逆向】猿人学 web 第五题:乱码增强
  • Python:不要在循环中删除元素
  • 地理标志农产品质量安全风险评估及预警研究
  • 计算机毕业设计springboot+vue基本微信小程序的我来运动健身系统
  • 如何前后端分离?
  • Putty连接登录Linux .ppk
  • Java面试:MySQL间隙锁是什么鬼?
  • 【vuex入门系列02】mutation接收单个参数和多个参数
  • 【跃迁之路】【463天】刻意练习系列222(2018.05.14)
  • Android Studio:GIT提交项目到远程仓库
  • AzureCon上微软宣布了哪些容器相关的重磅消息
  • Codepen 每日精选(2018-3-25)
  • DOM的那些事
  • iOS仿今日头条、壁纸应用、筛选分类、三方微博、颜色填充等源码
  • Java读取Properties文件的六种方法
  • react-core-image-upload 一款轻量级图片上传裁剪插件
  • Sass Day-01
  • Selenium实战教程系列(二)---元素定位
  • springboot_database项目介绍
  • Webpack入门之遇到的那些坑,系列示例Demo
  • 基于Dubbo+ZooKeeper的分布式服务的实现
  • 开年巨制!千人千面回放技术让你“看到”Flutter用户侧问题
  • 利用DataURL技术在网页上显示图片
  • 两列自适应布局方案整理
  • 马上搞懂 GeoJSON
  • 世界上最简单的无等待算法(getAndIncrement)
  • No resource identifier found for attribute,RxJava之zip操作符
  • 专访Pony.ai 楼天城:自动驾驶已经走过了“从0到1”,“规模”是行业的分水岭| 自动驾驶这十年 ...
  • $L^p$ 调和函数恒为零
  • (13)Hive调优——动态分区导致的小文件问题
  • (4)(4.6) Triducer
  • (C语言)二分查找 超详细
  • (delphi11最新学习资料) Object Pascal 学习笔记---第8章第5节(封闭类和Final方法)
  • (TOJ2804)Even? Odd?
  • (二)正点原子I.MX6ULL u-boot移植
  • (过滤器)Filter和(监听器)listener
  • (五)c52学习之旅-静态数码管
  • (转)四层和七层负载均衡的区别
  • .naturalWidth 和naturalHeight属性,
  • .net 4.0 A potentially dangerous Request.Form value was detected from the client 的解决方案
  • .NET Standard 支持的 .NET Framework 和 .NET Core
  • .net 中viewstate的原理和使用
  • .NET基础篇——反射的奥妙
  • .Net语言中的StringBuilder:入门到精通
  • /usr/local/nginx/logs/nginx.pid failed (2: No such file or directory)
  • @RequestMapping 的作用是什么?
  • @Validated和@Valid校验参数区别