当前位置: 首页 > news >正文

Proximal Policy Optimization Algorithms

本文提出一种新的强化学习策略梯度方法族,通过与环境的交互在采样数据之间交替进行,并使用随机梯度上升优化"替代"目标函数。标准策略梯度方法对每个数据样本执行一次梯度更新,本文提出一种新的目标函数,使多个小批量更新阶段成为可能。这些新方法称为近端策略优化(proximal policy optimization, PPO),具有信赖域策略优化(trust region policy optimization, TRPO)的一些优点,但它们实现起来更简单,更通用,并且具有更好的样本复杂度(经验上)。实验在一组基准任务上测试了PPO,包括模拟机器人运动和Atari游戏,PPO优于其他在线策略梯度方法,总体上在样本复杂性、简单性和wtime之间取得了良好的平衡。

背景:1)信赖域策略优化(trust region policy optimization, TRPO)相对复杂,与包含噪声(如dropout)或参数共享(策略和值函数之间,或与辅助任务)的架构不兼容。

2)为了优化策略,我们轮流从策略中采样数据,并对采样数据执行多个时段的优化。

2.1 Policy Gradient Methods

 

 

 2.2 Trust Region Methods

 

 

 3 Clipped Surrogate Objective

 

上标CPI为保守策略迭代[KL02],提出了该目标

 

 

4 Adaptive KL Penalty Coefficient

另一种方法是对KL散度进行惩罚,并对惩罚系数进行调整,以便每次策略更新时都达到KL散度dtarg的某个目标值。这种方法可以作为截断代理目标的替代或补充。我们发现KL惩罚比裁剪替代目标表现更差,但是,我们在这里包括它,因为它是一个重要的基线。 

 

5 Algorithm

 

 

 

 

 

7结论

我们介绍了近端策略优化,这是一种策略优化方法族,使用随机梯度上升的多个时期来执行每次策略更新。这些方法具有信任域方法的稳定性和可靠性,但实现起来要简单得多,只需要对普通策略梯度实现进行几行代码更改,适用于更一般的情况(例如,当为策略和值函数使用联合架构时),并且具有更好的整体性能。

相关文章:

  • ARM KEIL流程_job
  • [ Linux 长征路第二篇] 基本指令head,tail,date,cal,find,grep,zip,tar,bc,unname
  • SpringBoot——快速整合EasyExcel实现Excel的上传下载
  • Vue 国际化之 vue-i18n 的使用
  • 7、Java——for循环打印九九乘法口诀表
  • 目标检测 YOLO 系列模型
  • Java开发五年跳槽涨薪从12K到35K,靠“狂刷”九遍面试题
  • DM数据库安装,docker镜像
  • 项目中的traceID
  • Webview+Viewpager左右滑动冲突
  • 【 C++ 】多态
  • jupyter 基本用法
  • Unity入门01——unity界面基础
  • 【05】Yarn
  • Flutter 从源码看Getx的依赖原理
  • 【跃迁之路】【733天】程序员高效学习方法论探索系列(实验阶段490-2019.2.23)...
  • 〔开发系列〕一次关于小程序开发的深度总结
  • JavaScript的使用你知道几种?(上)
  • jQuery(一)
  • node入门
  • SegmentFault 社区上线小程序开发频道,助力小程序开发者生态
  • spring security oauth2 password授权模式
  • 当SetTimeout遇到了字符串
  • 分享几个不错的工具
  • 给新手的新浪微博 SDK 集成教程【一】
  • 深度解析利用ES6进行Promise封装总结
  • 译米田引理
  • ​马来语翻译中文去哪比较好?
  • #LLM入门|Prompt#3.3_存储_Memory
  • #我与Java虚拟机的故事#连载08:书读百遍其义自见
  • #我与Java虚拟机的故事#连载13:有这本书就够了
  • (1)Android开发优化---------UI优化
  • (Oracle)SQL优化技巧(一):分页查询
  • (编程语言界的丐帮 C#).NET MD5 HASH 哈希 加密 与JAVA 互通
  • (翻译)Quartz官方教程——第一课:Quartz入门
  • (附源码)spring boot网络空间安全实验教学示范中心网站 毕业设计 111454
  • (论文阅读31/100)Stacked hourglass networks for human pose estimation
  • (免费领源码)python#django#mysql公交线路查询系统85021- 计算机毕业设计项目选题推荐
  • (亲测)设​置​m​y​e​c​l​i​p​s​e​打​开​默​认​工​作​空​间...
  • (五) 一起学 Unix 环境高级编程 (APUE) 之 进程环境
  • (一一四)第九章编程练习
  • (转)自己动手搭建Nginx+memcache+xdebug+php运行环境绿色版 For windows版
  • ..thread“main“ com.fasterxml.jackson.databind.JsonMappingException: Jackson version is too old 2.3.1
  • .NET Core使用NPOI导出复杂,美观的Excel详解
  • .NET MAUI学习笔记——2.构建第一个程序_初级篇
  • .NET MVC、 WebAPI、 WebService【ws】、NVVM、WCF、Remoting
  • .Net6 Api Swagger配置
  • .NET国产化改造探索(一)、VMware安装银河麒麟
  • .Net开发笔记(二十)创建一个需要授权的第三方组件
  • /dev/VolGroup00/LogVol00:unexpected inconsistency;run fsck manually
  • /etc/fstab和/etc/mtab的区别
  • @ConfigurationProperties注解对数据的自动封装
  • [《百万宝贝》观后]To be or not to be?
  • [1159]adb判断手机屏幕状态并点亮屏幕
  • [2018/11/18] Java数据结构(2) 简单排序 冒泡排序 选择排序 插入排序