当前位置: 首页 > news >正文

CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

本文将深度q学习成功的基础思想应用于连续动作域。本文提出一种基于确定性策略梯度的actor-critic无模型算法,可在连续动作空间上操作。使用相同的学习算法、网络架构和超参数,所提出算法鲁棒地解决了20多个模拟物理任务,包括cartpole倒车、灵巧操作、腿部运动和汽车驾驶等经典问题。该算法能够找到性能与那些由完全访问域及其衍生物的动态规划算法所找到的策略相竞争的策略。进一步证明,对于许多任务,该算法可以"端到端"学习策略:直接从原始像素输入中学习

背景:

1)DQN不能直接应用于连续域,因为它依赖于找到最大化动作值函数的动作,在连续值的情况下,每一步都需要迭代优化过程 

2)本文提出一种无模型、非策略的actor-critic算法,使用深度函数逼近器,可以在高维连续动作空间中学习策略

 方法:

本文将actor-critic方法与深度Q网络(DQN)最近成功的见解相结合(Mnih等人2013;2015)。在DQN之前,人们普遍认为使用大型的非线性函数逼近器学习值函数是困难的和不稳定的。DQN能够使用这种函数逼近器以稳定和鲁棒的方式学习值函数,因为有两个创新:1。利用回放缓冲区中的样本对网络进行离线训练,以最小化样本之间的相关性;2. 该网络使用目标Q网络进行训练,以在时间差异备份期间提供一致的目标。本文利用相同的思想,以及批量归一化(Ioffe & Szegedy, 2015),这是深度学习的最新进展。

算法:

在这里,我们使用了一种基于DPG算法的行动者-评论家方法。

本文的贡献是受DQN成功的启发,对DPG进行了修改,使其能够使用神经网络函数逼近器在大型状态和动作空间中在线学习。我们将该算法称为深度DPG (DDPG,算法1)。

使用神经网络进行强化学习时的一个挑战是,大多数优化算法假设样本是独立同分布的。显然,当在一个环境中按顺序探索生成样本时,这个假设不再成立。此外,为了有效利用硬件优化,必须以小批量学习,而不是在线学习 

在连续动作空间中学习的一个主要挑战是探索。非策略算法(如DDPG)的一个优点是,我们可以独立于学习算法来处理探索问题。我们通过将从噪声过程N中采样的噪声添加到actor策略中,构建了探索策略μ

相关文章:

  • 【Dubbo】入门搭建
  • 理解红黑树
  • 【精通内核】CPU控制并发原理CPU中断控制
  • 牛客 NC208246 胖胖的牛牛
  • 源码安装nginx及其配置
  • Vue element-ui表格嵌进度条
  • 前后数据传输协议规范
  • Unions
  • 基于springboot的地质灾害应急管理系统
  • Structures
  • 向量数据库入坑指南:聊聊来自元宇宙大厂 Meta 的相似度检索技术 Faiss
  • 电子邮件营销新趋势-自动化
  • ICT产业关联效应的国际比较——基于投入产出的分析
  • 【algorithm】算法学习----堆
  • Q_ENUM Q_ENUMS Q_ENUM_NS Q_FLAG Q_FLAGS Q_FLAG_NS
  • leetcode讲解--894. All Possible Full Binary Trees
  • React-生命周期杂记
  • spring cloud gateway 源码解析(4)跨域问题处理
  • vue的全局变量和全局拦截请求器
  • vue总结
  • 初探 Vue 生命周期和钩子函数
  • 事件委托的小应用
  • 数据库写操作弃用“SELECT ... FOR UPDATE”解决方案
  • 系统认识JavaScript正则表达式
  • 远离DoS攻击 Windows Server 2016发布DNS政策
  • MiKTeX could not find the script engine ‘perl.exe‘ which is required to execute ‘latexmk‘.
  • 带你开发类似Pokemon Go的AR游戏
  • 教程:使用iPhone相机和openCV来完成3D重建(第一部分) ...
  • ​Base64转换成图片,android studio build乱码,找不到okio.ByteString接腾讯人脸识别
  • !$boo在php中什么意思,php前戏
  • ###STL(标准模板库)
  • #1014 : Trie树
  • #我与Java虚拟机的故事#连载13:有这本书就够了
  • (6)设计一个TimeMap
  • (ZT)一个美国文科博士的YardLife
  • (规划)24届春招和25届暑假实习路线准备规划
  • (十三)Flask之特殊装饰器详解
  • (一)appium-desktop定位元素原理
  • (原創) 如何安裝Linux版本的Quartus II? (SOC) (Quartus II) (Linux) (RedHat) (VirtualBox)
  • (转)scrum常见工具列表
  • (转)Sql Server 保留几位小数的两种做法
  • (最全解法)输入一个整数,输出该数二进制表示中1的个数。
  • ***汇编语言 实验16 编写包含多个功能子程序的中断例程
  • .NET Framework 和 .NET Core 在默认情况下垃圾回收(GC)机制的不同(局部变量部分)
  • .net 中viewstate的原理和使用
  • [20150321]索引空块的问题.txt
  • [51nod1610]路径计数
  • [android] 天气app布局练习
  • [APIO2015]巴厘岛的雕塑
  • [Bada开发]初步入口函数介绍
  • [BSGS算法]纯水斐波那契数列
  • [C++]二叉搜索树
  • [CentOs7]iptables防火墙安装与设置
  • [codeforces]Recover the String
  • [codevs] 1029 遍历问题