当前位置: 首页 > news >正文

One-Shot Visual Imitation Learning via Meta-Learning

发表时间:CoRL 2017

论文链接:https://readpaper.com/pdf-annotate/note?pdfId=4667206488817680385&noteId=2408726470680795136

作者单位:University of California, Berkeley

Motivation:为了使机器人成为可以执行广泛工作的通才,它必须能够在复杂的非结构化环境中快速高效地获取各种各样的技能。深度神经网络等大容量模型可以使机器人代表复杂的技能,但从头开始学习每个技能变得不可行

解决方法:在这项工作中,我们提出了一种元模仿学习方法,使机器人能够更有效地学习如何学习,使其能够仅从单个演示中获取新的技能(a new object into a new container from a single demonstration)。与之前关于一次性模仿的方法不同,我们的方法可以扩展到原始像素输入,并且需要来自明显更少的先前任务的数据来有效地学习新技能。

实现方式combine meta-learning with imitation learning

与之前将任务区分 或演示 作为上下文策略的输入的方法不同,我们的方法学习了一个参数化策略,该策略可以通过梯度更新来适应不同的任务,有效地学习模仿学习。

通过跨任务的适应训练,元学习有效地将整个任务视为数据点。每个单独任务可用的数据量相对较小。在机器人的背景下,这正是我们想要开发通才机器人所需要的——能够为机器人应该执行的每个新任务提供少量监督的能力。a policy π that maps observations o to predicted actions a

在元训练期间,每个元优化步骤包含以下内容:采样一批任务,每个任务采样两个演示。使用其中一个演示,使用公式 2 的梯度下降为每个任务 Ti 计算 θ′i。然后,使用每个任务的第二个演示通过使用等式 1 和等式 2 中的损失来计算元目标的梯度。最后,根据元目标的梯度更新 θ。实际上,一对演示用作训练验证对。(也就是说,并不是但不纯意义上的one-shot,实际上是two-shot

在元训练结束时,从 p(T) 中采样新任务,并通过策略从一个演示中学习后的性能来衡量元性能。用于元测试的任务在元训练期间被保留。(也就是说,元测试使用的是元训练过程中从one demonstration 学习到的知识。)

在元测试时,对新任务 T 进行采样,为该任务提供一个演示,并更新模型以获得该任务的策略。在元测试期间,新任务可能涉及新的目标或操纵新的、以前看不见的对象。

  • Two-Head Architecture:在标准的MAML框架中,在“前梯度更新”和“后梯度更新”中(没搞懂这两个的区别,好像是类似MAML外循环和内循环),使用的网络是相同的,都输出的是action,并且都使用标准的loss function。本文中,我们做出了这样的尝试:“前梯度更新”和“后梯度更新”依旧共用前面所有的架构,只是输出动作之前的最后一个隐藏层不再共享,而是一人一个隐藏层,称之为两个不同的“head”。

  • a bias transformation:我们发现提高元学习性能的一种特殊修改是将参数向量连接到突触后激活的隐藏层,这导致我们将其称为bias transformation。变换偏差的梯度更新可以通过W2和z的值更直接地控制,其值不直接影响网络中其他参数的梯度。总之,偏差变换增加了梯度的表征能力,而不影响网络本身的表征能力。

实验:one-shot imitation in three experimental domains

尝试了好多种policy:

  • random policy: A policy that outputs random actions from a standard normal distribution.

  • contextual policy: A feedforward policy, which takes as input the final image of the demonstration, to indicate the goal of the task, and the current image, and outputs the current action.

  • LSTM: A recurrent neural network which ingests the provided demonstration and the current observation, and outputs the current action, as proposed by Duan et al. [5].

  • LSTM+attention: A recurrent neural network using the attention architecture proposed by Duan et al. [5]. This method is only applicable to non-vision tasks.

Simulated Pushing:We designed the pushing environment starting from the OpenAI Gym PusherEnv.We see that the LSTM approach has difficulty learning without the expert actions.

Real-World Placing:a 7-DoF PR2 robot arm,每个演示包括摄像机视频、末端执行器姿态序列和动作序列——末端执行器线速度和角速度。

结论:基于梯度的元学习使得我们的方法在元训练所需的演示数量(只需要1-shot)方面更有效。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • python学习之路 - 面向对象编程
  • win10配置adb环境变量
  • Java框架第三课(Spring)超级全
  • SpringBoot集成MybatisPlus
  • Python编程实例-NumPy中的掩码数组用于处理缺失数据
  • C++实现的购物小程序
  • UGUI空白可点击组件,减少重绘
  • OpenLayers3, 设置地图背景
  • Word中设置奇数页的页眉为一级标题内容;偶数页的页眉为文章题目
  • HTML 总结
  • 质量技术AI提效专题分享-得物技术沙龙
  • 基于Leaflet Legend的图例数据筛选实践-以某市教培时空分布为例
  • Git相关指令
  • 37次8.27(docker03)
  • Linux下编译安装PETSc
  • iOS动画编程-View动画[ 1 ] 基础View动画
  • Java|序列化异常StreamCorruptedException的解决方法
  • Python实现BT种子转化为磁力链接【实战】
  • Vue官网教程学习过程中值得记录的一些事情
  • vue自定义指令实现v-tap插件
  • 个人博客开发系列:评论功能之GitHub账号OAuth授权
  • 给新手的新浪微博 SDK 集成教程【一】
  • 如何胜任知名企业的商业数据分析师?
  • 小试R空间处理新库sf
  • 在GitHub多个账号上使用不同的SSH的配置方法
  • ‌U盘闪一下就没了?‌如何有效恢复数据
  • # Maven错误Error executing Maven
  • #Datawhale X 李宏毅苹果书 AI夏令营#3.13.2局部极小值与鞍点批量和动量
  • #include
  • #我与Java虚拟机的故事#连载16:打开Java世界大门的钥匙
  • #中国IT界的第一本漂流日记 传递IT正能量# 【分享得“IT漂友”勋章】
  • (02)Hive SQL编译成MapReduce任务的过程
  • (2024,LoRA,全量微调,低秩,强正则化,缓解遗忘,多样性)LoRA 学习更少,遗忘更少
  • (C11) 泛型表达式
  • (博弈 sg入门)kiki's game -- hdu -- 2147
  • (苍穹外卖)day03菜品管理
  • (十七)devops持续集成开发——使用jenkins流水线pipeline方式发布一个微服务项目
  • (四)opengl函数加载和错误处理
  • (转)关于多人操作数据的处理策略
  • (转)拼包函数及网络封包的异常处理(含代码)
  • .net core 调用c dll_用C++生成一个简单的DLL文件VS2008
  • .NET/C# 使窗口永不激活(No Activate 永不获得焦点)
  • .NET4.0并行计算技术基础(1)
  • .net6解除文件上传限制。Multipart body length limit 16384 exceeded
  • .net中调用windows performance记录性能信息
  • 。Net下Windows服务程序开发疑惑
  • /etc/skel 目录作用
  • @RequestBody详解:用于获取请求体中的Json格式参数
  • [④ADRV902x]: Digital Filter Configuration(发射端)
  • [android] 手机卫士黑名单功能(ListView优化)
  • [Angular] 笔记 6:ngStyle
  • [Assignment] C++1
  • [AX]AX2012 SSRS报表Drill through action
  • [C#]OpenCvSharp使用帧差法或者三帧差法检测移动物体
  • [C/C++] -- 二叉树