当前位置: 首页 > news >正文

RT2-使用NLP的方式去训练机器人控制器

目标
研究在网络数据上训练的视觉语言模型也可以直接结合到端到端的机器人控制中,提升泛化性以及获得突出的语义推理;使得单个的端到端训练模型可以同时学习从机器人观测到动作的映射,这个过程可以受益于基于网络上的语言和视觉语言数据的预训练。

方法
1,将动作(actions)描述成文本tokens,然后将其直接合到模型训练集中,使用方法就如自然语言tokens一样;
2,结合使用chain of thought 推理,使得RT2可以进行多阶段语义推理,比如推理出哪种饮料对于劳累的人是合适的。
RT-2

模型
模型直接使用PalmE或者PalmX,无额外创新,创新主要体现在机器人数据的训练方式上。
PaLI

Pali-X:使用ViT-22B处理图像,接收n张图像,获得n x k的tokens(k是图像的patch数量),图像tokens经过一个projections层,然后进入一个编码-解码的backbone(32B 参数和50层,类似于UL2,联合处理图像和文本embeddings,采用自回归方式输出tokens),

PaLI-3B使用更小的ViT-G/14来处理图像,使用UL2-3B来进行编码和解码

Palm-E:使用PaLM-E-12B,图像处理使用ViT-4B,LLM使用Palm。
Palm-e

动作推理与实时编码
1,To enable vision-language models to control a robot, they must be trained to output actions. We take a direct approach to this problem, representing actions as tokens in the model’s output, which are treated in the same way as language tokens 将动作用文本token来进行描述,使得大语言模型可以直接输出动作;

2,The action space consists of 6-DoF positional and rotational displacement of the robot end-effector, as well as the level of extension of the robot gripper and a special discrete command for terminating the episode, which should be triggered by the policy to signal successful completion.(与RT1定义一样,定义了相关动作)

3,The continuous dimensions (all dimensions except for the discrete termination command) are discretized into 256 bins uniformly. Thus, the robot action can be represented using ordinals of the discrete bins as 8 integer numbers.(连续动作离散化,与RT1一致)

4,In order to use these discretized actions to finetune a vision-language into a vision-language-action model, we need to
associate tokens from the model’s existing tokenization with the discrete action bins. (将离散的动作bins关联到VLM已有的tokenization )

5, In order to define a target for VLM fine-tuning we convert the action vector into a single string by simply concatenating action tokens for each dimension with a space character: (根据actions输出目标,示例:
“terminate Δpos Δpos Δpos Δrot Δrot Δrot gripper_extension”. “1 128 91 241 5 101 127”)

6,PaLI-X and PaLM-E , use different tokenizations. For PaLI-X, integers up to 1000 each have a unique token, so we simply associate the action bins to the token representing the corresponding integer. For the PaLM-E model, which does not provide this convenient representation of numbers, we simply overwrite the 256 least frequently used tokens to represent the action vocabulary. (在PaLI-X和PaLM-E中使用不同的tokenizations方法)

7, Cloud service multi-TPU,The largest model we evaluated, the 55B parameter RT-2-PaLI-X-55B model, can run at a frequency of 1-3 Hz. The smaller version of that model, consisting of 5B parameters, can run at a frequency of around 5 Hz.(部署在云端进行实施推理)

训练数据集
主要数据: WebLI dataset(10B image-text pairs across 109 languages, filtered to the top 10% scoring cross-modal similarity examples to give 1B training examples)

其他视觉语言数据:captioning and vision question answering datasets in PaLI-X and PaLM-E

机器人数据: RT-1和Language table

实验
1,How does RT-2 perform on seen tasks and more importantly, generalize over new objects, backgrounds, and environments? RT2在见过的任务上表现如何?更重要的是在新物体,背景和环境上的泛化能力如何?
exp1-1
exp1-2
exp1-3

2,Can we observe and measure any emergent capabilities of RT-2?我们可以观察和测量到RT2的任何新能力吗?
该实验是评估RT2从网络数据中学习到的机器人数据以外的技能,体现网络数据对其帮助。
exp2-1
exp2-2exp2-3

3,How does the generalization vary with parameter count and other design decisions? 泛化性随着参数量和其他设计模块如何变化?
From scratch: 从头开始训练模型,不使用任何VLM模型的预训练权重;
Fine-Tuned: 只使用机器人数据来微调之前训好的预训练模型;
Co-Fine-Tuned: 同时使用原始VLM训练数据和机器人数据对VLM模型进微调。
3-1
exp3-2

4,Can RT-2 exhibit signs of chain-of-thought reasoning similarly to vision-language models? RT2可以使用思维链符号来做到类似VLM的推理吗?
CoT
局限性与未来工作
1, 我们展示了使用web-scale数据集来进行预训练,因为其可以提高语义和视觉概念上的泛化性,但机器人并没从这些经验中学习到任何新动作,机器人的物理技能仍然受限于机器人数据中见过的技能分布,但是它学会了用新的方式去使用这些技能。我们认为这是因为网络数据集并没在技能层次有很好的分布。因此一个激动人心的未来方向将是研究新技能如何能从新数据采集方式中获得,如人类视频这类数据;

2,尽管我们展示了可以实时运行大规模的VLA模型,其计算量非常大, 因为这些模型被应用于高频控制中,实时推理可能会成为一个瓶颈。对应的未来工作是探索量化和知识蒸馏技术来降低算力。这也关联到另一个限制,当前可用与创造RT2的VLM模型有限,期待更多轻量级的VLM模型可被使用(e.g. https://llava-vl.github.io/) 。

个人见解
该工作很硬核,也很谷歌,硬核在于使用了一种大家都不看好的方式,用VLM这种语言模式来实现机器人控制,同时能从网络数据中获得一定的泛化能力,很谷歌是指这种工作也只有具备大算力大模型大数据大投入的谷歌公司才可以研究。总结来说,训练方式上带来了很大的创新,但如何使得其可以真正落地应用,作者指出了一些路径,如果有团队肯下大力气攻坚,也还是有希望的。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 半监督方案跟域自适应方案哪个更能提升目标检测泛化效果?
  • [高频 SQL 50 题(基础版)]第一千七百五十七题,可回收且低脂产品
  • Perl 语言入门学习及实践
  • 运维系列.Nginx:自定义错误页面
  • AI提示词:打造爆款标题生成器
  • 数字信号处理教程(3)——z变换
  • 音频demo:使用开源项目lame来将MP3数据解码出PCM数据
  • JS之防抖和节流
  • SQL FOREIGN KEY
  • 全网最适合入门的面向对象编程教程:12 类和对象的 Python 实现-Python 使用 logging 模块输出程序运行日志
  • [激光原理与应用-102]:南京科耐激光-激光焊接-焊中检测-智能制程监测系统IPM介绍 - 6 - 激光焊接系统的组成
  • 【密码学】分组密码概述
  • Rockchip RK3588 - Rockchip Linux SDK脚本分析
  • 探索C嘎嘎的奇妙世界:第十九关---STL(list的模拟实现)
  • Android studio之编译提示Could not find :umeng-asms-v1.2.1
  • 2017前端实习生面试总结
  • DOM的那些事
  • magento 货币换算
  • Redash本地开发环境搭建
  • SQLServer之创建显式事务
  • Sublime text 3 3103 注册码
  • thinkphp5.1 easywechat4 微信第三方开放平台
  • underscore源码剖析之整体架构
  • 在weex里面使用chart图表
  • 阿里云服务器如何修改远程端口?
  • ​​​​​​​开发面试“八股文”:助力还是阻力?
  • # .NET Framework中使用命名管道进行进程间通信
  • # 达梦数据库知识点
  • ### RabbitMQ五种工作模式:
  • #宝哥教你#查看jquery绑定的事件函数
  • (SERIES12)DM性能优化
  • (SpringBoot)第二章:Spring创建和使用
  • (编译到47%失败)to be deleted
  • (二)十分简易快速 自己训练样本 opencv级联lbp分类器 车牌识别
  • (南京观海微电子)——COF介绍
  • (牛客腾讯思维编程题)编码编码分组打印下标题目分析
  • (三) diretfbrc详解
  • .gitignore文件设置了忽略但不生效
  • .net 连接达梦数据库开发环境部署
  • .NET 项目中发送电子邮件异步处理和错误机制的解决方案
  • .NET/C# 中你可以在代码中写多个 Main 函数,然后按需要随时切换
  • .NET/C#⾯试题汇总系列:⾯向对象
  • .NetCore+vue3上传图片 Multipart body length limit 16384 exceeded.
  • .NET开源全面方便的第三方登录组件集合 - MrHuo.OAuth
  • .NET下ASPX编程的几个小问题
  • .secret勒索病毒数据恢复|金蝶、用友、管家婆、OA、速达、ERP等软件数据库恢复
  • @Service注解让spring找到你的Service bean
  • [ C++ ] 继承
  • [20150904]exp slow.txt
  • [Angularjs]ng-select和ng-options
  • [C# 开发技巧]实现属于自己的截图工具
  • [codeforces]Recover the String
  • [Electron] 将应用打包成供Ubuntu、Debian平台下安装的deb包
  • [Git 1]基本操作与协同开发
  • [go] 迭代器模式