当前位置: 首页 > news >正文

【AI学习】[2024北京智源大会]具身智能:具身智能关键技术研究:操纵、决策、导航

具身智能关键技术研究:操纵、决策、导航
董 豪 | 北京大学助理教授

依然是边看边做些记录
在这里插入图片描述
这张图的重点是在说,我们的大脑,也是不同的部分处理不同的功能。这里面有些功能,比如视觉、听觉理解等功能,LLM已经具备,而有些功能没有具备,这些就是具身智能的重点

在这里插入图片描述
这就是具身智能的三个关键研究点。

在这里插入图片描述
仿真是方便的数据来源。通过已有的3D数据,合成数据。
通过数据,训练抓取功能。还有目标姿态估计,这样才能放置物体,这也是可以通过仿真获得海量数据进行训练的。
有了抓取和姿态估计,就可以完成很多任务。

在这里插入图片描述

灵巧手也可以通过合成数据训练。这里先要回答,灵巧手和二指等有什么区别?区别在于人的手有一个预抓取动作。
具体的训练,通过强化学习。因为这不是一个静态的抓取,是连续的动作

在这里插入图片描述
抓取之后,然后是操纵。这里是通过强化学习训练。

在这里插入图片描述
探索仿真的边界。通过探索,仿真是有边界的。

在这里插入图片描述
然后这里是探索双手的操作。
在这里插入图片描述
准备开源的平台:OmniSim
实现仿真到仿真。比如一个开门,不可能在真实环境去开一千个门吧,需要利用仿真

在这里插入图片描述
那仿真的边界在哪呢?目前最好的是视觉。
对于一个门,没有把手,即使是人,也需要尝试。这里就是交互式的尝试,这些都需要机器人在真实世界,交互后,才能提升。
我们也希望机器人能在真实世界学习提升,而不是固化了。
在这里插入图片描述
这个就是在真实世界里学习。

在这里插入图片描述
柔性物体的操作,是比较难的!通过强化学习,一个方法解决多种任务

在这里插入图片描述
这是机械臂的操作

在这里插入图片描述
在这里插入图片描述
这是通过在大淘宝买的东西做的机械臂。虽然误差大,但是通过视觉的闭环,依然可以工作。
在这里插入图片描述
如果仿真中没有的物体这么办?通过借助大模型,因为大模型见多识广,可以举一反三。
将仿真的操作能力,注入大模型,最后部署的是大模型。
具体的方式,就是通过问大模型,让大模型告诉如何操作。

在这里插入图片描述
然后发现,即使比较差的仿真,加上大模型,也可以比较好的工作。大模型可以做到新类别的泛化。

在这里插入图片描述
那接下来,就需要把长长的动作,进行任务分解。
上面这个图,就是大模型把一个任务,分解为一系统API。

在这里插入图片描述
接下来,是通过视觉的问题任务,经过数据集、微调环节,解决机器人的视觉问答任务。
在这里插入图片描述
任务编排不是瓶颈,大模型都可以实现。难点还是机械臂的操作。

在这里插入图片描述
然后是收纳,这个需要机器人自动完成。方法是从网络上获取大量图片,比如获取什么是整洁的样子,通过网上的几千张样例图片,获得分布的知识。
在这里插入图片描述
最后是具身导航,这个现在提的不多,但是未来可能有大用处。

在这里插入图片描述
物体导航。比如在屋里找,相应的东西。
在这里插入图片描述
这个也可以通过多模态的视觉语言大模型完成。
在这里插入图片描述
这是另外一个导航任务。视觉语言导航,跟随人的指令
在这里插入图片描述
这是一个真实世界部署的大模型,而不是仿真。方法是通过多专家讨论的方式,并不需要训练什么模型。
在这里插入图片描述
这是提出的第三种导航范式,需求驱动导航,因为前两种对人并不友好。

在这里插入图片描述
这个是把之前的所有导航方式进行集成。前面的三种导航范式可以覆盖所有的各种任务。
在这里插入图片描述
最后总结一下具身智能的关键点。过去是通过仿真实现基本的操作和导航技能,包括自监督的学习;现在是通过大模型,解决仿真到真实世界的gap,利用大模型的知识;那接下来,还是要利用真实世界的数据。

备:

下面视频链接的第3个演讲,大约在视频的1小时25分钟开始
https://www.bilibili.com/video/BV1Zx4y147os/?spm_id_from=333.1007.tianma.2-3-6.click&vd_source=986224b0c4e79ec28556778dc7d42405

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • kafka 3.x 配置kerbos
  • 赋能未来园区:TSINGSEE视频AI智能管理平台如何引领园区管理智慧化转型
  • java selenium 设置代理,允许在其他环境中使用不同的IP访问
  • 分类预测 | Matlab实现PSO-XGBoost粒子群算法优化XGBoost的多特征分类预测
  • C# 方法的定义
  • JavaScript -- 总结 9 (小白)
  • k8s使用kustomize来部署应用
  • 排序算法1:堆排序,直接插入排序与希尔排序
  • System Verilog--$scanf应用举例
  • 学习日志8.7--防火墙安全策略
  • Hadoop单机及集群部署
  • html--前端
  • 前端构建工具|vite快速入门
  • DVWA(SQL注入)medium、high
  • ESXI加入VMware现有集群提示常规性错误
  • 【跃迁之路】【641天】程序员高效学习方法论探索系列(实验阶段398-2018.11.14)...
  • android高仿小视频、应用锁、3种存储库、QQ小红点动画、仿支付宝图表等源码...
  • CSS相对定位
  • Django 博客开发教程 16 - 统计文章阅读量
  • JavaScript/HTML5图表开发工具JavaScript Charts v3.19.6发布【附下载】
  • Linux gpio口使用方法
  • mysql常用命令汇总
  • Redis的resp协议
  • vue-cli在webpack的配置文件探究
  • 排序(1):冒泡排序
  • 前嗅ForeSpider教程:创建模板
  • 如何进阶一名有竞争力的程序员?
  • 手机app有了短信验证码还有没必要有图片验证码?
  • 问:在指定的JSON数据中(最外层是数组)根据指定条件拿到匹配到的结果
  • 应用生命周期终极 DevOps 工具包
  • mysql 慢查询分析工具:pt-query-digest 在mac 上的安装使用 ...
  • 如何用纯 CSS 创作一个货车 loader
  • ​​​​​​​sokit v1.3抓手机应用socket数据包: Socket是传输控制层协议,WebSocket是应用层协议。
  • # include “ “ 和 # include < >两者的区别
  • (cljs/run-at (JSVM. :browser) 搭建刚好可用的开发环境!)
  • (libusb) usb口自动刷新
  • (ZT)一个美国文科博士的YardLife
  • (动手学习深度学习)第13章 计算机视觉---微调
  • (二)Eureka服务搭建,服务注册,服务发现
  • (翻译)Quartz官方教程——第一课:Quartz入门
  • (附程序)AD采集中的10种经典软件滤波程序优缺点分析
  • (附源码)ssm失物招领系统 毕业设计 182317
  • (回溯) LeetCode 78. 子集
  • (六)Hibernate的二级缓存
  • (七)微服务分布式云架构spring cloud - common-service 项目构建过程
  • (三)centos7案例实战—vmware虚拟机硬盘挂载与卸载
  • (十二)devops持续集成开发——jenkins的全局工具配置之sonar qube环境安装及配置
  • (四)汇编语言——简单程序
  • (原創) 人會胖會瘦,都是自我要求的結果 (日記)
  • (转)JAVA中的堆栈
  • (转载)OpenStack Hacker养成指南
  • *算法训练(leetcode)第四十五天 | 101. 孤岛的总面积、102. 沉没孤岛、103. 水流问题、104. 建造最大岛屿
  • .describe() python_Python-Win32com-Excel
  • .net core IResultFilter 的 OnResultExecuted和OnResultExecuting的区别
  • .NET Core 将实体类转换为 SQL(ORM 映射)