当前位置: 首页 > news >正文

面壁发布端侧视觉理解模型 MiniCPM-V 2.6;ChatGPT 人形机器人二代正式发布丨 RTE 开发者日报

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@JLT,@鲍勃

01 有话题的新闻

1、面壁智能开源 MiniCPM-V 2.6 模型:号称端侧 AI 多模态能力对标 GPT-4V

面壁正式发布了 MiniCPM-V 2.6,在端侧性能实现全面对标 GPT-4V。据介绍,MiniCPM-V 2.6 首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V,三项能力均取得 20B 以下 SOTA 成绩,单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini 。

而类比知识密度来看,得益于视觉 token 相比上一代下降 30% ,比同类模型低 75%,MiniCPM-V 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度(token density)。

值得一提的是,面壁还将「实时」视频理解、多图联合理解、多图 ICL 等能力首次搬上了端侧。

量化后端侧内存仅占 6 GB,端侧推理速度达 18 tokens/s,相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理,且支持多种语言。(@AI 科技评论)

2、人形机器人公司 Figure AI 宣布推出全新一代 Figure 02

当地时间 8 月 6 日,Figure AI 公布了全新 Figure 02 视频,主要展示了其在宝马生产线上进行测试的场景。

根据视频展示,功能层面,Figure 02 在语音对语音方面,通过麦克风、扬声器和定制的 AI 模型,可以与人类进行对话;摄像头则由 6 个板载 RGB 摄像头驱动的 AI 视觉系统;采用第四代手部,具有 16 个自由度和相当于人类的力量;视觉语言模型(VLM)使机器人摄像头能够进行快速的常识性视觉推理;电池层面,Figure 02 配备了 2.25 千瓦时的电池,使运行时间增加 50%;CPU/GPU 的计算和 AI 推理能力是上一代的 3 倍。

Figure AI 成立于 2022 年,2023 年推出了首款产品 Figure 01,今年 2 月,它获得一众科技巨头和大佬的投资,包括 OpenAI、微软、英伟达、贝佐斯等联合约 6.75 亿美元融资,估值 26 亿美元。(@钛媒体)

3、阿里通义 App 推出「角色扮演」功能

在这里插入图片描述

8 月 6 日消息,通义 App 推出角色扮演功能,可一键替换视频人物。上传一段视频,选择要替换的 3D 角色,可以在不改变其他场景和人物的情况下,将视频里原有的角色一键变身为有趣的 3D 角色模型,实现让孙悟空跳水、机器人打网球、二次元女孩揉面等创意视频。

该功能基于 Motionshop 模型打造。今年年初,阿里通义实验室推出 Motionshop 模型。目前,Motionshop 上线通义 App,开放给所有用户免费使用。( @鞭牛士)

4、MathGPTPro:数学问题 AI 解决工具 提供实时互动学习体验

在这里插入图片描述

MathGPTPro 是一个先进的 AI 数学问题解决工具,提供实时互动学习体验。用户可以提问或者上传数学问题图片,MathGPTPro 会立即提供详细的解决方案。

MathGPT 已被全球 200 多个国家的 40 万名学生使用,MathGPT 称其测试版模型在高中和初中数学问题上的准确率比 GPT-4 高 20%。数学推理方面比 GPT-4o 高 15%。(@小互 AI)

5、OpenAI 在 API 中引入结构化输出,最新版 GPT-4o AI 模型达到 100% 满分

OpenAI 公司昨日发布新闻稿,宣布在 API 中引入结构化输出(Structured Outputs)。

OpenAI 公司此前已提供结构化输出,用户可以指定"response_format": {“type”: “json_object”}} 来请求一个有效的 JSON 对象,也可以使用函数调用机制来请求符合特定模式的响应。

OpenAI 在导言中表示,结构化输出功能可确保模型生成的响应始终符合用户提供的 JSON 模式,因此用户无需担心模型会遗漏必填键或生成无效的枚举值。

6、LlamaCoder:简单提示轻松创建小程序代码

LlamaCoder 是一个基于 Llama3.1405B 模型的平台,它通过强大的自动化能力,使得开发者只需提供简单的指令,就能快速生成完整的 React 应用程序和组件。该平台采用了现代化的技术栈,包括 Next.js 和 Tailwind 等流行技术,提供了一个既美观又易用的界面。

LlamaCoder 的功能设计考虑了全面,包括代码沙箱、Helicone 集成和 Plausible 工具的使用,以提高开发效率和产品优化。入门门槛低,用户只需克隆代码库并设置 API 密钥,即可通过 npm 命令启动项目。目前已开源。(@AI 科技评论)

02 有态度的观点

1、雷军:跟苹果华为的对比,推动了小米的进步

雷军与李翔发布的 206 分钟深度访谈中,雷军表示,自己最倒霉的地方就是老跟华为苹果比。相关话题昨日也登上了微博热搜。

访谈中雷军提到,「我倒霉的地方就是老跟苹果华为比,要比这两个大哥惊艳。有人问我为什么不能比苹果好,我说小米四百亿,他们三万亿,哪怕你给我一万亿美金我就能比他们惊艳」。

不过他也表示,苹果的厉害,华为的厉害,挡不住小米的光芒,跟苹果华为比的结果,还是推动了小米的进步。(@爱范儿)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

在这里插入图片描述

素材来源官方媒体/网络新闻

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • RabbitMQ高级特性 - 消息分发(限流、负载均衡)
  • Leetcode 第 135 场双周赛题解
  • 深入JVM:类加载器和双亲委派模型
  • 如何搭建一个圈子社区系统?开源社交陪玩交友圈子论坛帖子系统保姆级搭建教程!
  • 益九未来CEO曾宪军:创新引领,打造智能售货机行业新标杆
  • vue项目路径使用@报错
  • VS Code C/C++ MSVC编译器
  • 【React 】react 创建项目配置 jsconfig.json 的作用
  • Axure RP界面设计初探:基础操作与实用技巧
  • JavaScript青少年简明教程:异常处理
  • Java 面试常见问题之——static 的用法
  • Android 在布局中tools使用
  • Linux 调试追踪: trace-cmd 和 kernelshark
  • 16个好用到爆的Python实用脚本!
  • 如何用密码保护你的 WordPress 管理员 (wp-admin) 目录
  • 【跃迁之路】【699天】程序员高效学习方法论探索系列(实验阶段456-2019.1.19)...
  • fetch 从初识到应用
  • iOS帅气加载动画、通知视图、红包助手、引导页、导航栏、朋友圈、小游戏等效果源码...
  • Java Agent 学习笔记
  • JS专题之继承
  • Python学习之路16-使用API
  • webpack+react项目初体验——记录我的webpack环境配置
  • 安卓应用性能调试和优化经验分享
  • 从tcpdump抓包看TCP/IP协议
  • 第2章 网络文档
  • 关于Flux,Vuex,Redux的思考
  • 基于web的全景—— Pannellum小试
  • 检测对象或数组
  • 首页查询功能的一次实现过程
  • 怎么将电脑中的声音录制成WAV格式
  • 栈实现走出迷宫(C++)
  • “十年磨一剑”--有赞的HBase平台实践和应用之路 ...
  • ionic异常记录
  • 蚂蚁金服CTO程立:真正的技术革命才刚刚开始
  • ​【数据结构与算法】冒泡排序:简单易懂的排序算法解析
  • ​马来语翻译中文去哪比较好?
  • ​你们这样子,耽误我的工作进度怎么办?
  • ​软考-高级-信息系统项目管理师教程 第四版【第14章-项目沟通管理-思维导图】​
  • #14vue3生成表单并跳转到外部地址的方式
  • #pragma data_seg 共享数据区(转)
  • (1综述)从零开始的嵌入式图像图像处理(PI+QT+OpenCV)实战演练
  • (2)(2.10) LTM telemetry
  • (2)nginx 安装、启停
  • (35)远程识别(又称无人机识别)(二)
  • (转)LINQ之路
  • ***监测系统的构建(chkrootkit )
  • *Django中的Ajax 纯js的书写样式1
  • .NET Framework与.NET Framework SDK有什么不同?
  • .net wcf memory gates checking failed
  • .net遍历html中全部的中文,ASP.NET中遍历页面的所有button控件
  • .net打印*三角形
  • .net反编译工具
  • .NET性能优化(文摘)
  • .sys文件乱码_python vscode输出乱码
  • @vue/cli 3.x+引入jQuery