当前位置：首页 > news >正文

Meta发布Chameleon模型预览，挑战多模态AI前沿

news 来源：原创 2024/9/21 12:33:17

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

随着生成式AI领域的竞争转向多模态模型，Meta推出了一款名为Chameleon的新模型家族，以回应前沿实验室发布的各类模型。Chameleon被设计为原生多模态模型，而非将不同模态组件拼凑在一起。

虽然Meta尚未发布这些模型，但据报告显示，Chameleon在图像描述和视觉问答（VQA）等任务中表现出色，同时在纯文本任务中也具竞争力。

早期融合多模态模型

目前，创建多模态基础模型的流行方式是将为不同模态训练的模型拼凑在一起。这种方法称为“后期融合”，即AI系统接收不同的模态，用单独的模型编码它们，然后融合编码进行推理。尽管后期融合效果不错，但它限制了模型跨模态整合信息和生成交错图像与文本序列的能力。

Chameleon采用了“早期融合基于token的混合模态”架构，这意味着它从一开始就设计为从交错的图像、文本、代码和其他模态中学习。Chameleon将图像转换为离散的token，就像语言模型处理单词一样。它还使用了由文本、代码和图像token组成的统一词汇表，使得能够对包含图像和文本token的序列应用相同的transformer架构。

据研究人员介绍，与Chameleon最相似的模型是谷歌的Gemini，它也采用了早期融合token的方法。然而，Gemini在生成阶段使用了单独的图像解码器，而Chameleon则是一个端到端模型，既处理又生成token。

“Chameleon的统一token空间使其能够无缝推理并生成交错的图像和文本序列，无需模态特定的组件，”研究人员写道。

Chameleon的架构和训练

尽管早期融合非常有吸引力，但在训练和扩展模型时会面临重大挑战。为了克服这些挑战，研究人员采用了一系列的架构修改和训练技术。在论文中，他们分享了不同实验的细节及其对模型的影响。

Chameleon的训练分两个阶段进行，数据集包含4.4万亿个文本、图像-文本对以及交错的文本和图像序列。研究人员在超过500万小时的Nvidia A100 80GB GPU上训练了一个7-billion和一个34-billion参数版本的Chameleon。

Chameleon的表现

根据论文中报告的实验，Chameleon能够执行多种纯文本和多模态任务。在视觉问答（VQA）和图像描述基准测试中，Chameleon-34B达到了最先进的性能，超越了Flamingo、IDEFICS和Llava-1.5等模型。

研究人员表示，Chameleon在预训练和微调模型评估中，以更少的上下文训练示例和更小的模型尺寸达到了其他模型的性能。

多模态的一个折衷是单模态请求中的性能下降。例如，视觉-语言模型在纯文本提示上的性能往往较低。但Chameleon在纯文本基准测试中仍具竞争力，在常识推理和阅读理解任务中与Mixtral 8x7B和Gemini-Pro等模型相匹敌。

有趣的是，Chameleon能够为混合模态推理和生成解锁新能力，特别是在提示预期混合模态响应时。实验显示，用户总体上更喜欢Chameleon生成的多模态文档。

上周，OpenAI和谷歌都发布了提供丰富多模态体验的新模型。然而，他们并未发布有关模型的详细信息。如果Meta继续按照其策略发布Chameleon的权重，它可能成为私人模型的开放替代方案。

早期融合还可以为更高级的模型研究开辟新方向，特别是随着更多模态的加入。例如，机器人初创公司已经在实验将语言模型整合到机器人控制系统中。早期融合如何改进机器人基础模型也将是一个有趣的研究方向。

“Chameleon代表了实现能够灵活推理并生成多模态内容的统一基础模型愿景的重大一步，”研究人员写道。

相关文章：

北京网站建设多少钱？

辽宁网页制作哪家好_网站建设

高端品牌网站建设_汉中网站制作

Softing工业推出新品edgeGate：一款用于工业边缘和云应用的硬件网关

使用VirtualBox+vagrant创建CentOS7虚拟机

简易进程池的实现

MySQL 8.4.0 LTS 变更解析：I_S 表、权限、关键字和客户端

家政服务，让您的家更温馨

C++ 数据结构算法学习笔记(32) -五大排序算法

AI预测福彩3D采取888=3策略+和值012路一缩定乾坤测试5月25日预测第1弹

【机器学习】大模型在机器学习中的应用：从深度学习到生成式人工智能的演进

【AI大模型】这可能是最简单的本地大模型工具，无须部署，一键使用

Controlnet作者放出新的大招 IC-Light，可以操控图像生成时的光照，对内容主体重新打光生成符合新背景环境光照的图片

XH连接器＞KH-XH-5A-Z

【全部更新完毕】2024电工杯A题数学建模详细思路代码文章分享

【C++高阶（一）】继承

plt多子图设置

如何使用Python中的生成器

【译】JS基础算法脚本：字符串结尾

[译] React v16.8：含有Hooks的版本

[译] 理解数组在 PHP 内部的实现（给PHP开发者的PHP源码-第四部分）

【跃迁之路】【733天】程序员高效学习方法论探索系列（实验阶段490-2019.2.23）...

2018以太坊智能合约编程语言solidity的最佳IDEs

5分钟即可掌握的前端高效利器：JavaScript 策略模式

co.js - 让异步代码同步化

css的样式优先级

ERLANG 网工修炼笔记 ---- UDP

Java编程基础24——递归练习

java中具有继承关系的类及其对象初始化顺序

learning koa2.x

Python语法速览与机器学习开发环境搭建

spring security oauth2 password授权模式

vue从入门到进阶：计算属性computed与侦听器watch（三）

更好理解的面向对象的Javascript 1 —— 动态类型和多态

聊聊directory traversal attack

聊聊redis的数据结构的应用

前端

全栈开发——Linux

说说动画卡顿的解决方案

学习JavaScript数据结构与算法 — 树

一天一个设计模式之JS实现——适配器模式

《码出高效》学习笔记与书中错误记录

Hibernate主键生成策略及选择

分布式关系型数据库服务 DRDS 支持显示的 Prepare 及逻辑库锁功能等多项能力 ...

软考-高级-系统架构设计师教程（清华第2版）【第1章-绪论-思维导图】

！！Dom4j 学习笔记

# 利刃出鞘_Tomcat 核心原理解析（二）

###51单片机学习（2）-----如何通过C语言运用延时函数设计LED流水灯

#我与Java虚拟机的故事#连载18：JAVA成长之路

$.ajax()

（10）ATF MMU转换表

（10）Linux冯诺依曼结构操作系统的再次理解

（20）目标检测算法之YOLOv5计算预选框、详解anchor计算

(22)C#传智:复习,多态虚方法抽象类接口,静态类,String与StringBuilder,集合泛型List与Dictionary,文件类,结构与类的区别

(附源码)计算机毕业设计大学生兼职系统

(回溯) LeetCode 78. 子集

（七）Java对象在Hibernate持久化层的状态

(转) RFS+AutoItLibrary测试web对话框