当前位置: 首页 > news >正文

Meta AI 发布 Llama 3.2

Llama 3.2新闻

  1. Meta公司在其Connect大会上宣布了Llama 3.2的发布,这是其首款能够理解图像和文本的旗舰视觉模型。Llama 3.2包含中型和小型两个版本(分别拥有11B与90B参数),以及更轻量化的纯文本模型(分别拥有1B与3B参数),后两款主要面向特定移动与边缘设备。这些模型在保持文本处理能力的同时,通过适配器权重将预训练的图像编码器整合到语言模型中,实现了对图像的理解和推理。

  2. Llama 3.2的11B和90B模型是首次支持视觉任务的Llama模型,它们通过一系列交叉注意力层将图像编码器的表征输入到语言模型中,从而实现图像推理功能。这些模型在图像识别和其他视觉理解任务上的表现,已经能够与Anthropic的Claude 3 Haiku以及OpenAI的GPT 4o-mini相媲美,甚至在某些方面更优越。

  3. 此外,Llama 3.2的1B和3B模型支持128K tokens的上下文长度,适配高通和联发科硬件,对Arm处理器做了专属优化。这些轻量级模型特别适合在移动设备上运行,能够用于创建个性化智能体应用,同时保证数据隐私,因为它们能够在设备本地处理数据,无需将信息发送到云端。

  4. Meta还首次分享了官方的Llama技术栈发行版,以便开发人员可以在各种环境下使用这些模型,包括本地、设备端、云端和单节点场景。Llama 3.2模型目前已经在llama.com、Hugging Face以及Meta各合作伙伴的平台上开放下载。

模型评估

  1. 评估表明,Llama 3.2 视觉模型在图像识别和一系列视觉理解任务上与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 竞争。3B 模型在遵循指令、摘要、提示重写和工具使用等任务上的表现超过了 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 则与 Gemma 竞争。
    在这里插入图片描述
    在这里插入图片描述

视觉模型

  1. 作为首批支持视觉任务的 Llama 模型,11B 和 90B 模型需要一个全新的模型架构来支持图像推理。

  2. 为了增加图像输入支持,mata 训练了一组适配器权重,将预训练的图像编码器整合到预训练的语言模型中。适配器由一系列交叉注意力层组成,这些层将图像编码器的表征输入到语言模型中。在文本-图像对上训练适配器,以使图像表征与语言表征对齐。在适配器训练期间,还更新了图像编码器的参数,但有意不更新语言模型参数。这样做,保持了所有仅限文本的功能完整,为开发者提供了 Llama 3.1 模型的直接替代品。

轻量级模型

  1. 正如我们在 Llama 3.1 中所讨论的,可以利用强大的教师模型来创建性能更好的小型模型。我们在 1B 和 3B 模型上使用了两种方法——剪枝和蒸馏,使它们成为首批能够高效适应设备的高能力轻量级 Llama 模型。

  2. 剪枝使我们能够在保留尽可能多的知识和性能的同时,减少现有模型的大小。对于 1B 和 3B 模型,我们采取了一次性的结构化剪枝方法,从 Llama 3.1 的 8B 模型开始。这涉及到系统地移除网络的部分,并调整权重和梯度的大小,以创建一个更小、更高效的模型,同时保持原始网络的性能。

  3. 知识蒸馏使用较大的网络向较小的网络传授知识,其理念是较小的模型可以在教师模型的帮助下实现比从头开始更好的性能。对于 Llama 3.2 中的 1B 和 3B 模型,我们将 Llama 3.1 的 8B 和 70B 模型的 logit 数据纳入模型开发的预训练阶段,这里这些较大模型的输出(logit)被用作 token 级别的目标。剪枝后使用知识蒸馏来恢复性能。
    在这里插入图片描述

参考

  1. https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/

相关文章:

  • 赛氪作媒体支持单位受邀参加首届科普翻译与跨学科专业学术研讨会
  • OCR Fusion: EasyOCR/Tesseract/PaddleOCR/TrOCR/GOT
  • 不同的浏览器、服务器和规范对 URL 长度的限制
  • 前端面试经验总结2(经典问题篇)
  • LIMS和LIS的主要区别
  • InternVL 微调实践
  • 计算机网络自顶向下(1)---网络基础
  • 第十四周周报:Transformer for CV
  • SparseArray为啥在android 源码中经常被使用,原因何在
  • 画个心,写个花!Python Turtle库带你玩转创意绘图!
  • Linux系统安装和配置 VNC 服务器
  • 【第四章 IP 子网划分】
  • 使用Python创建EXE运行器和截图工具
  • 【OS】计算机系统概述|操作系统基本概念|并发|并行|虚拟异步
  • Stable Diffusion 的 ControlNet 主要用途
  • python3.6+scrapy+mysql 爬虫实战
  • 【Amaple教程】5. 插件
  • 【译】React性能工程(下) -- 深入研究React性能调试
  • Git的一些常用操作
  • Java 内存分配及垃圾回收机制初探
  • Java程序员幽默爆笑锦集
  • js中的正则表达式入门
  • react-native 安卓真机环境搭建
  • Web设计流程优化:网页效果图设计新思路
  • 短视频宝贝=慢?阿里巴巴工程师这样秒开短视频
  • 记录:CentOS7.2配置LNMP环境记录
  • 坑!为什么View.startAnimation不起作用?
  • 前端知识点整理(待续)
  • 让你成为前端,后端或全栈开发程序员的进阶指南,一门学到老的技术
  • 突破自己的技术思维
  • 想晋级高级工程师只知道表面是不够的!Git内部原理介绍
  • raise 与 raise ... from 的区别
  • !!【OpenCV学习】计算两幅图像的重叠区域
  • # Pytorch 中可以直接调用的Loss Functions总结:
  • #07【面试问题整理】嵌入式软件工程师
  • #FPGA(基础知识)
  • #前后端分离# 头条发布系统
  • $$$$GB2312-80区位编码表$$$$
  • (2)MFC+openGL单文档框架glFrame
  • (M)unity2D敌人的创建、人物属性设置,遇敌掉血
  • (搬运以学习)flask 上下文的实现
  • (备份) esp32 GPIO
  • (笔记)M1使用hombrew安装qemu
  • (非本人原创)史记·柴静列传(r4笔记第65天)
  • (附表设计)不是我吹!超级全面的权限系统设计方案面世了
  • (全注解开发)学习Spring-MVC的第三天
  • (十一)手动添加用户和文件的特殊权限
  • (五)大数据实战——使用模板虚拟机实现hadoop集群虚拟机克隆及网络相关配置
  • (转载)CentOS查看系统信息|CentOS查看命令
  • (最新)华为 2024 届秋招-硬件技术工程师-单板硬件开发—机试题—(共12套)(每套四十题)
  • ******IT公司面试题汇总+优秀技术博客汇总
  • .aanva
  • .NET 8.0 中有哪些新的变化?
  • .NET Framework、.NET Core 、 .NET 5、.NET 6和.NET 7 和.NET8 简介及区别
  • .NET Standard、.NET Framework 、.NET Core三者的关系与区别?