当前位置: 首页 > news >正文

【Qwen2-VL】通义多模态新作速读

Qwen2-VL

https://github.com/QwenLM/Qwen2-VL

结构:

在这里插入图片描述

整体:6.75 亿个参数的 Vision Transformer (ViT) (Dosovitskiy et al., 2021)+ Qwen2

预处理阶段

  • 朴素动态分辨率支持:Naive Dynamic Resolution 机制,使模型能够将不同分辨率的图像动态处理成不同数量的视觉标记。
  • 不同分辨率的图像被打包到一个序列中,并控制打包长度以限制 GPU 内存的使用。此外,为了减少每张图像的视觉标记,在 ViT 之后采用一个简单的 MLP 层将相邻的 2 × 2 个标记压缩成一个标记,特殊的 <|vision_start|> 和 <|vision_end|> 标记放置在压缩的视觉标记的开头和结尾。因此,分辨率为 224 × 224 的图像,使用 patch_size=14 的 ViT 编码,在进入 LLM 之前将被压缩为 66 个标记。

编码阶段

主要工作集中在视觉编码器:

  • 位置嵌入分解到零件(2D 旋转位置嵌入 (RoPE)使模型能够更好地捕获不同空间尺度的信息)
  • 多模态旋转位置嵌入(M-RoPE)使用单独的组件来表示时间和空间信息
  • 3D 卷积(Carreira 和 Zisserman,2017 年)来处理视频输入,使模型能够处理 3D 管而不是 2D 补丁

解码/推理阶段

量化支持情况:提供两种类型的量化:AWQ 和 GPQ

训练
三阶段训练方法。在第一阶段,我们只专注于训练 Vision Transformer (ViT) 组件,利用大量的图像-文本对语料库来增强大型语言模型 (LLM) 中的语义理解。在第二阶段,我们解冻所有参数,并使用更广泛的数据进行训练,以实现更全面的学习。在最后阶段,我们锁定 ViT 参数并使用教学数据集对 LLM 进行独家微调

微调
指令微调阶段采用 ChatML (Openai, 2024) 格式来构建指令跟踪数据。

能力:

图像:可以处理任意图像分辨率
视频:理解 20min+ 视频
音频:没有具体做,但是在视频理解的几个主要数据集上 MVBench(Li 等人,2024 年)、PerceptionTest(Patraucean 等人,2024 年)和 EgoSchema(Mangalam 等人,2023 年)上取得了最佳性能
Agent(FunctionCall):可以与手机、机器人等设备集成,根据视觉环境和文本指令进行自动操作

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 创建游戏暂停菜单
  • 力扣(leetcode)每日一题 LCR 187 破冰游戏(还是考的约瑟夫环)
  • UWA支持鸿蒙HarmonyOS NEXT
  • 【Spring】条件装配 @ConditionalOnClass @ConditionalOnBean
  • 【Midjourney中文版】智能绘画,高效便捷
  • python日志搜集分析系统
  • 系统架构笔记-3-信息系统基础知识
  • 关于 NLP 应用方向与深度训练的核心流程
  • 鸿蒙环境服务端签名直传文件到OSS
  • Redis安全
  • Elasticsearch7.7.1集群不能相互发现的问题解决以及Elasticsearch7.7.1安装analysis-ik中文分词插件的应用
  • 力扣19 删除链表的倒数第N个节点 Java版本
  • 【C++】模拟实现list
  • Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?
  • Android String资源文件中,空格、换行以及特殊字符如何表示
  • ES6指北【2】—— 箭头函数
  • Angular 4.x 动态创建组件
  • angular学习第一篇-----环境搭建
  • chrome扩展demo1-小时钟
  • ECS应用管理最佳实践
  • JavaScript服务器推送技术之 WebSocket
  • Protobuf3语言指南
  • VuePress 静态网站生成
  • 阿里云容器服务区块链解决方案全新升级 支持Hyperledger Fabric v1.1
  • 第十八天-企业应用架构模式-基本模式
  • 记录:CentOS7.2配置LNMP环境记录
  • 快速体验 Sentinel 集群限流功能,只需简单几步
  • 前端每日实战 2018 年 7 月份项目汇总(共 29 个项目)
  • 前端之Sass/Scss实战笔记
  • 使用Envoy 作Sidecar Proxy的微服务模式-4.Prometheus的指标收集
  • 我与Jetbrains的这些年
  • 携程小程序初体验
  • 学习JavaScript数据结构与算法 — 树
  • 远离DoS攻击 Windows Server 2016发布DNS政策
  • mysql 慢查询分析工具:pt-query-digest 在mac 上的安装使用 ...
  • # Redis 入门到精通(九)-- 主从复制(1)
  • #100天计划# 2013年9月29日
  • #Js篇:单线程模式同步任务异步任务任务队列事件循环setTimeout() setInterval()
  • #QT项目实战(天气预报)
  • #控制台大学课堂点名问题_课堂随机点名
  • (1)Hilt的基本概念和使用
  • (C语言)深入理解指针2之野指针与传值与传址与assert断言
  • (HAL库版)freeRTOS移植STMF103
  • (附源码)计算机毕业设计SSM教师教学质量评价系统
  • (汇总)os模块以及shutil模块对文件的操作
  • (接口封装)
  • (四) 虚拟摄像头vivi体验
  • (已更新)关于Visual Studio 2019安装时VS installer无法下载文件,进度条为0,显示网络有问题的解决办法
  • (原创)攻击方式学习之(4) - 拒绝服务(DOS/DDOS/DRDOS)
  • (转)scrum常见工具列表
  • (转)大道至简,职场上做人做事做管理
  • (转)关于pipe()的详细解析
  • ***linux下安装xampp,XAMPP目录结构(阿里云安装xampp)
  • .Net Core缓存组件(MemoryCache)源码解析
  • .NET Framework 的 bug?try-catch-when 中如果 when 语句抛出异常,程序将彻底崩溃