当前位置: 首页 > news >正文

阿里重磅开源超强AI模型Qwen2-VL:能理解超 20 分钟视频!

炸裂!阿里巴巴的云计算部门刚刚发布了一款全新的 AI 模型 ——Qwen2-VL,而且一口气发布了20亿参数和70亿参数两个版本,还开放了最强720亿参数版本的API!

图片

小伙伴们可能要问了,这个Qwen2-VL到底有多厉害?

01、Qwen2-VL有多厉害?

· 看得清,看得懂: Qwen2-VL 在各种视觉理解任务上都取得了 SOTA 成绩,包括 MathVista、DocVQA、RealWorldQA、MTVQA 等等。无论是图像分辨率还是长宽比,都难不倒它~

图片

· 20分钟长视频也不怕: Qwen2-VL 能理解超过 20 分钟的视频,可以用来做高质量的视频问答、对话、内容创作等等。这意味着,无论是在线学习、技术支持,还是任何需要对视频内容进行理解的场合,Qwen2-VL 都可以成为得力助手。

· 可操作手机、机器人等的Agent: Qwen2-VL 还能跟手机、机器人等设备结合,实现自动操作!它强大的推理和决策能力,加上对视觉环境和文本指令的理解,让它成为真正的“智能管家”

· 多语言支持,全球用户都能用: 除了英语和中文,Qwen2-VL 现在还支持识别图像中的多种语言文本,包括大部分欧洲语言、日语、韩语、阿拉伯语、越南语等等,真正做到了面向全球用户!

图片

02、三个版本

这款新模型有三个不同参数的版本,分别是 Qwen2-VL-72B(720亿参数)、Qwen2-VL-7B 和 Qwen2-VL-2B。其中,7B 和2B 版本在开源宽松的 Apache2.0许可证下提供,允许企业随意将它们用于商业目的。

不过,最大的72B 版本目前还没有公开,只能通过专门的许可证和 API 获取。

03、案例展示

目前,阿里已经展示了Qwen2-VL的多个实际应用案例,例如,对一大段视频进行详细解读:

图片

用户:请详细描述一下视频。

Qwen2-VL:视频开始时,一名男子对着镜头说话,后面是一群人坐在控制室里。然后镜头切换到两个漂浮在空间站内的男子,可以看到他们对着镜头说话。这些人似乎是宇航员,他们穿着太空服。

空间站里充满了各种设备和机械,镜头四处移动以显示空间站的不同区域。这些人继续对着镜头说话,他们似乎在讨论他们的使命和正在执行的各种任务。总的来说,该视频让人们对太空探索的世界和宇航员的日常生活有了一个有趣的了解。

用户还可以基于视频继续提问,两位宇航员穿的衣服是什么颜色的?Qwen2-VL回答:两名宇航员穿着蓝色和黑色的衣服。

产品入口:

https://qwenlm.github.io/blog/qwen2-vl/

在线demo:

https://huggingface.co/spaces/Qwen/Qwen2-VL

*西安觉醒元宇宙AI,是专注线上AI培训、AI绘画辅导、AI开发服务的专业教育平台!

▍扫描下方二维码进入AI交流学习群,获取超多AI前沿知识!

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 第二证券:白酒股,全线飘红
  • css设置三个div宽度占据三分之一
  • spring security 记住我在web和前后端分离如何使用
  • 【ShuQiHere】重新定义Linux桌面生态:Gnome-Pie与Touché的双剑合璧
  • Elasticsearch之DSL查询语法
  • 【STM32】串口(异步通信部分)
  • Python运行时环境
  • 读软件开发安全之道:概念、设计与实施13Web安全
  • 【设计模式】单例模式、工厂模式、策略模式、观察者模式、装饰器模式
  • 新手小白Ubuntu18.04超详细安装教程
  • Python进阶03-闭包和装饰器
  • PyTorch 基础学习(14)- 归一化
  • 二极管、电阻、电容、电感的种类及作用
  • PHP EOF(heredoc) 速成技巧
  • 如何借助前端表格控件实现软硬一体化数据管理平台
  • 【Linux系统编程】快速查找errno错误码信息
  • 【node学习】协程
  • docker容器内的网络抓包
  • egg(89)--egg之redis的发布和订阅
  • iOS 系统授权开发
  • iOS高仿微信项目、阴影圆角渐变色效果、卡片动画、波浪动画、路由框架等源码...
  • Linux各目录及每个目录的详细介绍
  • SwizzleMethod 黑魔法
  • 搞机器学习要哪些技能
  • 欢迎参加第二届中国游戏开发者大会
  • 每天一个设计模式之命令模式
  • 融云开发漫谈:你是否了解Go语言并发编程的第一要义?
  • 手写双向链表LinkedList的几个常用功能
  • 微信小程序上拉加载:onReachBottom详解+设置触发距离
  • 详解NodeJs流之一
  • 《TCP IP 详解卷1:协议》阅读笔记 - 第六章
  • Nginx惊现漏洞 百万网站面临“拖库”风险
  • 通过调用文摘列表API获取文摘
  • (MTK)java文件添加简单接口并配置相应的SELinux avc 权限笔记2
  • (第三期)书生大模型实战营——InternVL(冷笑话大师)部署微调实践
  • (分享)自己整理的一些简单awk实用语句
  • (附源码)springboot教学评价 毕业设计 641310
  • (附源码)ssm高校运动会管理系统 毕业设计 020419
  • (回溯) LeetCode 78. 子集
  • (一)项目实践-利用Appdesigner制作目标跟踪仿真软件
  • (转)拼包函数及网络封包的异常处理(含代码)
  • .mat 文件的加载与创建 矩阵变图像? ∈ Matlab 使用笔记
  • .Net 4.0并行库实用性演练
  • .NET Core 通过 Ef Core 操作 Mysql
  • .net core 外观者设计模式 实现,多种支付选择
  • .NET/C# 如何获取当前进程的 CPU 和内存占用?如何获取全局 CPU 和内存占用?
  • .Net环境下的缓存技术介绍
  • .net获取当前url各种属性(文件名、参数、域名 等)的方法
  • .NET实现之(自动更新)
  • .NET是什么
  • .NET性能优化(文摘)
  • .pyc文件是什么?
  • .set 数据导入matlab,设置变量导入选项 - MATLAB setvaropts - MathWorks 中国
  • @PostConstruct 注解的方法用于资源的初始化
  • @Transactional注解下,循环取序列的值,但得到的值都相同的问题