当前位置: 首页 > news >正文

[240903] Qwen2-VL: 更清晰地看世界 | Elasticsearch 再次拥抱开源!

目录

    • Qwen2-VL: 更清晰地看世界
    • Elasticsearch 再次拥抱开源!

Qwen2-VL: 更清晰地看世界

历经一年研发,阿里云推出新一代视觉语言模型 Qwen2-VL,支持多语言、长视频理解、视觉推理及智能体交互,性能超越 GPT-4o 等模型,并开源 2B 和 7B 模型。

一、 Qwen2-VL 的突破

  1. 视觉理解更强大:支持不同分辨率、长宽比图片,在多项基准测试中取得全球领先,例如文档理解方面优势明显。
  2. 长视频理解:可理解20分钟以上长视频,应用于问答、对话、内容创作。
  3. 视觉智能体:集成到手机、机器人等设备,根据视觉和指令自动操作。
  4. 多语言支持:支持中英多语种,包括欧洲语言、日韩语、阿拉伯语、越南语等。

二、 模型性能

  • 72B 模型在大部分指标上达到最优,超越 GPT-4o 和 Claude3.5-Sonnet,刷新开源多模态模型最佳表现。
  • 7B 模型在文档理解和多语言文字图像理解方面处于 SOTA 水平。
  • 2B 模型支持移动端应用,在视频文档和通用问答方面表现优异。

三、 模型能力案例

  1. 细节识别理解:识别植物、地标、手写文字、多语言,例如:

    User: 转录图中内容,并识别图中每段内容的语言。(图片)
    Qwen2-VL: 1. 汉语,也称为“华语”。(...省略) 语言:中文2. 日本語は地方ごとに多様な方言があり、(...省略) 语言:日语(...省略)
    
  2. 视觉推理:解决数学、编程、信息提取等现实问题,例如:

    User: Solve the algorithmic problem in the web page. (网页截图)
    Qwen2-VL: To solve the “Snake in Matrix” problem, we need to implement a function (...省略,并给出Python代码)
    
  3. 视频理解与实时聊天:总结视频要点、回答问题、连贯对话,例如:

    User: 视频中的人在做什么? (视频)
    Qwen2-VL: 视频中的人正在使用吸尘器清理地板。
    User: 如果要进一步清洁地面的话,接下来该怎么做?
    Qwen2-VL: 如果要进一步清洁地面,可以使用拖把或湿布擦拭地面,以去除吸尘器无法清除的污渍和灰尘。
    (...省略,后续对话)
    
  4. Visual Agent 能力:函数调用和视觉交互,例如:

    # 使用API调用Qwen2-VL-72B识别图片
    def get_response():client = OpenAI(api_key=os.getenv("DASHSCOPE_API_KEY"),base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",)completion = client.chat.completions.create(model="qwen-vl-max-0809",messages=[{"role": "user","content": [{"type": "text", "text": "What is this?"},{"type": "image_url","image_url": {"url": "https://dashscope.oss-cn-beijing.aliyuncs.com/images/dog_and_girl.jpeg"},},# ...],}],# ...)# ...
    
    • 函数调用:实时检索航班、天气、包裹等信息。
    • 视觉交互:操作手机、玩游戏、控制机器人等。

四、 模型架构

  • 支持原生动态分辨率,处理任意分辨率图像。
  • 多模态旋转位置嵌入(M-ROPE),捕捉文本、图像、视频的位置信息。

五、 玩转 Qwen2-VL

  • 使用官方 API 体验 Qwen2-VL-72B。
  • 开源 2B 和 7B 模型可在 Hugging Face 和 ModelScope 上获取。

六、 未来展望

  • 打造更强的视觉语言模型。
  • 研究结合更多模态,实现真正意义的统一模型。

来源:

https://qwenlm.github.io/zh/blog/qwen2-vl/


x-cmd 用户实际应用案例:

  • Github-QwenLM/Qwen2-VL

    # 使用浏览器打开 QwenLM/Qwen2-VL 的 GitHub 仓库
    x gh browse --repo QwenLM/Qwen2-VL
    
  • Hugging Face-Qwen2-VL

    # 设置在全局环境中使用 huggingface-cli
    x env use huggingface# 从 Qwen Hub 中下载 Qwen2-VL-2B-Instruct 模型
    huggingface-cli download Qwen/Qwen2-VL-2B-Instruct# 扫描缓存目录查看已下载的模型信息
    huggingface-cli scan-cache
    

在这里插入图片描述

进一步探索:

  • mod/gh
  • pkg/huggingface

Elasticsearch 再次拥抱开源!

Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎,同时是可扩展的数据存储和矢量数据库,能够应对日益增多的各种用例。近日,该项目宣布再次开源。

核心要点:

  • Elasticsearch 和 Kibana 将再次以开源软件的形式提供!
  • 开发公司 Elastic 将在未来几周内为 Elasticsearch 添加 AGPL 许可证选项,与现有的 ELv2 和 SSPL 许可证并存。
  • 此举旨在消除用户对 Elasticsearch 开源性的任何疑虑,并为开源世界提供更多选择。

背景:

  • 三年前,由于 AWS 推出与其功能相似的服务,导致市场混乱,Elastic 修改了 Elasticsearch 的许可证,不再将其视为完全开源。
  • 这一决定虽然有效地解决了市场混乱问题,但也导致 Elasticsearch 出现了一个名为 OpenSearch 的分支。

回归开源:

  • 三年后,市场环境已发生变化,Elastic 与 AWS 的合作关系也更加稳固。
  • Elastic 认为现在是时候回归开源了,并选择 AGPL 作为新的许可证选项。
  • AGPL 是 OSI 批准的许可证,MongoDB 和 Grafana 等项目都在使用。

对用户的意义:

  • 现有的 Elasticsearch 用户不会受到任何影响,可以继续使用现有的许可证。
  • 新用户可以选择 AGPL 许可证,享受更自由的开源体验。

Elastic 对未来的展望:

  • Elastic 对 Elasticsearch 的未来充满信心,并将在开源领域继续投入。
  • Elastic 希望与 OSI 合作,为开源世界提供更多选择。

一些常见问题的解答:

  • 修改许可证是否意味着 Elastic 此前的决定是错误的? Elastic 认为,三年前的决定是正确的,它有效地解决了当时的市场混乱问题。而现在的决定则是基于当前市场环境做出的,是为了更好地服务用户 。
  • AGPL 是否是真正的开源许可证? AGPL 是 OSI 批准的许可证,被广泛认为是真正的开源许可证。
  • Elastic 修改许可证是否因为公司经营状况不佳? Elastic 对公司未来的发展充满信心,修改许可证是为了更好地服务用户,与公司经营状况无关。

Elasticsearch 再次拥抱开源是一个令人振奋的消息,它将为用户提供更多选择,并为开源世界做出贡献。

来源:

https://www.elastic.co/cn/blog/elasticsearch-is-open-source-again

更多内容请查阅 : blog-240903


关注微信官方公众号 : oh my x

获取开源软件和 x-cmd 最新用法

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 气动切断阀工作原理
  • Qt 配置整个程序的信号-槽连接器
  • Fabric.js Canvas:核心配置与选项解析
  • uniapp钱包支付、与设置密码页面
  • 论文阅读:MambaVision: A Hybrid Mamba-Transformer Vision Backbone
  • 2023年中国90后十大影响力人物
  • 转换器和其他运放电路(恒流源+电压-电流/电流-电压转换器+峰值检测器)+故障检测(比较器故障+求和器故障)
  • CSS瀑布流实现
  • 计算机视觉之 GSoP 注意力模块
  • FastGPT:利用大模型重新定义传统知识库
  • 2024最新VMware17安装Windows10详细记录
  • golang make 函数的三个参数分别有什么作用
  • 新华三H3C HCL配置IS-IS基本配置
  • 【人工智能 | 机器学习】神经网络
  • Java算法之循环排序(Cyclic Sort)
  • 4月23日世界读书日 网络营销论坛推荐《正在爆发的营销革命》
  • Android 初级面试者拾遗(前台界面篇)之 Activity 和 Fragment
  • Android交互
  • Bootstrap JS插件Alert源码分析
  • node入门
  • PAT A1120
  • Python实现BT种子转化为磁力链接【实战】
  • spring boot下thymeleaf全局静态变量配置
  • Spring框架之我见(三)——IOC、AOP
  • vue-cli在webpack的配置文件探究
  • Yeoman_Bower_Grunt
  • 分布式熔断降级平台aegis
  • 基于OpenResty的Lua Web框架lor0.0.2预览版发布
  • 如何编写一个可升级的智能合约
  • 思否第一天
  • kubernetes资源对象--ingress
  • #NOIP 2014#Day.2 T3 解方程
  • #ubuntu# #git# repository git config --global --add safe.directory
  • #我与Java虚拟机的故事#连载17:我的Java技术水平有了一个本质的提升
  • $.ajax,axios,fetch三种ajax请求的区别
  • (2009.11版)《网络管理员考试 考前冲刺预测卷及考点解析》复习重点
  • (回溯) LeetCode 131. 分割回文串
  • (七)Java对象在Hibernate持久化层的状态
  • (十)c52学习之旅-定时器实验
  • (原創) 博客園正式支援VHDL語法著色功能 (SOC) (VHDL)
  • (转)visual stdio 书签功能介绍
  • (转)关于pipe()的详细解析
  • .MSSQLSERVER 导入导出 命令集--堪称经典,值得借鉴!
  • .NET CF命令行调试器MDbg入门(三) 进程控制
  • .NET Conf 2023 回顾 – 庆祝社区、创新和 .NET 8 的发布
  • .net core 使用js,.net core 使用javascript,在.net core项目中怎么使用javascript
  • .NET 程序如何获取图片的宽高(框架自带多种方法的不同性能)
  • .NET 命令行参数包含应用程序路径吗?
  • .netcore如何运行环境安装到Linux服务器
  • .php文件都打不开,打不开php文件怎么办
  • @SentinelResource详解
  • [ C++ ] STL---stack与queue
  • [ 隧道技术 ] 反弹shell的集中常见方式(二)bash反弹shell
  • [240727] Qt Creator 14 发布 | AMD 推迟 Ryzen 9000芯片发布
  • [2544]最短路 (两种算法)(HDU)