当前位置: 首页 > news >正文

GPT-4o:开启多模态AI识别新纪元

GPT-4o功能简介

在人工智能的演变历程中,图像识别技术始终占据着核心地位。技术的发展日新月异,使得AI不仅能够识别图像内容,还能将其转化为文字描述。特别值得一提的是,OpenAI在春季发布的GPT-4o模型,将图像识别技术提升到了一个新的层次。其在多模态理解、物体识别、光学字符识别(OCR)、面部识别、情绪分析、场景解析、图像质量评估以及多目标检测等多个方面得到应用。

首席执行官 Sam Altman 强调,该模型具备“原生多模态”能力,能够生成内容或理解语音、文本和图像中的指令。开发者将可以访问该 API,费用是 GPT-4 Turbo 的一半,速度则是其两倍。

img

GPT-4o名称解析

  • GPT: GPT 代表生成式预训练 Transformer,一种用于语言处理任务的神经网络架构。OpenAI GPT-4o 建立在其前身 GPT-3 和 GPT-4 的基础上。

  • “o” 代表 Omni: 字母“o”表示 GPT-4o 的关键特性——全模式能力。与之前的模型不同,GPT-4o 可以处理并响应各种格式的信息:文本、语音甚至视频。这样可以更全面地理解用户输入,从而提供更相关的响应。

相比于GPT-4-Turbo,GPT-4o提升了什么?

GPT-4o模型的Token利用率相比之前的GPT-4-Turbo提升了50%,这意味着在调用GPT-4o时,消耗的Token数量更少,从而降低了实际成本。此外,GPT-4o的推理速度也比GPT-4-Turbo快了一倍,这直接影响了用户体验和运行效率。

GPT-4o视觉能力测试

为了测试GPT-4o的视觉识别能力,我们来对它进行一系列的测试。在测试过程中,我们仅提供图片,不提供额外的背景信息或引导性问题,以模拟用户在没有上下文的情况下使用图像识别功能。并且使用统一的提示,例如“这是什么?”,以确保测试的一致性。

1.光学字符识别(OCR)

img

OCR技术历史悠久,几乎与计算机科学同龄,按理说对现代视觉识别系统而言,识别文字应是轻而易举。即便是普通智能手机,也能轻松完成这项任务。然而,我提交了一张图片,内容是一块历经风霜的木牌,上面用古色古香的手写体刻着“欢迎来到奥克维尔”。我期望得到的,不仅仅是AI简单地转录文字。

来看看GPT-4o的回答:

GPT-4o:“这幅图像呈现了一个具有复古风情的指示牌,上面用醒目的白色粗体字在红色背景上写着"欢迎来到奥克维尔"。指示牌表面显得磨损,纹理粗糙,显露出岁月的痕迹,暗示它已历经风吹雨打。字体边缘的些许磨损,为其增添了一抹怀旧的韵味。指示牌周围环绕着郁郁葱葱的绿色植被,这表明它可能位于户外,或许是作为通往名为奥克维尔的小镇或社区的门户。”

它不仅能正确读取文本,还能提供有关该位置的更多详细信息,识别出它可能是城镇或定居点,并提取标志本身的详细信息。

2.面部识别

img

这项技术在欧盟存在争议,部分区域已被禁止。我提交了一幅由人工智能绘制的40岁出头女性的肖像,她拥有浓密的深色秀发和温柔的棕色眸子,脸上挂着一抹微笑。

GPT-4o的描述是:“这幅特写肖像捕捉了一位女性,她那卷曲的深色头发和微笑的脸庞成为焦点。画面光线充沛,突显了她细腻的肌肤纹理和面部特征。她的眼神友善,直视着镜头。模糊的背景让她的形象更加突出。”

为了获得更详尽的信息,包括她的年龄,我询问:“这位女士多大年纪?她的情绪状态如何?”GPT-4o回答说,她的年龄大约在30到40岁之间,情绪状态看起来相当不错,并进一步解释:“整体来看,她的情绪状态显得积极,似乎感到满足和平静。”

3.情绪检测

img

接着,我进行了另一项测试,这次是一张描绘着哀愁神色的年迈男性的照片。我好奇GPT-4o是否能够识别出这种情绪,并准确地描述整个场景。它的输入依然简单,仅是“这是什么”这个问题和相应的图片。

GPT-4o的描述如下:“这位长者坐在户外的长椅上,环境可能是一个公园。照片在黄金时段拍摄,柔和的光线洒在他的面庞上。老人的面容显得深沉,似乎笼罩在一丝忧郁或深思之中。他身着带领的衬衫和西装外套,而模糊的背景不仅让他的形象更加聚焦,还营造了一个令人心旷神怡的自然景观。”

这个人工智能模型的表现超出了我的预期,不仅成功地描述了场景,还对老人的情绪状态做出了恰当的推断。

4.场景理解

img

GPT-4o在从图像中提取场景描述和识别场景元素方面的能力有多强?这项技能极为实用,因为人工智能模型正日益被用于辅助描述现实世界的环境。这亦是ChatGPT新加入的语音功能中的一个核心优势。

GPT-4o的描述是这样的:“这张照片捕捉了一个充满阳光的户外农贸市场的热闹场景。在帐篷下,众多摊位排列着,摆满了各式各样的新鲜农产品,包括各式各样的水果、蔬菜以及其他商品。顾客们在市场中穿梭,挑选购物并与摊主进行交流。市场被一片郁郁葱葱的树木环绕,背景中可以看到绿叶的轮廓。整个市场散发出一种充满活力和社区归属感的氛围,强调了本地新鲜食材的重要性。”

无可置疑,它对图片的解读和场景的描述非常精确。它所提供的细节丰富度超出了我的预期,甚至特别提及了一些市场上销售的商品。

5.物体识别

img

图像呈现了一杯热腾腾的咖啡,装在一个红色的陶瓷杯里,连同杯碟一起摆放在咖啡馆的木质桌面上,背景故意虚化。测试的目的是评估GPT-4o如何捕捉并解释背景和场景。

GPT-4o的描述如下:“这张照片捕捉了一个温暖的场景,一杯热咖啡被放置在一个红色的陶瓷杯和杯碟中,桌面是未经修饰的木材。模糊的背景暗示了一个舒适的室内环境,人们在一间类似洞穴风格的咖啡馆或有独特石墙设计的室内空间交谈。咖啡杯是焦点,特别强调了从热饮中升腾的蒸汽。”

这个描述非常精确且详尽,不仅仅是对场景的简单描述,而是构建了一个完整的情境。为了增加描述的深度,我请它描绘一下“坐在桌边,握着这杯咖啡的人的内心想法。”

它给出的描述非常生动,其中有一句特别引人注目:“这杯咖啡不只是一款饮品;它是一种仪式,代表着在繁忙日常中一段宝贵的独处和深思的时光。”

概括

着这杯咖啡的人的内心想法。”

它给出的描述非常生动,其中有一句特别引人注目:“这杯咖啡不只是一款饮品;它是一种仪式,代表着在繁忙日常中一段宝贵的独处和深思的时光。”

概括

通过一系列的测试,我们可以看到GPT-4o在图像识别方面的出色表现。与以往的视觉模型相比,GPT-4o没有犯任何错误,无论是在物体识别、颜色识别还是品牌识别方面。这标志着OpenAI在多模态领域的重大进步。准备好彻底改变的 AI 交互体验。无论是在 ChatGPT 的 GPT-4o 免费版还是 GPT Plus 版中。Plus 用户将享受更高的消息限制。准备好通过文本提示和图像输入体验 GPT-4o 的强大功能吧。
参考原文链接:GPT-4o:开启多模态AI识别新纪元

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 那些年我们一起遇到过的奇技淫巧
  • docker部署zookeeper和kafka
  • 图论(二):图的度分析——度数bar图度数等级图度数直方图根据度数渲染节点颜色
  • 合并多行数据
  • 记录一个困扰两天的bug,vue3代码用vite打包运行出错的问题
  • 哈希表 -四数相加II
  • 真的只有“天赋异禀”的人才能学好人工智能吗?
  • JWT入门
  • <数据集>路面坑洼识别数据集<目标检测>
  • UMDF例子 - Windows-driver-samples\general\echo\umdf2
  • 力扣(2024.08.12)
  • 提高清晰度的全彩LED显示屏的关键要素
  • 豆神集团阎鹏:重新认识AI教育中“人”的价值
  • JavaWeb——Servlet
  • 鸿蒙(API 12 Beta3版)【音视频解封装】 文件解析封装
  • 【Under-the-hood-ReactJS-Part0】React源码解读
  • 345-反转字符串中的元音字母
  • 4个实用的微服务测试策略
  • android图片蒙层
  • Docker下部署自己的LNMP工作环境
  • Druid 在有赞的实践
  • electron原来这么简单----打包你的react、VUE桌面应用程序
  • emacs初体验
  • iOS仿今日头条、壁纸应用、筛选分类、三方微博、颜色填充等源码
  • JavaScript函数式编程(一)
  • JavaWeb(学习笔记二)
  • Meteor的表单提交:Form
  • oschina
  • SpiderData 2019年2月16日 DApp数据排行榜
  • 初识 beanstalkd
  • 如何打造100亿SDK累计覆盖量的大数据系统
  • 如何选择开源的机器学习框架?
  • 入职第二天:使用koa搭建node server是种怎样的体验
  • 基于django的视频点播网站开发-step3-注册登录功能 ...
  • 组复制官方翻译九、Group Replication Technical Details
  • "无招胜有招"nbsp;史上最全的互…
  • # 数仓建模:如何构建主题宽表模型?
  • ### Error querying database. Cause: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException
  • $.extend({},旧的,新的);合并对象,后面的覆盖前面的
  • $forceUpdate()函数
  • ( 用例图)定义了系统的功能需求,它是从系统的外部看系统功能,并不描述系统内部对功能的具体实现
  • (007)XHTML文档之标题——h1~h6
  • (20050108)又读《平凡的世界》
  • (NO.00004)iOS实现打砖块游戏(十二):伸缩自如,我是如意金箍棒(上)!
  • (Redis使用系列) Springboot 使用redis实现接口Api限流 十
  • (附源码)apringboot计算机专业大学生就业指南 毕业设计061355
  • (附源码)springboot掌上博客系统 毕业设计063131
  • (一)RocketMQ初步认识
  • . NET自动找可写目录
  • ./mysql.server: 没有那个文件或目录_Linux下安装MySQL出现“ls: /var/lib/mysql/*.pid: 没有那个文件或目录”...
  • .net core 的缓存方案
  • .NET Core实战项目之CMS 第十二章 开发篇-Dapper封装CURD及仓储代码生成器实现
  • .NET MAUI Sqlite程序应用-数据库配置(一)
  • .NET 给NuGet包添加Readme
  • .NET/C# 利用 Walterlv.WeakEvents 高性能地中转一个自定义的弱事件(可让任意 CLR 事件成为弱事件)