当前位置: 首页 > news >正文

Query @azure/openai with images?

题意:使用图像与@azure/openai进行交互或查询

问题背景:

On chat.openai.com I can upload an image and ask chatgpt a question about it, with the existing openai and @azure/openai api however there doesn't seem to be a way to do this? The ChatCompletion object in both cases only take text prompts.

在chat.openai.com上,我可以上传一张图片并就它向ChatGPT提问,但是使用现有的openai和@azure/openai API时,似乎没有办法做到这一点?在这两种情况下,ChatCompletion对象都只接受文本提示。

Is this feautre supported at an api level?

这个特性在API级别上得到支持吗?

问题解决:

With OpenAI you just include your image as part of the message that you supply. Here is a piece from the code I use, which works whether you have an image or not:

在使用OpenAI时,你只需要将你的图像作为你提供消息的一部分包含进来。下面是我使用的一段代码,无论你是否有图像,它都能正常工作。

if image != '':# Get base64 stringbase64_image = encode_image(image)content = [{"type": "text","text": your_prompt},{"type": "image_url","image_url": {"url": f"data:image/jpeg;base64,{base64_image}"}}]
else:content = your_prompt
messages.append({"role": "user", "content": content})

And then        然后

payload = {"model": model_name,"temperature": temperature,"max_tokens": tokens,"messages": messages
}

where encode_image() is defined:        encode_image() 函数是在哪里定义的?

def encode_image(image_path):with open(image_path, "rb") as image_file:return base64.b64encode(image_file.read()).decode('utf-8')

Currently you need to target OpenAI model gpt-4-vision-preview. Update: As @Michael suggests, it also works with gpt-4o.

目前你需要将目标设定为OpenAI的模型gpt-4-vision-preview。更新:如@Michael所建议的,它也适用于gpt-4o

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 【无线通信发展史③】万有引力定律的推导前奏1.0,带你先了解离心力—向心力的知识点
  • sqlserver给整张表修改某一字段为uuid
  • GPT-4o:开启多模态AI识别新纪元
  • 那些年我们一起遇到过的奇技淫巧
  • docker部署zookeeper和kafka
  • 图论(二):图的度分析——度数bar图度数等级图度数直方图根据度数渲染节点颜色
  • 合并多行数据
  • 记录一个困扰两天的bug,vue3代码用vite打包运行出错的问题
  • 哈希表 -四数相加II
  • 真的只有“天赋异禀”的人才能学好人工智能吗?
  • JWT入门
  • <数据集>路面坑洼识别数据集<目标检测>
  • UMDF例子 - Windows-driver-samples\general\echo\umdf2
  • 力扣(2024.08.12)
  • 提高清晰度的全彩LED显示屏的关键要素
  • 分享的文章《人生如棋》
  • 【css3】浏览器内核及其兼容性
  • Android开发 - 掌握ConstraintLayout(四)创建基本约束
  • angular2 简述
  • HTTP--网络协议分层,http历史(二)
  • iOS筛选菜单、分段选择器、导航栏、悬浮窗、转场动画、启动视频等源码
  • Java 9 被无情抛弃,Java 8 直接升级到 Java 10!!
  • JS 面试题总结
  • JS创建对象模式及其对象原型链探究(一):Object模式
  • LeetCode刷题——29. Divide Two Integers(Part 1靠自己)
  • react-core-image-upload 一款轻量级图片上传裁剪插件
  • RxJS: 简单入门
  • socket.io+express实现聊天室的思考(三)
  • sublime配置文件
  • webpack项目中使用grunt监听文件变动自动打包编译
  • 动手做个聊天室,前端工程师百无聊赖的人生
  • 聚类分析——Kmeans
  • 老板让我十分钟上手nx-admin
  • 驱动程序原理
  • 容器化应用: 在阿里云搭建多节点 Openshift 集群
  • 如何使用 OAuth 2.0 将 LinkedIn 集成入 iOS 应用
  • Java性能优化之JVM GC(垃圾回收机制)
  • 关于Android全面屏虚拟导航栏的适配总结
  • ​浅谈 Linux 中的 core dump 分析方法
  • ​软考-高级-系统架构设计师教程(清华第2版)【第1章-绪论-思维导图】​
  • ​业务双活的数据切换思路设计(下)
  • # MySQL server 层和存储引擎层是怎么交互数据的?
  • #【QT 5 调试软件后,发布相关:软件生成exe文件 + 文件打包】
  • #AngularJS#$sce.trustAsResourceUrl
  • (11)工业界推荐系统-小红书推荐场景及内部实践【粗排三塔模型】
  • (2/2) 为了理解 UWP 的启动流程,我从零开始创建了一个 UWP 程序
  • (附源码)ssm高校社团管理系统 毕业设计 234162
  • (六)Hibernate的二级缓存
  • (三)elasticsearch 源码之启动流程分析
  • (深度全面解析)ChatGPT的重大更新给创业者带来了哪些红利机会
  • (转)scrum常见工具列表
  • ./mysql.server: 没有那个文件或目录_Linux下安装MySQL出现“ls: /var/lib/mysql/*.pid: 没有那个文件或目录”...
  • .net core 6 使用注解自动注入实例,无需构造注入 autowrite4net
  • .net SqlSugarHelper
  • .net和jar包windows服务部署