当前位置: 首页 > news >正文

十四款大型语言模型在《街头霸王III》中一决雌雄

上周在旧金山举办的Mistral AI黑客马拉松上,开发出了一款基于经典街机游戏《街头霸王III》的人工智能(AI)基准测试。这款名为“AI Street Fighter III”的开源基准测试由Stan Girard和Quivr Brain开发,游戏在模拟器中运行,让大型语言模型(LLM)以非传统却壮观的方式展开对决。

AI爱好者Matthew Berman在上面嵌入的视频中介绍了这款基于打斗游戏的新大型语言模型(LLM)竞赛。除了展示街头格斗的激烈场面,Berman的视频还手把手教你如何在个人电脑或Mac上安装这个开源项目,让你亲自试一试。

这并不是一款典型的LLM基准测试。通常情况下,较小的模型在延迟和速度上具有优势,这在本游戏中转化为更多的胜利。人类玩家在打斗游戏中得益于对对手动作的快速反应,而在AI对抗AI的战斗中也是如此。

作为基于文本的模型,LLM在战斗中实时作出决策。它们首先分析游戏状态以获取上下文,然后考虑自己的行动选项,如靠近、远离、发射火球、超级拳击、旋风腿、超级火球等。

视频中可以看到,战斗流畅,玩家似乎在计策性地反击、防守和使用特殊招式。不过,目前该项目仅支持使用角色Ken——这提供了完美的平衡性,但可能观感略显单调。

那么,哪款《街头霸王III》AI最强呢?根据Girard进行的测试,OpenAI的GPT 3.5 Turbo在他们对抗的八款LLM中以适当的优势(ELO评分1776)胜出。在亚马逊高管Banjo Obayomi进行的另一系列测试中,14款LLM进行了314场单独较量,最终Anthropic的claude_3_haiku以ELO评分1613的成绩脱颖而出。

有趣的是,Banjo还注意到,LLM的一些bug或特性(如AI幻觉和AI安全边界)有时会影响特定模型的打斗表现。

相关文章:

  • Gradle系列(五)-常用的gradle命令
  • 牛顿:Archetype AI 的开创性模型,实时解读真实世界的新宠儿
  • 蓝桥杯 经验技巧篇
  • Http Download
  • UE4_动画基础_ 使用分层动画(Using Layered Animations)
  • 探索算力(云计算、人工智能、边缘计算等):数字时代的引擎
  • 【机器学习】一文掌握机器学习十大分类算法(下)。
  • 基于Spring Boot 3 + Spring Security6 + JWT + Redis实现登录、token身份认证
  • 无人机概述
  • 【Python】无法将“pip”项识别为 cmdlet、函数、脚本文件或可运行程序的名称解决方案
  • YOLOv5全网独家改进: 卷积魔改 | 变形条状卷积,魔改DCNv3二次创新
  • 需求分析及设计定义
  • 数据结构之树的性质总结
  • Vue3跟Vue2比,性能真的有所提升吗?
  • 在 Databricks 中实时加速 SAP 数据复制的 7 个简单步骤
  • 【编码】-360实习笔试编程题(二)-2016.03.29
  • 【腾讯Bugly干货分享】从0到1打造直播 App
  • Angular4 模板式表单用法以及验证
  • CentOS7 安装JDK
  • css属性的继承、初识值、计算值、当前值、应用值
  • JavaScript-Array类型
  • java架构面试锦集:开源框架+并发+数据结构+大企必备面试题
  • js面向对象
  • Netty源码解析1-Buffer
  • Python语法速览与机器学习开发环境搭建
  • React组件设计模式(一)
  • Selenium实战教程系列(二)---元素定位
  • Storybook 5.0正式发布:有史以来变化最大的版本\n
  • SwizzleMethod 黑魔法
  • Unix命令
  • 关于springcloud Gateway中的限流
  • 每天一个设计模式之命令模式
  • 入门级的git使用指北
  • 软件开发学习的5大技巧,你知道吗?
  • 跳前端坑前,先看看这个!!
  • 微服务入门【系列视频课程】
  • 微信小程序设置上一页数据
  • 微信小程序实战练习(仿五洲到家微信版)
  • 详解移动APP与web APP的区别
  • 硬币翻转问题,区间操作
  • 最简单的无缝轮播
  • 【云吞铺子】性能抖动剖析(二)
  • 智能情侣枕Pillow Talk,倾听彼此的心跳
  • ​configparser --- 配置文件解析器​
  • ​油烟净化器电源安全,保障健康餐饮生活
  • # include “ “ 和 # include < >两者的区别
  • #14vue3生成表单并跳转到外部地址的方式
  • #if #elif #endif
  • (2022版)一套教程搞定k8s安装到实战 | RBAC
  • (C语言)深入理解指针2之野指针与传值与传址与assert断言
  • (Matalb分类预测)GA-BP遗传算法优化BP神经网络的多维分类预测
  • (仿QQ聊天消息列表加载)wp7 listbox 列表项逐一加载的一种实现方式,以及加入渐显动画...
  • (经验分享)作为一名普通本科计算机专业学生,我大学四年到底走了多少弯路
  • (力扣)1314.矩阵区域和
  • (免费领源码)python#django#mysql校园校园宿舍管理系统84831-计算机毕业设计项目选题推荐