当前位置: 首页 > news >正文

爱丽丝梦游仙境,把大模型打回原形

在如今AI无处不在的时代,许多人认为AI已经无所不能了。

AI代写文章、代写代码、AI绘画甚至AI制作PPT等功能,可能会让你觉得AI已经超越了人类。

然而,最新的一个研究表明,AI在处理一些简单的逻辑推理问题时,水平甚至还不如小学生

这就是“爱丽丝梦游仙境”测试,研究人员设计了一项名为“爱丽丝梦游仙境”(AIW)的测试。

图片

这个测试对我们来说并不算难:“爱丽丝有N个兄弟,她还有M个姐妹,请问爱丽丝的兄弟有多少个姐妹?” 

只需稍加思考,答案显而易见:M+1(爱丽丝的姐妹数量加上爱丽丝自己)。

然而,当研究人员让当前最先进的语言模型如GPT-3.5/4、Claude、Llama等回答这个问题时,结果却令人吃惊。

论文地址:

https://arxiv.org/abs/2406.02061

GPT-4o

图片

GPT3.5

图片

LLaMa3-8B

图片

再看一下国内的大模型表现如何。

讯飞星火

图片

清华智浦GLM4

图片

月之暗面Kimi

图片

阿里通义千问2.5

图片

国内最新的大模型也有一半的回答是错误的。

这暴露了目前很多大模型在推理能力上的局限性。

来自知名开源AI研究机构LAION的团队发表了一个事实:即使是当今最先进的AI模型,其推理能力也几乎达不到小学生的水平

LeCun,那个著名的AI大佬,在评论这一现象时也指出:推理能力和常识不应与存储和检索大量事实的能力混为一谈

推理能力和搜索引擎不一样,很多大模型表现的好,有时会被认为是因为大模型学习了大量的知识,而这些知识被编码存储在了大模型的权重中。

这也是现在很多人在讨论的一点:大模型到底是自己创建了一个巨大的知识库用来索引,还是它真的学到了一些知识呢?

不知你怎看待这个问题呢?


我的技术专栏已经有几百位朋友加入了。

如果你也希望了解AI技术,学习AI视觉或者大语言模型,戳下面的链接加入吧,这可能是你学习路上非常重要的一次点击呀

CV视觉入门第三版(细化版)完成

我的Transformer专栏努力更新中

最后,送一句话给大家:生活不止眼前,还有诗和远方,共勉~

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Git分支结构
  • 衣服、帽子、鞋子相关深度学习数据集大合集(2)
  • android13 rom frameworks 蓝牙自动接收文件
  • Redis数据同步
  • css看见彩虹,吃定彩虹
  • Excel多表格合并
  • CP AUTOSAR标准之BSWModeManager(AUTOSAR_SWS_BSWModeManager)(更新中……)
  • Oracle学习笔记
  • 确保智慧校园安全,充分利用操作日志功能
  • (19)夹钳(用于送货)
  • 2.电容(常见元器件及电路基础知识)
  • 【机器学习】初学者经典案例(随记)
  • 腾讯文档 如何勾选某行后,让此行在当前视图自动消失
  • Vscode插件推荐——智能切换输入法(Smart IME)
  • OpenHarmony移植小型系统exynos4412(三)
  • [case10]使用RSQL实现端到端的动态查询
  • 345-反转字符串中的元音字母
  • C++类中的特殊成员函数
  • Cumulo 的 ClojureScript 模块已经成型
  • learning koa2.x
  • mysql中InnoDB引擎中页的概念
  • Python爬虫--- 1.3 BS4库的解析器
  • Redux 中间件分析
  • Service Worker
  • springMvc学习笔记(2)
  • Traffic-Sign Detection and Classification in the Wild 论文笔记
  • v-if和v-for连用出现的问题
  • 大数据与云计算学习:数据分析(二)
  • 代理模式
  • 更好理解的面向对象的Javascript 1 —— 动态类型和多态
  • 将 Measurements 和 Units 应用到物理学
  • 王永庆:技术创新改变教育未来
  • 微服务核心架构梳理
  • 我看到的前端
  • 一加3T解锁OEM、刷入TWRP、第三方ROM以及ROOT
  • - 语言经验 - 《c++的高性能内存管理库tcmalloc和jemalloc》
  • 云栖大讲堂Java基础入门(三)- 阿里巴巴Java开发手册介绍
  • 字符串匹配基础上
  • FaaS 的简单实践
  • 京东物流联手山西图灵打造智能供应链,让阅读更有趣 ...
  • ​浅谈 Linux 中的 core dump 分析方法
  • #图像处理
  • %check_box% in rails :coditions={:has_many , :through}
  • (11)MSP430F5529 定时器B
  • (2024.6.23)最新版MAVEN的安装和配置教程(超详细)
  • (C语言)球球大作战
  • (Matalb回归预测)PSO-BP粒子群算法优化BP神经网络的多维回归预测
  • (Redis使用系列) SpringBoot中Redis的RedisConfig 二
  • (阿里巴巴 dubbo,有数据库,可执行 )dubbo zookeeper spring demo
  • (保姆级教程)Mysql中索引、触发器、存储过程、存储函数的概念、作用,以及如何使用索引、存储过程,代码操作演示
  • (补充)IDEA项目结构
  • (二) 初入MySQL 【数据库管理】
  • (附源码)php投票系统 毕业设计 121500
  • (附源码)ssm高校志愿者服务系统 毕业设计 011648
  • (九)信息融合方式简介