当前位置: 首页 > news >正文

人工智能系统越来越擅长欺骗我们?

人工智能系统越来越擅长欺骗我们?

在这里插入图片描述
一波人工智能系统以他们没有被明确训练过的方式“欺骗”人类,通过为他们的行为提供不真实的解释,或者向人类用户隐瞒真相并误导他们以达到战略目的。

发表在《模式》(Patterns)杂志上的一篇综述论文总结了之前的研究,该论文指出,这个问题凸显了人工智能控制的难度,以及这些系统工作方式的不可预测性。

说到欺骗人类,或许表明这些模型是有意图的。他们没有,但人工智能模型会无意识地找到解决障碍的方法,以实现给定的目标。有时,这些变通方法会违背用户的期望,让人觉得具有欺骗性。

AI系统学会欺骗的一个领域是在游戏环境中,它们被训练成要赢的游戏,特别是那些涉及必须采取战略行动的游戏。

2022年11月,Meta宣布创造了Cicero,这是一款能够在《外交》(Diplomacy)在线版中击败人类的人工智能。《外交》是一款流行的军事战略游戏,玩家可以通过协商联盟来争夺对欧洲的控制权。

Meta的研究人员表示,他们已经在数据集的“真实”子集上训练Cicero,使其在很大程度上是诚实和有用的,并且为了成功,它“永远不会故意背后中伤”它的盟友。但这篇新论文的作者声称,事实恰恰相反:西塞罗违反了协议,说了彻头彻尾的谎言,并参与了有预谋的欺骗。作者表示,尽管该公司确实试图训练西塞罗诚实行事,但未能实现这一目标,这表明人工智能系统仍然可以出人意料地学会欺骗。

Meta既没有证实也没有否认研究人员关于Cicero表现出欺骗行为的说法,但一位发言人表示,这纯粹是一个研究项目,该模型只是为了玩《Diplomacy》而建立的。他们说:“我们根据我们长期以来对开放科学的承诺,在非商业许可下发布了这个项目的文物。”“Meta定期分享我们的研究结果,以验证它们,并使其他人能够负责任地利用我们的进步。我们没有计划在我们的产品中使用这项研究或其成果。”

但这并不是唯一一款AI通过“欺骗”人类玩家获得胜利的游戏。

AlphaStar是DeepMind为玩电子游戏《星际争霸2》(StarCraft II)而开发的人工智能,它非常擅长做出旨在欺骗对手的招式(即佯攻),击败了99.8%的人类玩家。在其他地方,另一个名为Pluribus的Meta系统在扑克游戏中成功地学会了虚张声势,以至于研究人员决定不公布它的代码,因为担心它会破坏在线扑克社区。

除了游戏,研究人员还列举了其他人工智能欺骗性行为的例子。OpenAI最新的大型语言模型GPT-4在一项测试中提出了谎言,该测试要求它说服人类为它解决验证码。在一次模拟演习中,该系统还涉及内幕交易。在模拟演习中,该系统被要求扮演一名受压股票交易员的身份,尽管从未被明确指示这样做。

人工智能模型有可能在没有任何指示的情况下以欺骗的方式行事,这一事实似乎令人担忧。麻省理工学院研究人工智能存在安全性的博士后彼得·s·帕克(Peter S. Park)参与了这个项目,他说,这主要源于最先进的机器学习模型所特有的“黑匣子”问题:我们不可能确切地说出它们是如何或为什么会产生这样的结果——或者它们是否会一直表现出这种行为。

他说:“仅仅因为你的人工智能在测试环境中有某些行为或倾向,并不意味着如果它被释放到自然环境中,同样的教训也会成立。”“没有简单的方法可以解决这个问题——如果你想知道人工智能一旦被部署到野外会做什么,那么你就必须把它部署到野外。”

我们将人工智能模型拟人化的倾向影响了我们测试这些系统的方式以及我们对它们能力的看法。毕竟,通过旨在衡量人类创造力的测试并不意味着人工智能模型实际上具有创造力。剑桥大学(University of Cambridge)人工智能研究员哈里•劳(Harry Law)表示,至关重要的是,监管机构和人工智能公司要仔细权衡这项技术对社会的潜在好处和造成伤害的可能性,并明确区分这些模型能做什么和不能做什么。他没有参与这项研究。“这些都是很难回答的问题,”他说。

他说,从根本上说,目前还不可能训练出一个在所有可能情况下都不会欺骗的人工智能模型。此外,除了放大偏见和错误信息的倾向之外,欺诈行为的潜在可能性是许多问题之一,这些问题需要在人工智能模型被信任用于现实世界的任务之前得到解决。

“这是一项很好的研究,表明欺骗是可能的,”劳说。“下一步将是尝试进一步弄清楚风险状况是什么,以及欺骗行为可能产生的危害有多大,以及以何种方式发生。”

相关文章:

  • Nvidia Jetson/Orin/算能 +FPGA+AI大算力边缘计算盒子:加油站安全智能检测系统
  • 2003NOIP普及组真题 3. 栈
  • “Apache Kylin 实战指南:从安装到高级优化的全面教程
  • 环 境 变 量
  • 夕小瑶:资本寒冬下的AI创业一年
  • vue3 监听器,组合式API的watch用法
  • 软考 系统架构设计师系列知识点之杂项集萃(28)
  • 3588麒麟系统硬解码实战
  • gcc: coverage: gcda文件没有生成另一例:so文件调用__gcov_dump
  • 【Python】解决Python报错:TypeError: ‘int‘ object is not callable
  • opencv实战小结-银行卡号识别
  • 如何利用Varjo混合现实技术改变飞机维修训练方式
  • 关于RDMA传输的基本流量控制
  • Linux 中常用的设置、工具和操作
  • LeetCode题练习与总结:三角形最小路径和--120
  • 【每日笔记】【Go学习笔记】2019-01-10 codis proxy处理流程
  • 002-读书笔记-JavaScript高级程序设计 在HTML中使用JavaScript
  • docker python 配置
  • HTTP 简介
  • iOS小技巧之UIImagePickerController实现头像选择
  • JavaScript创建对象的四种方式
  • vue-cli在webpack的配置文件探究
  • 基于OpenResty的Lua Web框架lor0.0.2预览版发布
  • 讲清楚之javascript作用域
  • 解析带emoji和链接的聊天系统消息
  • 码农张的Bug人生 - 见面之礼
  • 原生 js 实现移动端 Touch 滑动反弹
  • ​iOS安全加固方法及实现
  • ​一些不规范的GTID使用场景
  • #100天计划# 2013年9月29日
  • #调用传感器数据_Flink使用函数之监控传感器温度上升提醒
  • #我与Java虚拟机的故事#连载05:Java虚拟机的修炼之道
  • (06)Hive——正则表达式
  • (C++)八皇后问题
  • (delphi11最新学习资料) Object Pascal 学习笔记---第2章第五节(日期和时间)
  • (windows2012共享文件夹和防火墙设置
  • (八)五种元启发算法(DBO、LO、SWO、COA、LSO、KOA、GRO)求解无人机路径规划MATLAB
  • (附源码)ssm高校志愿者服务系统 毕业设计 011648
  • (面试必看!)锁策略
  • (三)Hyperledger Fabric 1.1安装部署-chaincode测试
  • (十三)Maven插件解析运行机制
  • (四)JPA - JQPL 实现增删改查
  • (一)Java算法:二分查找
  • (一)spring cloud微服务分布式云架构 - Spring Cloud简介
  • (原创)boost.property_tree解析xml的帮助类以及中文解析问题的解决
  • (原創) 博客園正式支援VHDL語法著色功能 (SOC) (VHDL)
  • (原創) 如何讓IE7按第二次Ctrl + Tab時,回到原來的索引標籤? (Web) (IE) (OS) (Windows)...
  • (转)linux 命令大全
  • (转)大型网站的系统架构
  • ... 是什么 ?... 有什么用处?
  • .halo勒索病毒解密方法|勒索病毒解决|勒索病毒恢复|数据库修复
  • .JPG图片,各种压缩率下的文件尺寸
  • .NET Core 将实体类转换为 SQL(ORM 映射)
  • .NET Core 中的路径问题
  • .net websocket 获取http登录的用户_如何解密浏览器的登录密码?获取浏览器内用户信息?...