当前位置: 首页 > news >正文

大模型日报|7 篇必读的大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.智谱AI、清华团队推出大模型基于规则的推理能力新基准 LogicGame

大语言模型(LLM)在各种任务中都表现出了显著的能力,展示了解决复杂问题的能力。理解和执行复杂规则以及多步骤规划是逻辑推理的基础,也是实用 LLM 智能体(agent)和决策系统的关键。然而,对 LLM 作为有效的基于规则的执行者和规划者进行评估的研究仍然不足。

在这项工作中,为评估 LLM 的综合规则理解、执行和规划能力,来自智谱AI 和清华大学的研究团队推出了一种新基准 LogicGame。与传统基准不同,LogicGame 提供了包含一系列初始状态规则的多样化游戏,要求模型理解并应用预定义的规则来解决问题。

他们创建模拟场景,让模型执行或规划操作,从而实现特定结果。这些游戏场景是专门设计的,通过完全依赖预定义的规则来区分逻辑推理和纯粹的知识。通过这种区分,可以对基于规则的推理能力进行纯粹的评估。评估不仅考虑最终结果,还考虑中间步骤,从而对模型性能进行全面评估。此外,这些中间步骤是确定的,可以自动验证。从简单的规则应用到复杂的推理链,LogicGame 定义了不同难度的游戏场景,以便对模型在规则理解和多步骤执行方面的性能进行精确评估。

利用 LogicGame,他们测试了各种 LLM,并发现了它们在基于规则的逻辑推理能力方面存在的明显不足。

论文链接:
https://arxiv.org/abs/2408.15778

2.清华团队推出多智能体系统大模型合作、竞争评估基准

大语言模型(LLM)可以处理复杂任务,比如单智能体(agent)和多智能体系统的构建。与单智能体相比,多智能体系统对语言模型的协作能力要求更高。人们提出了许多基准来评估它们的协作能力。然而,这些基准缺乏对 LLM 协作能力的细粒度评估。此外,现有研究还忽略了多智能体协作和竞争场景。

为解决以上两个问题,来自清华大学的研究团队推出了一个名为“BattleAgentBench”的基准,其定义了三个不同难度级别的七个子阶段,并从单个智能体场景导航能力、成对智能体任务执行能力以及多智能体协作和竞争能力等方面对语言模型进行了细粒度评估。

他们对四个闭源模型和七个开源模型进行了广泛的评估。实验结果表明,基于 API 的模型在简单任务上表现出色,但开源小模型在简单任务上表现不佳。至于需要协作和竞争能力的高难度任务,虽然基于 API 的模型已经展示了一定的协作能力,但仍有巨大的改进空间。

论文链接:
https://arxiv.org/abs/2408.15971

3.Dolphin:新型解码器-解码器,高效处理长上下文

在这项工作中,来自 Nexa AI 的研究团队提出了一种新型解码器-解码器(decoder-decoder)架构 Dolphin,用于在语言模型中高效处理长上下文。他们的方法解决了端侧模型固有的巨大能耗和延迟难题。

Dolphin 采用了一个 0.5B 参数的紧凑型解码器,将大量上下文信息提炼到内存嵌入中,从而大大减少了主要 7B 参数解码器模型的输入长度。受视觉语言模型的启发,他们重新利用图像嵌入投影器对长文本上下文进行编码,从而有效地将扩展上下文作为一种独特的模式来处理。这种创新方法能够处理更长的上下文,而不会产生与扩展输入序列相关的典型计算开销。

经验评估表明,与传统的全长上下文处理方法相比,该方法的能效提高了 10 倍,延迟时间缩短了 5 倍,而且不会降低响应质量。我们的工作有助于为端侧应用开发更具可持续性和可扩展性的语言模型,满足在资源受限环境中对高能效、高响应性人工智能技术的迫切需求,同时保持理解长上下文的准确性。

论文链接:
https://arxiv.org/abs/2408.15518

4.通过下一个 token 预测进行上下文模仿学习

在这项工作中,来自加州大学伯克利分校的研究团队探讨了如何增强下一个 token 预测模型,以便在真实机器人上执行上下文模仿学习,即机器人通过解释输入阶段提供的上下文信息来执行新任务,而无需更新其底层策略参数。

他们提出的“上下文机器人 Transformer”(In-Context Robot Transformer,ICRT)是一种因果 Transformer,可对传感器运动轨迹进行自回归预测,而无需依赖任何语言数据或奖励函数。通过使用由图像观察、动作和状态元组组成的新任务的传感器运动轨迹(通过人类远程操作收集)来提示模型,这种方法可在测试时灵活、无需额外训练地执行新任务。

使用弗兰卡-埃米卡机器人进行的实验表明,即使环境配置与提示和训练数据不同,ICRT 也能适应提示指定的新任务。在多任务环境设置中,ICRT 在泛化到未见任务方面的表现明显优于目前机器人领域其他下一个 token 预测模型。

论文链接:
https://arxiv.org/abs/2408.15980
项目地址:
https://icrt.dev/

5.生成式插值:将图像到视频模型用于关键帧插值

在这项工作中,来自华盛顿大学和 Google DeepMind 的研究团队提出了一种在一对输入关键帧之间生成具有连贯运动的视频序列的方法。

他们将预先训练好的大规模图像到视频扩散模型(最初经过训练可从单个输入图像生成向前移动的视频)用于关键帧插值,即生成两个输入帧之间的视频。他们通过一种轻量级微调技术实现了这一调整,该技术生成的模型版本可预测从单个输入图像生成向前移动的视频。该模型(连同原始的前向移动模型)随后被用于双向扩散采样过程,该过程结合了从两个关键帧中的每一个开始的重叠模型估计值。

实验表明,这一方法优于现有的基于扩散的方法和传统的帧插值技术。

论文链接:
https://arxiv.org/abs/2408.15239
项目地址:
https://svd-keyframe-interpolation.github.io/

6.Llama 中的 Mamba:提炼和加速混合模型

线性 RNN 架构(如 Mamba)在语言建模方面可与 Transformer 模型相媲美,同时还具有更好的部署特性。

鉴于重点为训练大规模 Transformer 模型,来自康奈尔大学、日内外大学和 Together AI 的研究团队考虑了将这些预训练模型转换为部署模型的挑战。他们证明,利用学术 GPU 资源,通过重复使用注意力层的线性投影权重,将大型 Transformer 提炼为线性 RNN 是可行的。由此产生的混合模型包含了四分之一的注意力层,在聊天基准测试中的性能可与原始 Transformer 相媲美,在聊天基准测试和一般基准测试中的性能均优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外,他们还引入了一种硬件感知的投机解码算法,可加快 Mamba 和混合模型的推理速度。

总之,他们展示了如何利用有限的计算资源,移除许多原始注意力层,并更高效地生成模型。他们从 Llama3-8B-Instruct 中提炼出的 SOTA 模型在 AlpacaEval 2 对战 GPT-4 的比赛中取得了 29.61 的 length-controlled 胜率,在 MT-Bench 上取得了 7.35 的胜率,超过了其他指令微调线性 RNN 模型。

论文链接:
https://arxiv.org/abs/2408.15237
GitHub 地址:
https://github.com/jxiw/MambaInLlama

7.谷歌:扩散模型是实时游戏引擎

在这项工作中,谷歌团队提出了首个完全由神经模型驱动的游戏引擎 GameNGen,其可以在长轨迹上与复杂环境进行高质量的实时交互。GameNGen 可以在单个 TPU 上以每秒 20 帧以上的速度交互模拟经典游戏 DOOM。下一帧预测的 PSNR 为 29.4,与有损 JPEG 压缩相当。在区分游戏短片和模拟短片方面,人类评分员的表现仅略高于随机概率。GameNGen 分两个阶段进行训练:(1) 一个强化学习(RL)agent 学习玩游戏,并记录训练过程;(2) 训练一个扩散模型,以过去的帧和动作序列为条件生成下一帧。条件增强可在长轨迹上实现稳定的自动回归生成。

论文链接:
https://arxiv.org/abs/2408.14837
项目地址:
https://gamengen.github.io/

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • docker实战演练
  • HarmonyOS 鸿蒙获取微信授权和持续获取位置信息
  • Android 系统连接WIFI显示网络连接受限分析处理
  • CI/CD实践(五)Jenkins Docker 自动化构建部署Node服务
  • kafka的12个重要概念
  • Spatial Structure Constraints for Weakly SupervisedSemantic Segmentation
  • Python实现分水岭图像分割算法
  • 数据类型 NVARCHAR2 与 VARCHAR2 的对比
  • 2024年6月 青少年等级考试机器人实操真题二级
  • 20240830 每日AI必读资讯
  • 公网信息泄露监测(网盘、暗网、搜索引擎、文档平台)思路分享
  • 【推推P1】第一期“小说详情模块”:JAVA开发文档官方版;快来在线实习吧
  • 服务器远程管理
  • R 2火灾温度预测
  • 442一场“吃干榨净”的富贵,是怎么拼出来的?
  • C++回声服务器_9-epoll边缘触发模式版本服务器
  • golang 发送GET和POST示例
  • Koa2 之文件上传下载
  • Laravel深入学习6 - 应用体系结构:解耦事件处理器
  • Lsb图片隐写
  • miaov-React 最佳入门
  • React中的“虫洞”——Context
  • 大数据与云计算学习:数据分析(二)
  • 构建二叉树进行数值数组的去重及优化
  • 来,膜拜下android roadmap,强大的执行力
  • 两列自适应布局方案整理
  • 买一台 iPhone X,还是创建一家未来的独角兽?
  • 前端性能优化--懒加载和预加载
  • 如何利用MongoDB打造TOP榜小程序
  • 如何用vue打造一个移动端音乐播放器
  • 优化 Vue 项目编译文件大小
  • ​ 无限可能性的探索:Amazon Lightsail轻量应用服务器引领数字化时代创新发展
  • # 数论-逆元
  • #每天一道面试题# 什么是MySQL的回表查询
  • #职场发展#其他
  • $.ajax()
  • (20)目标检测算法之YOLOv5计算预选框、详解anchor计算
  • (C语言)字符分类函数
  • (Python) SOAP Web Service (HTTP POST)
  • (二)linux使用docker容器运行mysql
  • (黑客游戏)HackTheGame1.21 过关攻略
  • (解决办法)ASP.NET导出Excel,打开时提示“您尝试打开文件'XXX.xls'的格式与文件扩展名指定文件不一致
  • (论文阅读23/100)Hierarchical Convolutional Features for Visual Tracking
  • (三)c52学习之旅-点亮LED灯
  • (转)为C# Windows服务添加安装程序
  • **PHP二维数组遍历时同时赋值
  • .bat批处理(四):路径相关%cd%和%~dp0的区别
  • .NET Core跨平台微服务学习资源
  • .NET/C# 使用 ConditionalWeakTable 附加字段(CLR 版本的附加属性,也可用用来当作弱引用字典 WeakDictionary)
  • .netcore 如何获取系统中所有session_如何把百度推广中获取的线索(基木鱼,电话,百度商桥等)同步到企业微信或者企业CRM等企业营销系统中...
  • .NET面试题(二)
  • .vue文件怎么使用_vue调试工具vue-devtools的安装
  • /dev/VolGroup00/LogVol00:unexpected inconsistency;run fsck manually
  • ?php echo $logosrc[0];?,如何在一行中显示logo和标题?
  • []新浪博客如何插入代码(其他博客应该也可以)