当前位置: 首页 > news >正文

论文精读:TASKBENCH: BENCHMARKING LARGE LANGUAGE MODELS FOR TASK AUTOMATION

Author: Dongsheng Li, Kaitao Song, Kan Ren, Siyu Yuan, Weiming Lu, Wenqi Zhang, Xu Tan, Yongliang Shen, Yueting Zhuang
Institution: 复旦大学(Fudan University), 微软亚洲研究院(Microsoft Research Asia), 浙江大学(Zhejiang University)
Summary: LLM 带动了任务自动化的发展,它将用户指令描述的复杂任务分解为子任务,并调用外部工具来执行它们,在 Agent 中发挥着核心作用。但是目前还缺少系统化、标准化的基准来催 LLM 任务自动化的发展。任务自动化可以分为三个关键阶段:任务分解、工具调用和参数预测。为了生成高质量的评估数据集,作者引入了工具图的概念来表示用户意图中分解的任务,并采用反向指令方法来模拟用户指令和注释。作者还提出了 TASKEVAL,从不同方面评估 LLM 的能力,包括任务分解、工具调用和参数预测。
Score /5: ⭐️⭐️⭐️⭐️
Type: Paper
链接: https://arxiv.org/abs/2311.18760
代码是否开源: 开源
代码链接: https://github.com/microsoft/JARVIS/tree/main/taskbench
数据集是否开源: 开源
数据集链接: https://github.com/microsoft/JARVIS/tree/main/taskbench


读前先问

带着问题读论文,边读边回答。

  1. 大方向的任务是什么?Task

LLMs 自动化任务执行评估。</

相关文章:

  • 什么是知识中台?为什么企业需要知识中台?
  • js检验一个字符串是否是正确时间格式的工具方法
  • Linux信号机制与docker应用
  • OrangePi AIpro初识及使用大模型GPT-Neo-1.3B测试
  • 常见排序算法之插入排序
  • leetcode——169.多数元素(多解法)
  • 回溯算法05(leetcode491/46/47)
  • 消防体验馆升级,互动媒体点亮安全之路!
  • MySQL--复合查询
  • wordpress woocommer 添加代码实现,点击按钮,将产品添加到购物车并且跳转到结账页面
  • 西储大学数据集学习
  • 2024年华为OD机试真题-火星文计算-C++-OD统一考试(C卷D卷)
  • Linux 删除SSH密钥(id_ed25519),重新生成
  • 生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus
  • WPF之TextBlock文本标签
  • [译] 理解数组在 PHP 内部的实现(给PHP开发者的PHP源码-第四部分)
  • 《微软的软件测试之道》成书始末、出版宣告、补充致谢名单及相关信息
  • C++入门教程(10):for 语句
  • CAP 一致性协议及应用解析
  • ES学习笔记(10)--ES6中的函数和数组补漏
  • iOS帅气加载动画、通知视图、红包助手、引导页、导航栏、朋友圈、小游戏等效果源码...
  • Javascripit类型转换比较那点事儿,双等号(==)
  • OSS Web直传 (文件图片)
  • Protobuf3语言指南
  • Sequelize 中文文档 v4 - Getting started - 入门
  • Spring Cloud(3) - 服务治理: Spring Cloud Eureka
  • VirtualBox 安装过程中出现 Running VMs found 错误的解决过程
  • vue的全局变量和全局拦截请求器
  • Yeoman_Bower_Grunt
  • 闭包--闭包之tab栏切换(四)
  • 嵌入式文件系统
  • 如何在GitHub上创建个人博客
  • 入手阿里云新服务器的部署NODE
  • 手机端车牌号码键盘的vue组件
  • 数组的操作
  • 一文看透浏览器架构
  • 看到一个关于网页设计的文章分享过来!大家看看!
  • 【运维趟坑回忆录】vpc迁移 - 吃螃蟹之路
  • Nginx惊现漏洞 百万网站面临“拖库”风险
  • ​​​【收录 Hello 算法】10.4 哈希优化策略
  • ​TypeScript都不会用,也敢说会前端?
  • ​插件化DPI在商用WIFI中的价值
  • ​批处理文件中的errorlevel用法
  • #考研#计算机文化知识1(局域网及网络互联)
  • (1综述)从零开始的嵌入式图像图像处理(PI+QT+OpenCV)实战演练
  • (android 地图实战开发)3 在地图上显示当前位置和自定义银行位置
  • (ZT) 理解系统底层的概念是多么重要(by趋势科技邹飞)
  • (补充):java各种进制、原码、反码、补码和文本、图像、音频在计算机中的存储方式
  • (二)斐波那契Fabonacci函数
  • (附源码)计算机毕业设计SSM疫情下的学生出入管理系统
  • (三)模仿学习-Action数据的模仿
  • (四)库存超卖案例实战——优化redis分布式锁
  • (转载)Linux网络编程入门
  • ../depcomp: line 571: exec: g++: not found
  • .“空心村”成因分析及解决对策122344