当前位置: 首页 > news >正文

ToolLLM model 以及LangChain AutoGPT Xagent在调用外部工具Tools的表现对比浅析

文章主要谈及主流ToolLLM 以及高口碑Agent 在调用Tools上的一些对比,框架先上,内容会不断丰富与更新。

第一部分,ToolLLM model

先来说主打Function Call 的大模型们

OpenAI GPT

宇宙第一LLM,它的functionCall都知道,不展开说

NexusRaven

开源,可商用,function call的效果对比图,看起来好的让人不敢相信,当然,不敢相信的还有他的github星标涨得很慢,不知道数据是不是有水的成分

在这里插入图片描述

Gorilla

开源,可商用,github有8.7k星标,function call的效果接近于GPT3.5的能力,有微软和伯克利大学背书,可信度较高

在这里插入图片描述

ToolBench

这个项目(ToolLLM)旨在构建开源、大规模、高质量的指令调整
SFT 数据,以促进构建具有通用工具使用能力的强大LLMs。其目标是赋予开源 LLMs 掌握成千上万多样的真实世界API能力。

该开源项目,由OpenBMB (Open Lab for Big Model Base)机构—由面壁智能公司和清华NLP联合成立。 这家机构也是XAgent项目的发起者。
通过收集高质量的指令调整数据集来实现这一目标。其数据集使用最新的ChatGPT(gpt-3.5-turbo-16k)自动构建,升级了增强的函数调用功能。

项目本身提供数据集、相应的训练和评估脚本,以及在ToolBench上经过微调的强大模型ToolLLaMA。项目还用了一个可视化的Atlas Explorer来对自己所使用的数据指令进行了展示。
在这里插入图片描述
作者根据API,使用ChatGPT生成可能用到的指令,利用 {INST,API} 的格式训练API retriever。最后得到的prompt包含了任务的描述、API的文档、3个API的使用例。

ToolLLaMA展现了处理单一工具和复杂多工具指令的引人注目的能力,与ChatGPT的能力相当。
在这里插入图片描述

ToolLLaMA是针对原有的组织内部的 API 进行整理,思考哪些 API 是要精简、放到语料中进行 FT,经过几轮调试后最终得到的关于业务 API 的 Prompt 是真正可以称得上业务精华的。把这些东西放到 GPU 里面训,出一个可以跑 function call 的模型,这么做有两个好处,一个是由于 API 信息入了LLM,意味着平时调用的 Prompt 可以少写点字,提高了执行效率;第二得到一个「真懂业务」的 model,还是那句话,懂 API 的 model 才是好的垂类专家 model。

使用建议
对于tools的调用,功能刚刚齐备,文档介绍较少,参考案例和demo全无,且XAGent的环境搭建过程的问题会比较多,社区还不健全,填坑不易

第二部分,Agent调用外部Tools

来看一看具备Tools调用能力的,那些有影响力的Agents们

LangChain Agent

LangChain是伴随LLM而崛起的RAG工具,其Agent组件已开始展露头角
简单来说,用户向 LangChain 输入的内容未知。此时可以有一套工具集合(也可以自定义工具),将这套自定义工具托管给LLM,让其自己决定使用工具中的某一个(如果存在的话)

使用建议
对于tools的调用,参考案例都较为简单,需要自己扩展才能完成Tools的注册及调用,对于tools组合玩法缺少支持,智能程度有待提升。

AutoGPT

开源软件,地址在这里
在github上已达恐怖的155K的星标, Agents出名的原因也是由’AutoGPT’而起。

API Tools
可以通过插件的形式【API Tools】来调取外部的Tools,接受的外部工具调用的关键功能包括:

  • 支持GET、POST、PUT、DELETE、PATCH、HEAD和OPTIONS
  • 能尝试从用作参数的奇异值中进行恢复
  • 接受自定义header值

使用疑虑
对于tools的调用,文档过于简短,参考案例和demo全无,需要自己琢磨

Xagent

为调用外部工具进行了专门的优化,感觉有点像微软的Gorilla(一种大模型,ToolLLM)和AutoGPT的合体

该开源项目,由OpenBMB (Open Lab for Big Model Base)机构—由面壁智能公司和清华NLP联合成立。 这家机构也是上方ToolBench项目的发起者。

XAgent的框架,使用了Fastapi,它是一个基于 python 的框架,该框架鼓励使用 Pydantic 和 OpenAPI (以前称为 Swagger) 进行文档编制,使用 Docker 进行快速开发和部署以及基于 Starlette 框架进行的简单测试。

ToolServer
ToolServer 的关键组件包括:ToolServerNode、ToolServerMonitor、ToolServerManager,在执行操作、节点检查、周期管理等方面提供强大的能力。

目前,XAgent 的 ToolSever 支持 FileSystemEnv、PythonNotoBook、WebEnv、ExecuteShell、RapidAPIEnv、AskHumanforHelp 等多种工具。

使用建议
该项目和上面的ToolBench项目都系出一家机构,可以想象,将来二者会有双向奔赴的可能,作为国内顶尖学府支持的项目,还是很有想象空间的。

补充说明

无论是训练ToolLLM,还是创作Agent调用Tool,都是想解决垂类行业落地的问题

ToolLLM和Agent调用LLM和TOOL这两张方案,前者是让大模型奔向API,后者是通过prompt让API奔向大模型,鱼和熊掌,当前看两条技术路线,似乎难以同时兼得,实施过程中也是各有利弊,技术还在不停演进中,抬头思考中前行~~

相关文章:

  • 深度学习记录--矩阵维数
  • 塑料检查井配套开发了注塑成型的井盖、井筒、井座
  • 详细教程 - 从零开发 Vue 鸿蒙harmonyOS应用 第一节
  • 基础算法(1):排序(1):选择排序
  • 云原生之深入解析如何在Kubernetes中快速启用Cgroup V2支持
  • 【教学类-06-16】20231213 (按比例抽题+乱序or先加再减后乘)X-Y之间“加法减法乘法+-×混合题”
  • Yaml语法解析
  • CTF网络安全大赛是干什么的?发展史、赛制、赛程介绍,参赛需要学什么?
  • 10.RIP路由信息协议
  • Java 基础学习(十一)File类与I/O操作
  • 如何退回chrome旧版ui界面?关闭Chrome浏览器新 UI 界面
  • nginx_rtmp_module 之 ngx_rtmp_live_module模块
  • Vue3源码梳理:响应式系统的前世今生
  • YOLO v8 目标检测识别翻栏
  • IDEA之设置项目包的结构层级为eclipse默认样式
  • [LeetCode] Wiggle Sort
  • 《Javascript数据结构和算法》笔记-「字典和散列表」
  • 【comparator, comparable】小总结
  • 〔开发系列〕一次关于小程序开发的深度总结
  • Angular js 常用指令ng-if、ng-class、ng-option、ng-value、ng-click是如何使用的?
  • export和import的用法总结
  • JS进阶 - JS 、JS-Web-API与DOM、BOM
  • npx命令介绍
  • python 学习笔记 - Queue Pipes,进程间通讯
  • yii2中session跨域名的问题
  • 程序员最讨厌的9句话,你可有补充?
  • 机器学习中为什么要做归一化normalization
  • 简析gRPC client 连接管理
  • 快速体验 Sentinel 集群限流功能,只需简单几步
  • 两列自适应布局方案整理
  • 如何选择开源的机器学习框架?
  • 译自由幺半群
  • mysql面试题分组并合并列
  • Python 之网络式编程
  • 大数据全解:定义、价值及挑战
  • 曜石科技宣布获得千万级天使轮投资,全方面布局电竞产业链 ...
  • ​力扣解法汇总1802. 有界数组中指定下标处的最大值
  • ###STL(标准模板库)
  • #etcd#安装时出错
  • #图像处理
  • $.proxy和$.extend
  • (1)STL算法之遍历容器
  • (173)FPGA约束:单周期时序分析或默认时序分析
  • (2)(2.4) TerraRanger Tower/Tower EVO(360度)
  • (附源码)springboot 智能停车场系统 毕业设计065415
  • (附源码)SSM环卫人员管理平台 计算机毕设36412
  • (附源码)ssm智慧社区管理系统 毕业设计 101635
  • (力扣题库)跳跃游戏II(c++)
  • (三)c52学习之旅-点亮LED灯
  • (原創) X61用戶,小心你的上蓋!! (NB) (ThinkPad) (X61)
  • (原創) 如何動態建立二維陣列(多維陣列)? (.NET) (C#)
  • .bashrc在哪里,alias妙用
  • .h头文件 .lib动态链接库文件 .dll 动态链接库
  • .mysql secret在哪_MYSQL基本操作(上)
  • .NET正则基础之——正则委托