当前位置: 首页 > news >正文

手搓一个Agent#Datawhale 组队学习Task3

书接上回,首先回顾一下Task2的一些补充:

Task2主要任务是从零预训练一个tiny-llama模型,熟悉一下Llama的模型架构和流程。然后测试一下模型的效果。总的来说,因为某些未知的原因,loss一直没有降下去,导致最终效果一般般。

Task2知识点补充和解读

contextlib库

from contextlib import nullcontext

contextlib 是 Python 标准库中的一个模块,它提供了一系列工具来帮助开发者更方便地使用上下文管理协议(context management protocol)。

nullcontext 是 Python 中 contextlib 模块提供的一个上下文管理器,它主要用于不需要执行任何特定的进入或退出操作的情况。

datetime库

from datetime import datetime

datetime 是 Python 的标准库之一,提供了处理日期和时间的强大工具。

datetime 类是 datetime 模块中最常用的类之一,它代表了一个具体的日期和时间。你可以用它来进行日期和时间的运算,获取当前时间,格式化日期等。

datetime 库和 time 库的比较

datetime 库和 time 库都是 Python 中用于处理日期和时间的标准库,但它们各有侧重,适用于不同的应用场景。

datetime 库更适合于需要高级日期时间处理的应用场景,而 time 库则更适合于简单的计时和时间戳操作。

functools库

from functools import partial

functools 是 Python 标准库中的一个模块,它提供了多种工具来帮助开发者更高效地编写函数。partial 函数可以固定一个函数的一部分参数,从而创建一个新的函数。

AdamW优化器

AdamW 是一种广受欢迎的优化算法,它是在经典的 Adam 优化器基础上发展而来,引入了权重衰减(Weight Decay)机制。

Adam(Adaptive Moment Estimation)是一种自适应学习率优化算法,它结合了 AdaGrad 和 RMSProp 的优点。Adam 使用了动量(momentum)和自适应学习率来更新参数,其中动量用于加速收敛速度,自适应学习率用于调整不同参数的学习速率。

AdaGrad 没有使用动量的概念,而是直接根据历史梯度的平方来调整学习率。学习率单调递减:随着训练的进行,学习率会逐渐减小,最终可能变得太小。

动量机制:RMSProp 使用了指数移动平均来估算梯度的平方,从而避免了 AdaGrad 中学习率单调递减的问题。

  • AdaGrad:适合处理稀疏梯度的问题,但由于学习率单调递减,不适合长期训练。
  • RMSProp:通过指数移动平均解决了 AdaGrad 中学习率单调递减的问题,适合处理动态变化的梯度。
  • Adam:结合了 AdaGrad 和 RMSProp 的优点,并通过偏置校正机制提高了初始阶段的收敛速度,是目前最常用的优化算法之一。

在使用 AdamW 优化器的情况下,是否需要使用 Dropout 主要取决于您的具体应用场景和模型设计的需求。

Dropout 和 Weight Decay 的区别:

  1. Dropout

    • 定义:Dropout 是一种正则化技术,通过随机“丢弃”一部分神经元(即设置为 0),从而降低模型的复杂度,防止过拟合。
    • 作用:Dropout 可以使模型的各个部分相互独立地学习特征,从而提高模型的鲁棒性。
    • 适用场景:通常用于深层网络中,特别是在训练非常大的模型时,Dropout 可以帮助模型更好地泛化到未见过的数据。
  2. Weight Decay

    • 定义:Weight Decay 是一种正则化技术,通过对模型的权重施加惩罚(通常为 L2 正则化),减少模型的复杂度。
    • 作用:Weight Decay 通过使权重趋向于较小的值,从而降低模型的整体复杂度。
    • 适用场景:几乎所有的模型都可以从中受益,特别是在数据集较小或者模型容量很大的情况下。

学习率调度器scheduler:

学习率调度器(Learning Rate Scheduler)是深度学习训练中用来动态调整学习率的技术。通过调整学习率,可以提高模型的训练效率和性能。在训练初期使用较高的学习率可以加快收敛速度,在后期精细调整参数,提高训练效率。

余弦退火(Cosine Annealing)学习率调度是一种动态调整学习率的技术,它根据余弦函数的周期性变化来调整学习率。尤其适合需要平滑地调整学习率的场景。

一般建议预热迭代次数为总迭代次数的 5% 到 10% 左右。

退火开始的迭代次数通常在训练的中期到后期,一般建议设置为总迭代次数的 80% 左右。

初始学习率取决于模型的复杂度和数据集的大小。一个常见的初始学习率设置为 0.001。根据模型规模和数据集大小Llama技术报告里面,初始学习率可能在 1e-4 到 5e-5 之间。

最小学习率应该设置得足够小,以防止在训练后期学习率仍然过高而导致的振荡。通常为初始学习率的十分之一。

我又重新跑了一次,根据学习率调度修改了一些参数,等结果更新,希望这次可以取得一个比上次更有的结果。

Task3.Tiny-Agent

论文:《REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS》

我们先来看一下这篇论文主要讲了什么。

摘要:该论文介绍了一种名为ReAct(Reason+Act)的新方法,它探索了如何使大型语言模型(LLMs)以交错方式生成推理轨迹和特定任务动作,以此增强推理与行动间的协同效果。ReAct通过推理来指导和更新行动计划,并通过实际行动与外部资源(如知识库)互动获取信息。这种方法在多种语言理解和决策制定任务中进行了测试,显示出了比现有技术更好的性能,并提高了模型的可解释性和可信度。特别是在HotpotQA和Fever任务中,ReAct减少了推理错误,并产生了更容易理解的结果;而在ALFWorld和WebShop这两个互动决策制定基准测试中,ReAct仅需少量示例就能显著提高成功率,超越了传统的模仿和强化学习方法。

接下来我们开始手搓Agent的代码实现:

Step 1: 构造大模型

这里我们选择了书生谱语的开源InternLM2作为我们的Agent模型。InternLM2是一个基于Decoder-Only的通用对话大模型,可以使用transformers库来加载InternLM2模型。

Step 2: 构造工具

我们在tools.py文件中,构造一些工具,比如Google搜索。在这个文件中,构造一个Tools类。在这个类中,我们需要添加一些工具的描述信息和具体实现方式。

Step 3: 构造Agent

我们在Agent.py文件中,构造一个Agent类,这个Agent是一个React范式的Agent,我们在这个Agent类中,实现了text_completion方法,这个方法是一个对话方法,我们在这个方法中,调用InternLM2模型,然后根据ReactAgent的逻辑,来调用Tools中的工具。

Step 4: 运行Agent

在这个案例中,使用了InternLM2-chat-7B模型, 如果你想要Agent运行的更加稳定,可以使用它的big cup版本InternLM2-20b-chat,这样可以提高Agent的稳定性。

相关文章:

  • 当Navicat报错 Can not connect to MySQL server的解决方法!
  • 代码随想录算法训练营Day13
  • 标准 I/O
  • pg入门11-pg中的publications是什么
  • 【移植】Combo解决方案之W800芯片移植案例
  • 『功能项目』鼠标悬停物品显示信息【77】
  • .Net 6.0 Windows平台如何判断当前电脑是否联网
  • 重头开始嵌入式第四十四天(硬件 ARM裸机开发)
  • 外国电影演员识别系统源码分享
  • 当大语言模型应用到教育领域时会有什么火花出现?
  • SD(Stable Diffusion)模型的基本工作数据流
  • 批量发送邮件:性能优化与错误处理深度解析
  • 基于微信小程序爱心领养小程序设计与实现(源码+定制+开发)
  • 算法刷题笔记 约数个数(详细注释的C++实现)
  • 【Java】单元测试【主线学习笔记】
  • 5、React组件事件详解
  • Android系统模拟器绘制实现概述
  • es6(二):字符串的扩展
  • Java多线程(4):使用线程池执行定时任务
  • PHP的Ev教程三(Periodic watcher)
  • php的插入排序,通过双层for循环
  • UMLCHINA 首席专家潘加宇鼎力推荐
  • 从零开始在ubuntu上搭建node开发环境
  • 机器学习 vs. 深度学习
  • 记一次和乔布斯合作最难忘的经历
  • 微信开源mars源码分析1—上层samples分析
  • 摩拜创始人胡玮炜也彻底离开了,共享单车行业还有未来吗? ...
  • ​批处理文件中的errorlevel用法
  • # 数据结构
  • #pragma预处理命令
  • #我与Java虚拟机的故事#连载03:面试过的百度,滴滴,快手都问了这些问题
  • $L^p$ 调和函数恒为零
  • (19)夹钳(用于送货)
  • (webRTC、RecordRTC):navigator.mediaDevices undefined
  • (第三期)书生大模型实战营——InternVL(冷笑话大师)部署微调实践
  • (附源码)ssm高校运动会管理系统 毕业设计 020419
  • (黑马C++)L06 重载与继承
  • (接口封装)
  • (面试必看!)锁策略
  • (南京观海微电子)——I3C协议介绍
  • (全注解开发)学习Spring-MVC的第三天
  • (五) 一起学 Unix 环境高级编程 (APUE) 之 进程环境
  • (转)从零实现3D图像引擎:(8)参数化直线与3D平面函数库
  • .MSSQLSERVER 导入导出 命令集--堪称经典,值得借鉴!
  • .Net CoreRabbitMQ消息存储可靠机制
  • .net oracle 连接超时_Mysql连接数据库异常汇总【必收藏】
  • .Net 垃圾回收机制原理(二)
  • .NET 通过系统影子账户实现权限维持
  • .Net 应用中使用dot trace进行性能诊断
  • .NET/C# 编译期能确定的字符串会在字符串暂存池中不会被 GC 垃圾回收掉
  • .netcore 获取appsettings
  • .NET设计模式(11):组合模式(Composite Pattern)
  • .sdf和.msp文件读取
  • 。Net下Windows服务程序开发疑惑
  • /run/containerd/containerd.sock connect: connection refused