当前位置: 首页 > news >正文

【大模型】Reflextion解读

前言:一种大模型强化学习技术,将传统的梯度更新时的参数信号替换成上下文的语言总结,过程和人类反思相似。区别与RLHF,Reflextion是agent自我反思,RLHF是人类反馈。

目录

  • 1. 基础知识
    • 1.1 强化学习
    • 1.2 大模型Agent
  • 2. 创新点
  • 3. 模型框架
  • 参考文献

1. 基础知识

1.1 强化学习

四要素:策略(policy),奖励(reward),价值(value)以及环境或者说是模型(model)

  • 策略:定义了智能体对于给定状态所做出的行为,换句话说,就是一个从状态到行为的映射。
  • 奖励:定义了强化学习问题的目标,能表征在某一步智能体的表现如何
  • 价值:与奖励的即时性不同,价值函数是对长期收益的衡量
  • 环境:用于预测接下来的状态和对应的奖励。
    在这里插入图片描述

1.2 大模型Agent

Agent是一种框架,Agent 通常利用 prompt 来与用户交互,接收输入,处理信息,然后提供响应。在复杂应用中,Agent 可能具备记忆、长期对话、任务分配、资源调用等多种能力,并且会根据用户的 prompt 和上下文自动调整行为。

2. 创新点

  • 利用自然语言作为反馈信号,将二进制或标量环境反馈转化为文本形式的自反反馈,从而为智能体提供了更加清晰和可解释的方向;
  • 使用长短期记忆(LSTM)网络存储自反反馈经验,以便于智能体在未来的学习过程中参考;

3. 模型框架

在这里插入图片描述

在这里插入图片描述
a. 三个模型

  • Actor模型:使用大型语言模型(LLM)来生成文本和动作,并在环境中接收观察结果。
  • Evaluator模型:负责评估Actor产生的轨迹的质量,并计算一个奖励分数以反映其性能。
  • Self-Reflection模型:对反馈内容进行反思,为后续流程提供有价值的反馈信息。

b. 两个记忆

  • 长期记忆:长期记忆则存储来自Self-Reflextion模型的经验反馈
  • 短期记忆:短期记忆用于存储最近的任务历史记录

参考文献

[1]Reflexion: Language Agents with Verbal Reinforcement Learning
[2]https://github.com/noahshinn/reflexion

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • P01-何谓Java方法
  • Nginx: 使用KeepAlived配置实现虚IP在多服务器节点漂移及Nginx高可用原理
  • macos 10.15 Catalina 可用docker最新版本 Docker Desktop 4.15.0 (93002) 下载地址与安装方法
  • 视觉辅助应用场景
  • JAVA:文字写入图片、图片插入图片
  • 在Java中,获取输入内容可以通过多种方式实现,以下是三种常用的方式:Scanner、BufferedReader 和 Console 的具体代码示例
  • 51单片机.之 UART串口
  • JVM下篇:性能监控与调优篇-04-JVM运行时参数
  • MySQL场景测试题
  • 【wsl2】从C盘迁移到G盘
  • MySQL高阶练习题1- 寻找面试候选人
  • 网络编程(学习)2024.8.27
  • 书生大模型实战营闯关记录----第十一关:LMDeploy 量化部署进阶实践 KV cache量化部署,W4A16 模型量化和部署
  • 数字化转型中的数据应用:挑战、机遇与追赶之路
  • sql高并发如何解决
  • JS中 map, filter, some, every, forEach, for in, for of 用法总结
  • 30天自制操作系统-2
  • Angular 响应式表单 基础例子
  • - C#编程大幅提高OUTLOOK的邮件搜索能力!
  • JavaScript类型识别
  • Java深入 - 深入理解Java集合
  • laravel with 查询列表限制条数
  • Leetcode 27 Remove Element
  • react 代码优化(一) ——事件处理
  • SOFAMosn配置模型
  • 从tcpdump抓包看TCP/IP协议
  • 基于遗传算法的优化问题求解
  • 简析gRPC client 连接管理
  • 力扣(LeetCode)21
  • 我与Jetbrains的这些年
  • 在Docker Swarm上部署Apache Storm:第1部分
  • 自制字幕遮挡器
  • ionic异常记录
  • 阿里云服务器购买完整流程
  • 东超科技获得千万级Pre-A轮融资,投资方为中科创星 ...
  • 教程:使用iPhone相机和openCV来完成3D重建(第一部分) ...
  • #LLM入门|Prompt#2.3_对查询任务进行分类|意图分析_Classification
  • #常见电池型号介绍 常见电池尺寸是多少【详解】
  • (23)Linux的软硬连接
  • (ZT)一个美国文科博士的YardLife
  • (不用互三)AI绘画:科技赋能艺术的崭新时代
  • (附源码)ssm高校升本考试管理系统 毕业设计 201631
  • (附源码)计算机毕业设计SSM基于健身房管理系统
  • (七)Flink Watermark
  • (十八)三元表达式和列表解析
  • (学习总结16)C++模版2
  • (转)iOS字体
  • (转)机器学习的数学基础(1)--Dirichlet分布
  • .bat批处理(二):%0 %1——给批处理脚本传递参数
  • .java 指数平滑_转载:二次指数平滑法求预测值的Java代码
  • .mp4格式的视频为何不能通过video标签在chrome浏览器中播放?
  • .NET/C# 使窗口永不激活(No Activate 永不获得焦点)
  • .NET/C# 中你可以在代码中写多个 Main 函数,然后按需要随时切换
  • /bin/rm: 参数列表过长"的解决办法
  • @RequestMapping 的作用是什么?