当前位置：首页 > news >正文

RPP：多智能体强化学习 + 长期个性化推荐

news 来源：原创 2024/9/20 9:25:36

RPP：多智能体强化学习 + 长期个性化推荐

提出背景
目的
问题
解法
RPP 工作流程和组成部分
实验结果

论文：https://arxiv.org/pdf/2407.17115

代码：https://github.com/maowenyu-11/RPP

提出背景

问题：

大模型在推荐系统中虽然具有强大的语义理解、意图推理和知识利用能力，但现有研究大多采用统一的提示模板，忽视了用户个体差异，这可能导致推荐系统无法准确捕捉到每个用户的个性化偏好。

解决方法：

为了解决上述问题，提出了实例导向的提示策略（Instance-wise Prompting），即通过为每位用户定制个性化的提示来提升推荐的相关性和准确性。
使用强化提示个性化（Reinforced Prompt Personalization, RPP）技术，这是一种基于多代理强化学习（MARL）的方法，用于优化个性化提示。
RPP通过选择最优的句子而不是逐字优化，来提升效率并保证提示的质量。
RPP+在RPP的基础上增加了动态优化动作的机制，以进一步提升个性化提示的灵活性和推荐系统的性能。

对比：

与传统的推荐系统相比，传统系统可能依赖于固定算法和统一的用户画像，而RPP/RPP+通过个性化提示，能够更细致地捕捉用户的即时偏好和长期兴趣。
与任务导向的提示设计相比，任务导向的提示是为所有用户应用相同的模板，而实例导向的提示则是为每个用户定制不同的提示，以更好地适应其独特性。

类比：

可以类比为个性化教育，其中教师根据每个学生的特点和需求定制教学计划，而不是对所有学生使用相同的教学方法。
另一个类比是个性化医疗，医生根据病人的具体情况开具个性化的药物和治疗方案，而不是所有病人都采用标准治疗流程。

RPP/RPP+的核心优势在于其能够为每个用户提供定制化的服务，而不是采用一种通用的方法。

这种方法在推荐系统中尤为重要，因为它能够显著提高推荐的个性化程度和用户满意度。

论文大纲：

├── 1 文献标题【描述研究主题】
│   └── 加强化提示个性化用于大型语言模型的推荐【研究主题】
├── 2 作者信息【列出作者和机构】
│   ├── 文玉毛，中国科学技术大学【作者和机构】
│   └── 何向楠，中国科学技术大学，脑启发智能感知与认知教育部重点实验室【作者和机构】
├── 3 摘要【概述研究内容和贡献】
│   ├── 设计有效提示以增强LLMs的理解用户偏好和提供推荐的能力【研究内容】
│   └── 提出并评估了RPP/RPP+方法【研究贡献】
├── 4 引言【描述背景和问题】
│   ├── 大型语言模型（LLMs）在推荐系统中的潜力【背景介绍】
│   └── 现有研究集中于任务式提示，忽视了用户个体差异【问题描述】
├── 5 方法论【介绍研究方法】
│   ├── 任务式提示与实例式提示的对比【方法对比】
│   └── RPP/RPP+框架的提出【方法介绍】
│       ├── 输入【用户特征和候选项目】
│       │   ├── 用户表示【嵌入向量】
│       │   └── 候选项目列表【用于推荐的物品】
│       ├── 处理过程【MARL优化】
│       │   ├── 多智能体强化学习（MARL）【技术手段】
│       │   │   ├── 各智能体独立策略网络【个性化提示模式】
│       │   │   └── 中央训练与分散执行（CTDE）范式【训练与执行模式】
│       │   ├── 行动空间设计【方法细节】
│       │   │   ├── 角色扮演、历史记录、推理指导、输出格式【四种模式】
│       │   │   └── 句子级优化【提升搜索效率】
│       │   └── 状态空间与奖励函数定义【方法细节】
│       │       ├── 状态更新【当前提示和LLMs的排名输出】
│       │       ├── 奖励函数【基于LLMs回答的NDCG】
│       │       └── 策略网络优化【Actor-Critic架构】
│       └── 输出【优化后的个性化提示】
│           ├── 个性化提示生成【MARL策略网络输出】
│           └── LLMs与提示交互【产生推荐结果】
│               ├── LLMs【作为环境】
│               └── 提示-响应循环【迭代优化过程】
├── 6 实验【展示研究结果】
│   ├── 使用不同数据集评估RPP/RPP+的有效性【实验设置】
│   └── RPP/RPP+与传统推荐模型和少量样本方法的比较【实验结果】
├── 7 相关工作【文献综述】
│   ├── LLMs在推荐系统中的应用【相关领域】
│   └── 提示优化方法的探讨【相关技术】
└── 8 结论【总结全文】├── 强调RPP/RPP+方法在推荐任务中的优势【研究总结】└── 讨论RPP/RPP+的潜在应用和局限性【未来展望】

├── 3 Methodology【方法论】
│   ├── 提升LLMs推荐能力【目标】
│   │   └── 通过RPP/RPP+个性化实例化提示【方法】
│   ├── 将提示个性化视为马尔可夫决策过程【问题表述】
│   │   ├── MDP组成元素：状态集S、行动集A、转移函数T、奖励函数R、折扣因子γ【概念解释】
│   │   ├── 状态s包含当前提示和推荐结果信息【状态定义】
│   │   ├── 行动a对应特定模式的句子选择【行动定义】
│   │   ├── 转移函数t表示状态转移可能性【转移函数定义】
│   │   ├── 奖励函数r根据LLMs回答评估推荐性能【奖励函数定义】
│   │   └── 折扣因子γ控制对未来奖励的重视程度【折扣因子定义】
│   ├── 初始化提示p0并采用MARL优化个性化模式【初始化与优化】
│   │   ├── CTDE范式下的多智能体RL【优化范式】
│   │   ├── 每个智能体zk负责个性化特定模式【智能体职责】
│   │   └── 策略πk选择行动以生成个性化提示pt【策略生成】
│   ├── 设计有效的行动空间以平衡搜索效率和提示质量【行动空间设计】
│   │   ├── 行动空间由多个子空间组成，每个代表一种模式【子空间定义】
│   │   ├── 句子级优化提高效率【优化方法】
│   │   └── 行动集由人类和LLMs共同建立，确保任务相关性和分析多样性【行动集建立】
│   ├── 状态空间提供关键信息以指导智能体行动【状态空间定义】
│   │   ├── 初始化状态s0包含用户特定信息【初始化状态】
│   │   └── 更新状态st包含当前提示和LLMs排名输出【状态更新】
│   ├── 基于Actor-Critic的多智能体架构和奖励函数【架构与奖励】
│   │   ├── 每个智能体具有独立的参数和全局状态访问权限【智能体架构】
│   │   ├── 使用NDCG作为奖励，评估推荐性能【奖励评估】
│   │   └── 优化Actors和Critics的参数【参数优化】
│   └── 算法描述：输入初始化智能体和评价网络，输出优化后的智能体网络【算法流程】

目的

提升大型语言模型（LLMs）的推荐能力。

问题

如何自动且有效地个性化推荐系统中的提示（prompts）。

解法

采用多智能体强化学习（MARL）框架RPP/RPP+进行个性化实例化提示。

子解法拆解：

行动空间设计（因为需要平衡搜索效率和提示质量）
- 之所以使用行动空间设计，是因为需要从自然语言空间中选择动作，形成有效的提示。
- 例子：在角色扮演模式中选择“你是电影专家”作为行动之一。
状态空间定义（因为需要提供关键信息以指导智能体行动）
- 之所以使用状态空间定义，是因为必须包含当前环境的充分信息，如用户特定信息和当前提示。
- 例子：初始化状态s0包含用户嵌入信息，以区分不同用户。
奖励函数定义（因为需要评估和指导推荐性能）
- 之所以使用奖励函数定义，是因为要根据LLMs的回答来评估推荐性能。
- 例子：使用归一化折扣累积增益（NDCG）作为奖励函数，评估推荐列表的质量。
策略网络架构（因为需要个性化每个模式）
- 之所以使用策略网络架构，是因为每个智能体需要独立学习如何优化其负责的提示模式。
- 例子：基于Actor-Critic架构，每个智能体优化其行动以提高推荐质量。
MARL优化个性化（因为需要生成个性化的提示）
- 之所以使用MARL优化个性化，是因为要针对每个用户的个性化信息生成定制化的提示。
- 例子：智能体根据用户的历史互动记录个性化历史记录模式。

逻辑链：

目的：提升推荐能力
- 问题：自动个性化提示
  - 解法：MARL框架RPP/RPP+
    - 子解法1：行动空间设计
      - 逻辑链：个性化提示需要从自然语言中选择动作
    - 子解法2：状态空间定义
      - 逻辑链：智能体需要当前环境信息来指导行动
    - 子解法3：奖励函数定义
      - 逻辑链：推荐性能需要通过奖励函数来评估和指导
    - 子解法4：策略网络架构
      - 逻辑链：每个智能体需要独立学习优化个性化提示
    - 子解法5：MARL优化个性化
      - 逻辑链：个性化提示生成需要根据用户个性化信息

以决策树形式表示：

├── 提升推荐能力【目的】
│   └── 自动个性化提示【问题】
│       └── MARL框架RPP/RPP+【解法】
│           ├── 行动空间设计【子解法1】
│           │    └── 个性化提示需要从自然语言中选择动作【逻辑链】
│           ├── 状态空间定义【子解法2】
│           │    └── 智能体需要当前环境信息来指导行动【逻辑链】
│           ├── 奖励函数定义【子解法3】
│           │    └── 推荐性能需要通过奖励函数来评估和指导【逻辑链】
│           ├── 策略网络架构【子解法4】
│           │    └── 每个智能体需要独立学习优化个性化提示【逻辑链】
│           └── MARL优化个性化【子解法5】
│                └── 个性化提示生成需要根据用户个性化信息【逻辑链】

RPP 工作流程和组成部分

在这里插入图片描述
该框架通过多智能体强化学习（MARL）为每个用户个性化定制提示（prompts），以提高大模型在推荐任务中的表现。

角色扮演（Role-playing）：在这个模式下，LLMs被赋予一个特定的角色，例如“电影专家”，这样可以帮助模型利用其在电影领域的知识来提供推荐。
历史记录（History records）：这个模式涉及使用用户过去观看电影的历史记录作为上下文信息，以便更好地理解用户的偏好。
推理引导（Reasoning guidance）：这个模式指导LLMs通过必要的推理步骤来做出推荐，例如通过思考过程（chain-of-thought）或计算候选电影与用户偏好的相似度。
输出格式（Output format）：这个模式定义了LLMs输出的期望格式，例如仅输出电影的排名结果和顺序编号，而不包括其他解释性文本。
初始提示（Initial Prompt）：这是在优化过程开始时使用的提示，通常包含从每个模式中随机选择的句子。
优化后的提示（Optimized Prompt）：这是经过MARL优化后的提示，它根据用户的个性化信息生成，以最大化LLMs的推荐性能。
状态（State）：在MARL中，状态包含了当前环境的关键信息，例如用户的历史记录和当前的提示。
行动空间（Action Space, A）：这是智能体在每个时间步可以选择的动作集合，每个动作对应于提示中的一个特定句子。
奖励（Reward, r）：这是智能体在与LLM环境交互后获得的反馈，通常是基于推荐性能的度量，如归一化折扣累积增益（NDCG）。
“Refine” 模块：在RPP+中，这个模块允许LLMs在迭代过程中动态优化所选择的动作，以提高提示的灵活性和质量。