当前位置：首页 > news >正文

强化学习——day35 读论文：基于深度强化学习的网约车动态路径规划

news 来源：原创 2024/4/28 16:44:18

基于深度强化学习的网约车动态路径规划

资源下载地址
chap2
- 2.1 问题叙述
- 2.2 ST-GCSL 框架
- 2.3 Markov 决策过程的构建
- - 2.3.1 具体描述
  - 2.3.2 关键元素
chap3 供需感知的深度强化学习算法
- 3.1 动作空间的确定
- 3.2 AC模型
- 3.3 动作采样策略
- 3.4 AS-AC 算法
chap4 实验与结果
- 4.1 数据集（表2）
- 4.2 度量标准
- 4.3 实验结果（表3）
- 4.4 采用排序优先级的优越性
chap5 主要贡献

资源下载地址

点击下载

chap2


o

2.1 问题叙述

o
网约车队 X、请求 Ω、调度中心、拒绝率 RR
o
o

2.2 ST-GCSL 框架

o
o

o
网约车、乘客在调度中心下的交互
o
o

2.3 Markov 决策过程的构建

o


2.3.1 具体描述


将网约车视为与外部环境交互的智能体，并将每次路线规划看作是一次决策．采用六边形网格划分空间对动作空间进行离散化．



2.3.2 关键元素


１）状态ｓｔ ∈Ｓ
２）动作ａｔ ∈Ａ
３）奖励ｒ
４）回合
５）策略π（ａ｜ｓ）
６）状态—动作价值函数Ｑπ （ｓ，ａ）



chap3 供需感知的深度强化学习算法


o

3.1 动作空间的确定

o

１）地理邻居网格：.为了确保合理的调度距离，选择当前网格的邻居网格.


２）全局热门网格：.在下一个时间片中预测请求数量最多的少数网格

o

3.2 AC模型

o



算法１．ＡＣ算法．

o

3.3 动作采样策略

o

基于排序的优先级

o

3.4 AS-AC 算法

o

输入：当前状态ｓt；
输出：一个调度动作at
① 计算源动作价值Ｑ
② 初始化动作空间Ａ为地理邻居和全局热门网格；
③ 从Ａ移除无效的动作；
④ 初始化大小为｜Ｇ｜的数组Ｆ，并设置Ｆｉ =ｌ， ∀ａｉ∈Ａ；
⑤ 通过状态—动作价值Ｑ x F 对动作ai进行排序，并计算对应优先级
⑥ 根据式（１２）采样一个动作 at
⑦ return at



chap4 实验与结果


o

4.1 数据集（表2）

o
数据集统计信息（纽约&海口）
o
o

4.2 度量标准

o
１）拒绝率 RR
２）巡航时间 CT
３）等待时间 WT
o



拒绝率

o

4.3 实验结果（表3）

o
除了在网约车数量为１０００的海口数据集上，提出的ＡＳ－ＡＣ算法在所有度量标准上均实现了最佳的效果，提升程度最大
o
o

4.4 采用排序优先级的优越性

o


chap5 主要贡献


o
１）提出了一个基于实时供需状态的动态网约车路径规划框架，实现高效的大规模空闲网约车调度，通过包含实时的供需信息来适应动态变化的环境。
o
o
２）设计了一种带有动作采样的ＡＳ－ＡＣ算法来选择可行的动作，增加了动作选择的随机性，从而有效地防止竞争。
o
o
３）使用真实的网约车订单数据进行了大量实验，实验结果表明提出的方法相比对比方法有着更低的请求拒绝率。
o