强化学习——day35 读论文:基于深度强化学习的网约车动态路径规划
基于深度强化学习的网约车动态路径规划
- 资源下载地址
- chap2
- 2.1 问题叙述
- 2.2 ST-GCSL 框架
- 2.3 Markov 决策过程的构建
- 2.3.1 具体描述
- 2.3.2 关键元素
- chap3 供需感知的深度强化学习算法
- 3.1 动作空间的确定
- 3.2 AC模型
- 3.3 动作采样策略
- 3.4 AS-AC 算法
- chap4 实验与结果
- 4.1 数据集(表2)
- 4.2 度量标准
- 4.3 实验结果(表3)
- 4.4 采用排序优先级的优越性
- chap5 主要贡献
资源下载地址
点击下载
chap2
o
2.1 问题叙述
o
网约车队 X、请求 Ω、调度中心、拒绝率 RR
o
o
2.2 ST-GCSL 框架
o
o
o
网约车、乘客在调度中心下的交互
o
o
2.3 Markov 决策过程的构建
o
2.3.1 具体描述
将网约车视为与外部环境交互的智能体,并将每次路线规划看作是一次决策. 采用六边形网格划分空间对动作空间进行离散化.
2.3.2 关键元素
1)状态st ∈S
2)动作at ∈A
3)奖励r
4)回合
5)策略π(a|s)
6)状态—动作价值函数Qπ (s,a)
chap3 供需感知的深度强化学习算法
o
3.1 动作空间的确定
o
1)地理邻居网格:.为了确保合理的调度距离, 选择当前网格的邻居网格.
2)全局热门网格:.在下一个时间片中预测请求 数量最多的少数网格
o
3.2 AC模型
o
算法1.AC算法.
o
3.3 动作采样策略
o
基于排序的优先级
o
3.4 AS-AC 算法
o
输入:当前状态st;
输出:一个调度动作at
① 计算源动作价值Q
② 初始化动作空间A为地理邻居和全局热门 网格;
③ 从A移除无效的动作;
④ 初始化大小为|G|的数组F,并设置Fi =l , ∀ai∈A;
⑤ 通过状态—动作价值Q x F 对动作ai进行排序,并计算对应优先级
⑥ 根据式(12)采样一个动作 at
⑦ return at
chap4 实验与结果
o
4.1 数据集(表2)
o
数据集统计信息(纽约&海口)
o
o
4.2 度量标准
o
1)拒绝率 RR
2)巡航时间 CT
3)等待时间 WT
o
拒绝率
o
4.3 实验结果(表3)
o
除了在网约车数量为1 000的海口数据集 上,提出的 AS-AC算法在所有度量标准上均实现了最佳的效果,提升程度最大
o
o
4.4 采用排序优先级的优越性
o
chap5 主要贡献
o
1)提出了一个基于实时供需状态的动态网约 车路径规划框架,实现高效的大规模空闲网约车 调度,通过包含实时的供需信息来适应动态变化的 环境。
o
o
2)设计了一种带有动作采样的AS-AC算法来 选择可行的动作,增加了动作选择的随机性,从而有 效地防止竞争。
o
o
3)使用真实的网约车订单数据进行了大量实 验,实验结果表明提出的方法相比对比方法有着更 低的请求拒绝率。
o