当前位置: 首页 > news >正文

论文阅读【时空+大模型】ST-LLM(MDM2024)

论文阅读【时空+大模型】ST-LLM(MDM2024)

论文链接:Spatial-Temporal Large Language Model for Traffic Prediction
代码仓库:https://github.com/ChenxiLiu-HNU/ST-LLM
发表于MDM2024(Mobile Data Management)

本文主要面向交通流量数据。
在这里插入图片描述

符号定义

符号含义
N交通站点数
C特征数量
P历史序列长度
S预测序列长度

Spatial-Temporal Embedding and Fusion

注: X P ∈ R P ∗ N ∗ C X_P \isin R^{P*N*C} XPRPNC,但在本文实验中C=1(原文“C = 1 represents the traffic pick-up or drop-off flow”),因而有 X P ∈ R P ∗ N X_P \isin R^{P*N} XPRPN

一般而言,spatial-temporal embedding分为:

  • Token Embedding: E P = P o i n t w i s e C o n v ( X P ) ∈ R N ∗ D E_P = PointwiseConv(X_P) \isin R^{N * D} EP=PointwiseConv(XP)RND
  • Temporal Embedding: E T = E T d + E T w = W d a y ( X d a y ) + W w e e k ( X w e e k ) ∈ R N ∗ D E_T = E_T^d+E_T^w = W_{day}(X_{day}) + W_{week}(X_{week})\isin R^{N *D} ET=ETd+ETw=Wday(Xday)+Wweek(Xweek)RND
  • Spatial Embedding: E S = σ ( W S ∗ X P + b S ) ∈ R N ∗ D E_S = \sigma (W_S * X_P + b_S) \isin R^{N * D} ES=σ(WSXP+bS)RND

然后将三种embedding合并:

H F = F u s i o n C o n v ( E P ∣ ∣ E S ∣ ∣ E T ) ∈ R N ∗ 3 D H_F = FusionConv(E_P||E_S||E_T) \isin R^{N*3D} HF=FusionConv(EP∣∣ES∣∣ET)RN3D
其中’||'是拼接符号。

Partially Frozen Attention (PFA) LLM

这部分使用GPT2捕获时空依赖。Transformer Block中训练时空开销最大的是注意力(Attention)模块。本文使用了F+U个Transformer层:

  • 在前F层中,Attention参数冷冻,只训练Layer Norm
  • 在后U层中,Attention参数也用于训练
    经过F+U个Transformer层后,得到的 H F + U H^{F+U} HF+U后,使用一个Regression Conv获得最终结果:
    Y S = R e g r e s s i o n C o n v ( H F + U ) ∈ R S ∗ N . Y_S = RegressionConv(H^{F+U}) \isin R^{S*N}. YS=RegressionConv(HF+U)RSN.

实验

交通预测

在这里插入图片描述

从这个实验结果来看,看起来很多后来的方法都比不上DCRNN???

效率

在这里插入图片描述

小样本/零样本(大模型必备)

在这里插入图片描述

相关文章:

  • 实验一:图像信号的数字化
  • 数据结构——考研笔记(三)线性表之单链表
  • MATLAB——字符串处理
  • [ruby on rails]部署时候产生ActiveRecord::PreparedStatementCacheExpired错误的原因及解决方法
  • JS【实战】CSS 样式相关的处理
  • vue3入门特性
  • Excel 学习手册 - 精进版(包括各类复杂函数及其嵌套使用)
  • ES6 对象的新增方法(十四)
  • Milvus 核心设计(5)--- scalar indexwork mechanism
  • 华为HCIP Datacom H12-821 卷40
  • FPGA上板项目(二)——PLL测试
  • c++单例模式
  • 「Conda」在Linux系统中安装Conda环境管理器
  • python安全脚本开发简单思路
  • SpringBoot+Vue实现简单的文件上传(txt篇)
  • Google 是如何开发 Web 框架的
  • 【跃迁之路】【477天】刻意练习系列236(2018.05.28)
  • C# 免费离线人脸识别 2.0 Demo
  • Go 语言编译器的 //go: 详解
  • jdbc就是这么简单
  • MobX
  • node-sass 安装卡在 node scripts/install.js 解决办法
  • PHP的类修饰符与访问修饰符
  • Python_OOP
  • React+TypeScript入门
  • React-redux的原理以及使用
  • tensorflow学习笔记3——MNIST应用篇
  • 如何使用Mybatis第三方插件--PageHelper实现分页操作
  • 如何正确配置 Ubuntu 14.04 服务器?
  • 数据库写操作弃用“SELECT ... FOR UPDATE”解决方案
  • 怎么把视频里的音乐提取出来
  • ​ssh免密码登录设置及问题总结
  • #LLM入门|Prompt#1.7_文本拓展_Expanding
  • #Z0458. 树的中心2
  • $.proxy和$.extend
  • (2020)Java后端开发----(面试题和笔试题)
  • (第61天)多租户架构(CDB/PDB)
  • (二十四)Flask之flask-session组件
  • (附源码)计算机毕业设计ssm电影分享网站
  • (更新)A股上市公司华证ESG评级得分稳健性校验ESG得分年均值中位数(2009-2023年.12)
  • (每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理第3章 信息系统治理(一)
  • (区间dp) (经典例题) 石子合并
  • (全部习题答案)研究生英语读写教程基础级教师用书PDF|| 研究生英语读写教程提高级教师用书PDF
  • (十) 初识 Docker file
  • (转)shell调试方法
  • (转)人的集合论——移山之道
  • (轉貼) 2008 Altera 亞洲創新大賽 台灣學生成果傲視全球 [照片花絮] (SOC) (News)
  • . Flume面试题
  • .net core 管理用户机密
  • .net 反编译_.net反编译的相关问题
  • @antv/x6 利用interacting方法来设置禁止结点移动的方法实现。
  • @Responsebody与@RequestBody
  • @WebService和@WebMethod注解的用法
  • [ C++ ] 类和对象( 下 )
  • [ 渗透测试面试篇 ] 渗透测试面试题大集合(详解)(十)RCE (远程代码/命令执行漏洞)相关面试题