论文阅读【时空+大模型】ST-LLM（MDM2024）

作者

发布时间:2024-07-17 20:28

阅读量:2

论文链接：Spatial-Temporal Large Language Model for Traffic Prediction
代码仓库：https://github.com/ChenxiLiu-HNU/ST-LLM
发表于MDM2024（Mobile Data Management）

本文主要面向交通流量数据。

注： $X_P \isin R^{P*N*C}$ ，但在本文实验中C=1(原文“C = 1 represents the traffic pick-up or drop-off flow”)，因而有 $X_P \isin R^{P*N}$

一般而言，spatial-temporal embedding分为：

Token Embedding: $E_P = PointwiseConv(X_P) \isin R^{N * D}$
Temporal Embedding: $E_T = E_T^d+E_T^w = W_{day}(X_{day}) + W_{week}(X_{week})\isin R^{N *D}$
Spatial Embedding: $E_S = \sigma (W_S * X_P + b_S) \isin R^{N * D}$

然后将三种embedding合并：

$H_F = FusionConv(E_P||E_S||E_T) \isin R^{N*3D}$
其中’||'是拼接符号。

这部分使用GPT2捕获时空依赖。Transformer Block中训练时空开销最大的是注意力（Attention）模块。本文使用了F+U个Transformer层：

在前F层中，Attention参数冷冻，只训练Layer Norm
在后U层中，Attention参数也用于训练
经过F+U个Transformer层后，得到的 $H^{F+U}$ 后，使用一个Regression Conv获得最终结果：
$Y_S = RegressionConv(H^{F+U}) \isin R^{S*N}.$