DSE精选文章 | 基于整体架构的交通预测综述

时空实验室 2025-02-05

DSE精选文章

An Overview Based on the Overall Architecture of Traffic Forecasting

Data Science and Engineering (DSE)是由中国计算机学会(CCF)主办，数据库专业委员会承办，施普林格·自然(Springer Nature)集团出版的开放获取(OA)期刊。本篇文章精选自DSE第2024年第9卷第3期发文，由中新赛克赞助文章处理费。

文章介绍

随着城市人口的指数级增长，城市交通系统面临诸多挑战，如交通拥堵、事故频发和环境恶化等。准确的交通预测（Traffic Forecasting）对缓解这些问题、提升交通效率至关重要。交通预测是智能交通系统的重要构成部分。在进行交通预测时，通常需要以历史观测数据和其他相关外部数据为依据，对特定时间间隔内的未来交通状态进行预估，这些交通状态包括交通速度、交通流量、交通需求等。本文旨在全面综述交通预测的整体架构，涵盖交通数据分析、数据建模及预测应用等方面。文章先介绍现有交通预测综述和预备知识，接着从数据收集、格式和特征深入分析交通数据；随后总结空间、时间和时空表示的数据建模方法；还探讨了交通流、速度、需求等预测应用及其他混合预测；为支持该领域未来研究，提供了开放数据集、资源、面临的挑战及潜在研究方向。据我们所知，本文是首个专门针对交通预测整体架构的全面综述。

方法框架

在智能交通系统发展进程中，交通预测占据关键地位。依据图1呈现的流程，研究人员开展交通预测工作时，有着清晰的逻辑步骤与目标导向。研究人员先从多渠道收集具有多源、异构等特性且存在样本偏差等问题的交通区域和点数据，并进行预处理剖析其特性，接着围绕空间、时间和时空表示构建交通数据模型以捕捉相关特征，最后针对交通流、速度等不同预测任务选择合适模型方法，同时开发并优化损失函数来提高预测准确性。

图1. 方法框架图

（1）交通数据分析

在数据收集方面，数据主要来源于固定城市传感（如道路监控设备）、移动城市传感（如共享单车、出租车）和被动城市传感（如地铁公交交易记录、带 GPS 的智能手机）。

图2. 交通数据分析

在数据格式方面，交通数据可以分为交通区域数据（类似网格数据）和交通点数据（如传感器、地铁站等数据）。在两种典型交通数据中，交通区域数据由于其在时间和空间维度上的排列规则，是较为特殊的交通数据类型。交通点数据是一类在空间维度上不规则排列的时空数据，是比交通区域数据更通用的表示形式。因此，交通区域数据与交通点数据之间的关系是从特殊到一般的。

图3. 交通数据格式

收集到的数据常面临样本偏差、稀疏和缺失等问题，学者们提出了多种预处理方法应对。交通数据具有多源、异构、多模态和复杂时空依赖的特性，受天气、节假日等外部因素影响显著，这些特性增加了数据分析和建模的难度。

（2）交通数据建模

交通数据是一类包含空间维度和时间维度的时空数据。因此，将交通数据建模分为三组：空间表示、时间表示和时空表示。

空间表示通常处理网格数据或图形数据。学者们通常采用卷积神经网络来学习网格数据的特征，并通过图神经网络或其变体来学习图数据复杂和动态的空间依赖关系。这里值得注意的是，交通流量图可以总结为静态图、虚拟图、层次图或动态图，示例如下图所示。

图4. 交通图示例

时间表示将时间视为序列数据，研究人员通常使用 RNN、TCN、Causal TCN 或其变体。这里值得注意的是，时间特征分为临近性、周期性、趋势、每日、每周和假期，如下图所示。

图5. 时间特征示例

时空表示意味着模型可以同时捕获空间和时间特征，例如 STSGCN 和 STJGCN。最后，文中还讨论了时空与其他前沿技术相结合的研究，如元学习、ODE、自监督学习、持续学习等。

（3）交通预测应用

交通预测包含各种应用场景。在这里，总结了现有交通预测工作的主要应用，包括交通流量预测、交通速度预测、交通需求预测和其他混合交通预测。

（4）数据集

本文收集并整理了多个与交通预测相关的公开数据集（如下表所示）。

表1. 交通预测数据集

这些数据集来源广泛，涵盖了不同城市和交通场景。如TaxiBJ数据集包含北京出租车的交通数据，SHMetro和HZMetro分别记录了上海和杭州的地铁交易数据，这些数据为研究提供了丰富的信息。数据的时间跨度和粒度各不相同，时间间隔从30秒到30分钟不等，涵盖的时间范围从几个月到数年，为不同时间尺度的交通预测研究提供了多样的选择。

模型对比与分析：文中虽未像传统实验那样对具体模型进行对比测试，但通过对现有交通预测模型的广泛调研和分析，间接呈现了不同模型在处理交通数据时的特点。不同模型在面对交通数据的多源、异构、复杂时空依赖等特性时表现各异。在空间表示上，网格法、图神经网络法等各有优劣；时间表示方面，RNN、TCN等模型也展现出不同的性能（如在计算效率、捕捉时间特征能力等方面）。通过这些分析可知，目前的模型在处理交通数据时仍面临挑战，如异构数据融合困难、多任务预测复杂以及模型缺乏可解释性等。

（5）挑战与未来方向

基于对现有模型的总结分析，文章指出当前交通预测面临的挑战。

在数据方面，异构交通数据融合是难题，交通数据常伴有缺失、稀疏和噪声问题；多任务预测需处理多样的数据格式和复杂的时空相关性；模型解释性方面，机器学习和深度学习模型多为黑箱模型，在交通领域的可解释性研究有限。

针对这些挑战，文章提出未来研究方向，包括大规模图基交通预测，以应对智能城市中大规模交通图数据；基于自监督的交通预测，探索图对比学习在时空图中的应用；知识引导的交通预测，挖掘和整合交通知识；大模型引导的交通预测，结合交通数据的多源多模态特性，利用大模型提升预测能力。

结语

本文对交通预测的整体架构进行了全面回顾。首先，总结了有关交通预测的相关综述，指出了本工作与现有综述的不同之处，并给出了交通预测的一般框架。然后，总结了交通预测的三个关键部分：交通数据分析、交通数据建模和交通预测应用。从交通数据收集、交通数据格式和交通数据特征三个方面探讨了交通数据的分类。此外，从空间表示、时间表示和时空表示三个角度回顾了交通数据建模。讨论了交通预测的应用，包括交通流量预测、交通速度预测、交通需求和其他混合交通预测。此外，还提供了用于交通预测的最新开源数据集。最后进一步指出了存在的挑战和展望了未来的研究方向。

作者简介

彭莉兰，西南交通大学计算机与人工智能学院博士生，主要研究方向城市计算，时空数据挖掘，知识图谱，推荐系统。

廖雪花，四川师范大学计算机科学学院教授，硕士生导师，主要研究方向包括系统集成和智能信息处理、大数据存储、大数据挖掘、知识推荐。

李天瑞，西南交通大学计算机与人工智能学院党委书记，教授，博士生导师，CCF理事，主要研究方向是人工智能，数据挖掘与知识发现，云计算与大数据，粒计算与粗糙集。

郭翔宇，西南交通大学计算机与人工智能学院硕士生，主要研究方向时空数据挖掘、交通预测。

王羞，西南交通大学计算机与人工智能学院博士生，主要研究方向时空数据挖掘，三维视觉，决策优化。

期刊简介

Data Science and Engineering（DSE）是由中国计算机学会（CCF）主办，数据库专业委员会承办，施普林格·自然（Springer Nature）出版的开放获取（Open Access）期刊。DSE致力于发表与数据科学与工程领域相关的关键科学问题与前沿研究热点，以大数据为研究重点，建设国际学术交流的重要平台，推动学术界和企业界的深度融合。征稿范畴主要包括：数据库系统、大数据管理与分析、大数据治理等相关基础理论、关键技术与系统实践。现任主编（Editors-in-Chief）为数据科学与工程领域的知名专家北京大学崔斌教授和意大利英苏布里亚大学Elena Ferrari教授，现任执行主编(Managing Editor)为数据库专业委员会主任、华东师范大学周傲英教授和浙江大学高云君教授。

目前期刊已被EI、ESCI与SCOPUS收录，2023年CiteScore为10.4，影响因子（Impact factor）为5.1，在计算机科学应用领域排名前12%(92/817)、计算机软件领域排名前12%(49/407)、信息系统领域排名前13%(51/394)，人工智能领域排名前17%(58/350)。稿件处理费由赞助商中新赛克（Sinovatio）承担，欢迎大家免费下载阅读期刊全文，并积极投稿。

原文链接：

https://link.springer.com/article/10.1007/s41019-024-00246-x

文稿：鲁茹芸

排版：李瑞远

审核：高云君

大数据预测模型

文章转载自时空实验室，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

DSE精选文章 | 基于整体架构的交通预测综述

评论

相关阅读