轨迹聚类在轨迹数据挖掘中有重要作用,现有的聚类算法通常利用轨迹的时空特征在传统的聚类算法基础上扩展,这会存在不能捕获隐藏信息、依赖于手工相似度指标、算法不灵活等问题。本文带来国际顶级会议ICDE 2021上的论文:《E2DTC: An End to End Deep Trajectory Clustering Framework via Self-Training》一.背景随着GPS设备和移动计算服务的普及,大量的轨迹数据被收集以捕捉事物的移动性。而轨迹聚类在轨迹挖掘任务中发挥了重要作用,它服务于广泛的现实生活应用,包括交通、基于位置的服务、行为研究等。为了支持轨迹聚类分析,人们提出了大量的轨迹聚类方法,但主要是利用轨迹的时空特征来扩展传统的聚类算法。这种算法首先采用现有的或修改过的距离度量来计算轨迹之间的相似性,然后再应用经典的聚类技术(如k-means)来进行轨迹聚类。然而,它存在以下三个问题:一是不能捕获轨迹数据中隐藏的空间信息。传统的轨迹聚类方法受限于基于原始轨迹的表示(如轨迹点,轨迹段等),而轨迹在生活中以GPS坐标的形式采集,当采样率较低或不均匀时,GPS点不足以表示形式为连续曲线的真实轨迹。二是高度依赖于手工相似度指标。对于距离的度量方式,有的只关注局部特征(即基于点),或只关注轨迹之间的全局关系(即基于形状),这使得应用于不同数据集会有相差很大的性能效果。三是聚类效率低且不灵活,不同数据集有不同的空间特征,传统的轨迹聚类无法支持各种各样的轨迹数据集。本文提出了一种通过自训练实现的端到端深度轨迹聚类框架,称为E2DTC。受到深度神经网络数据驱动能力的启发,它使用基于神经网络的深度学习表示的轨迹,将原始轨迹嵌入向量,捕获轨迹数据的隐藏信息。而且E2DTC不需要任何额外的手动特征提取操作,还可以很容易地应用于任何轨迹数据集上的轨迹聚类分析。本文最后在三个真实数据集上进行了广泛实验,评估结果表明,E2DTC框架性能优越,可伸缩性好,稳定性强。二.基本框架