DSE精选文章
多视图聚类中的表示学习:文献综述
Representation Learning in Multi-view Clustering: A Literature Review
Data Science and Engineering (DSE)是由中国计算机学会(CCF)主办,数据库专业委员会承办,施普林格·自然(Springer Nature)集团出版的开放获取(OA)期刊。本篇文章得到中新赛克赞助文章处理费。
近年来,多视图聚类吸引了越来越多研究者的关注。主要思路是充分利用多个视图之间的互补和共识信息,将多视图数据划分到不同的类分区中。现有的多视图聚类综述论文尚未考虑最近流行的基于深度学习的方法,因此,该综述从表示学习的角度对多视图聚类进行了全面的研究。如图1所示,描述了多视图聚类中表示学习的定义。
该综述涵盖了主流的多视图聚类方法,包括基于深度学习的模型,提供了一种新的多视图聚类算法分类。如图2所示,描述了多视图聚类算法的分类。具体而言,基于表示学习的多视图聚类方法主要可以分为两类,即基于浅层表示学习的多视图聚类和基于深度表示学习的多视图聚类。其中基于深度学习的模型能够处理更复杂的数据结构,表现出更好的类结构表达。
在浅层表示学习的多视图聚类中,该文根据表示学习的方法将其进一步分为两组,即多视图图聚类和多视图子空间聚类。对于多视图图聚类,图被广泛用于表示不同样本之间的关系,其中每个节点代表一个数据样本,每条边表示成对样本之间的关系或相似性。由于存在多个视图的观测值,研究者通常采用多个图来描述多个视图不同样本之间的关系。依据多视图学习中的一致性原则,有研究者将进一步整合多个图以加强图与图之间的关系。如图3所示,描述了多视图图聚类方法的总体框架。多视图子空间聚类假设了多个输入的视图是由潜在的子空间生成,其目标是从多个视图中恢复潜在的子空间。通常地,多视图子空间聚类算法或是从多个视图特定的子空间表示中学习共享统一的子空间表示,或是基于高维的多视图数据挖掘潜在空间,并基于该潜在空间进行后续的子空间学习。如图4所示,描述了多视图子空间聚类方法的框架。
受深度学习在无监督问题中取得有效性能的启发,最近的许多工作都集中研究基于深度表示学习的多视图聚类。具体而言,基于深度表示的多视图聚类方法将深度神经网络 (DNN) 实现为非线性参数映射函数,充分地探索嵌入原始数据空间中数据的非线性属性。如图5所示,描述了基于多视图深度表示聚类方法的框架。
此外,该综述为读者提供了多视图聚类的基础研究资料,包括常用的多视图数据集介绍,并提供了下载链接和开源代码库。最后,作者指出了有待进一步研究和发展的问题,以便读者思考和讨论。
该综述论文提出了一种新的分类法来梳理现有的多视图聚类算法,主要分为两类,即基于非表示学习的多视图聚类和基于表示学习的多视图聚类。其中基于表示学习的多视图聚类方法是研究的重点,它由两种学习模型组成,用于整合来自不同视图的有用信息,即基于浅层表示学习的多视图聚类和基于深度表示学习的多视图聚类。依据表示学习的不同方式,浅层聚类模型可以进一步分为两大类,即多视图图聚类和多视图子空间聚类。论文进一步梳理了正发展的深度聚类模型,它可以更好地表达更复杂的数据结构。
陈曼笙2018年在华南农业大学获得软件工程学士学位,2021年在中山大学获得计算机科学硕士学位。现是中山大学计算机学院2022级博士研究生,导师为王昌栋副教授。主要研究方向是多视图聚类。
林家祺2018年在太原理工大学获得光电信息科学与工程专业学士学位,2021年在福州大学获得软件工程专业硕士学位。现是中山大学数学学院2021级博士研究生,导师为张海樟教授。主要研究方向是多视图聚类。
李翔龙2021年在中山大学获得信息与计算科学专业学士学位。现是中山大学计算机学院2021级硕士研究生,导师为王昌栋副教授。主要研究方向是数据挖掘。
刘宝裕2019年在暨南大学获得计算机科学学士学位,2022年在中山大学获得计算机科学硕士学位。现就职于蚂蚁金服集团。论文发表在IEEE TKDE、IEEE TCYB和IEEE TNNLS顶级期刊。他的研究兴趣是数据挖掘。
王昌栋博士是中山大学计算机学院副教授,博士生导师,师从中山大学赖剑煌教授和美国伊利诺大学-芝加哥校区IEEE Fellow Philip S. Yu教授。研究方向包括数据聚类、网络分析、推荐算法和大数据信息安全。以第一作者身份或者指导学生发表了100余篇论文,其中A类或一区论文50余篇。主持了包括广东省自然科学基金-杰出青年基金、广东特支计划“科技创新青年拔尖人才”、国家重点研发计划项目-子课题、国家自然科学基金-面上项目、CCF-腾讯犀牛鸟科研基金等13个项目。任人工智能权威期刊JAIR的副编辑。
黄栋博士是华南农业大学数学与信息学院副教授,硕士生导师。主要研究方向是人工智能、大数据分析和深度学习,具体研究内容包括数据集成聚类、多视图聚类、大规模聚类、深度对比学习、图神经网络等。已发表学术论文50 余篇,其中第一作者或通讯作者论文近30篇、三篇一作论文入选ESI高被引论文(Top 1%)。代表性成果发表在IEEE TKDE、IEEE TCYB、IEEE TSMC-S、ACM TKDD、KBS、Information Fusion、Pattern Recognition、AAAI、ICDM等国际权威期刊及重要会议。主持承担了国家自然科学基金项目2项(面上项目与青年项目各1项)、广东省自然科学基金项目2项。目前担任IEEE TPAMI等40多个SCI期刊审稿人。
赖剑煌博士是中山大学计算机学院教授、博士生导师。广东省信息安全技术重点实验室主任,视频图像智能分析与应用公安部重点实验室学术委员会主任。中国图象图形学学会副理事长、会士,自动化学报副主编,中国计算机学会杰出会员,中国计算机学会计算机视觉专业组副主任(第一、二届)。IEEE高级会员。已主持承担国家自然科学基金与广东联合重点项目,科技部科技支撑课题,国家自然科学基金、广东省前沿与关键技术创新专项等多项,获得广东省自然科学一等奖(2018年)、中国图象图形学学会自然科学一等奖(2020年)、广东省自然科学二等奖(2020年)、广东省科学技术奖励二等奖(2016年)等。已发表了200多篇学术论文,主要发表在IEEE TPAMI、IJCV 等国际权威刊物以及ICCV、 CVPR等专业重要学术会议上。拥有30多项国家发明专利。
Data Science and Engineering(DSE)是由中国计算机学会(CCF)主办、数据库专业委员会承办、施普林格自然(Springer Nature)出版的Open Access期刊。为了迎合相关领域的快速发展需求,DSE致力于出版所有和数据科学与工程领域相关的关键科学问题与前沿研究热点,以大数据作为研究重点,征稿范畴主要包括4方面:(1)数据本身,(2)数据信息提取方法,(3)数据计算理论,和(4)用来分析与管理数据的技术和系统。
目前期刊已被EI、ESCI与SCOPUS收录,CiteScore 2021为6.4,在Computer Science Applications领域排名# 157/747(位列前21%)。稿件处理费由赞助商中新赛克(Sinovatio)承担,欢迎大家免费下载阅读期刊全文,并积极投稿。
原文链接:
https://link.springer.com/article/10.1007/s41019-022-00190-8