解决图上的不平衡问题：三篇A类顶会论文各显神通：基于生成对抗网络，关注结构学习，关注尾部节点, 还有其他方法吗？

深度学习与图网络 2022-01-04

2121

点击上方蓝字关注我们

本文关注图上的不平衡问题，介绍三篇前沿论文，希望能够给大家的研究带来一些思考和帮助，

他们分别是：

1. KDD'21 ImGAGN: Imbalanced Network Embedding via Generative Adversarial Graph Networks

2. NeurIPS'21 Topology-Imbalance Learning for Semi-Supervised Node Classification

3. KDD'21 Tail-GNN: Tail-Node Graph Neural Networks

1.通过生成对抗图网络嵌入的不平衡网络(KDD2021)

ImGAGN: Imbalanced Network Embedding via Generative Adversarial Graph Networks

https://dl.acm.org/doi/10.1145/3447548.3467334

作者：Liang Qu, Huaisheng Zhu, Ruiqi Zheng, Yuhui Shi, Hongzhi Yin

Code: https://github.com/Leo-Q-316/ImGAGN

图上的不平衡分类是普遍存在的，但在许多现实世界的应用(如欺诈节点检测)中具有挑战性。近年来，图神经网络在许多网络分析任务中显示出良好的性能。然而，现有的GNN大多只关注平衡网络，在不平衡网络上的性能不理想。为了弥补这一缺陷，本文提出了生成式对抗图网络模型ImGAGN来解决图上的不平衡分类问题。介绍了一种新的图结构数据生成器GraphGenerator，它可以通过生成一组合成的少数节点来模拟少数类节点的属性分布和网络拓扑结构分布，从而使不同类中的节点数量达到均衡。然后训练一个图卷积网络(GCN)识别器来区分合成平衡网络上的真实节点和虚假节点(即生成节点)，以及少数节点和多数节点。为了验证该方法的有效性，在四个真实的不平衡网络数据集上进行了大量的实验。实验结果表明，在半监督不平衡节点分类任务中，该方法优于现有的算法。

2. 基于结构的不平衡图学习

论文标题：

Topology-Imbalance Learning for Semi-Supervised Node Classification

论文链接：

https://arxiv.org/abs/2110.04099

代码链接：

https://github.com/victorchen96/renode

论文作者：

陈德里，林衍凯，赵光香，任宣丞，李鹏，周杰，孙栩

类别不均衡（Class Imbalance）是真实场景中非常常见的问题，受到了学界和业界非常多的关注。一般在我们提及类别不均衡时，默认指的是数量不均衡：即不同类中训练样本数量的不一致带来的模型于不同类别学习能力的差异，由此引起的一个严重问题是模型的决策边界会主要由数量多的类来决定。

但是在图结构中，不同类别的训练样本不仅有在数量上的差异，也有在位置结构上的差异。这就使得图上的类别不均衡问题有了一个独特的来源：拓扑不均衡。而目前学界缺乏对于拓扑不均衡相关问题的研究。这个工作最主要的动机就是研究拓扑不均衡的特点，危害以及解决方法，希望能够引起社区对拓扑不均衡问题的重视。

在设计拓扑不均衡方法之前，本文作者首先在思考拓扑不均衡的解决方法应该满足什么要求？考虑到拓扑不均衡问题的普遍性，以及现有的 GNN 模型缺乏对其的特殊设计和考虑，解决方案应该尽可能的兼容众多已有的 GNN 结构。同时针对于拓扑不均衡的方法应该尽可能和已有的数量不均衡方法兼容，从而更加全面完整的解决图上不均衡问题。此外，所设计的方法给模型训练带来的额外开销应该尽可能小，并能够适用于几百万节点的超大规模图结构。

基于这些考虑，作者提出了用于解决拓扑不均衡问题的 ReNode 框架（如图 1 所示）。整个框架包括两个步骤：

1. 标注节点的拓扑定位：计算节点到类边界的远近（Totoro 指标）；

2. 标注节点训练权重 Re-Weight：减少靠近类边界节点的训练权重，增加靠近类中心节点的训练权重。

ReNode 是基于每个标注节点到其类边界的距离的远近进行 instance-level 的重新加权。通过 ReNode 方法，靠近类别边界位置的、容易引起决策边界偏移的训练节点的权重被减少，而靠近类别中心位置的训练节点权重增大。这就使得节点的影响力边界和真实的类别边界更加重合，减少了因为拓扑结构不均衡引起的决策边界偏移问题。

3. 提高尾结点嵌入的图神经网络

Tail-GNN: Tail-Node Graph Neural Networks

KDD 2021

https://zemin-liu.github.io/papers/Tail-GNN-KDD-21.pdf

https://github.com/shuaiOKshuai/Tail-GNN

作者

Liu, Zemin and Nguyen, Trung-Kien and Fang, Yuan

目前，许多领域中的图在其节点度上都遵循长尾分布，即大多数节点为具有小度的尾结点。尽管图神经网络可以学习节点表征，但它们统一对待所有节点，而没有关注到大量的尾节点。同时，尾节点的结构信息（如链接信息）较少，从而导致性能较差。故本文提出了一种新颖的图神经网络：Tail-GNN，以提高尾结点嵌入的鲁棒性。图1展示了长尾节点的分布，以及尾节点缺失的链接。

为了增强尾节点的表征学习，本文提出了一种名为邻域转化的新概念，在此基础上，进一步设计了一种从头结点到尾节点的知识转移。具体如图2所示。

通常，节点与其邻居节点之间紧密的结构连接产生了它们之间的联系，特别地，GNN与其他基于图的方法都假定节点与其相邻节点相似。例如，如图2（a）所示，对v0及其邻居，使用生物学关键词来描述，而对节点v6，则使用计算机科学关键词来描述。本文利用转化操作对节点v与其邻域Nv之间的关系进行建模，以模拟邻域中缺失的信息。形式上，设hv表示头节点v的节点嵌入向量，并设表示v的邻域Nv的嵌入向量，其可以通过对v的邻域嵌入向量进行池化操作来得到，可表示为：