GCN开山之作：图卷积网络与半监督学习

📋 论文基本信息

标题Semi-Supervised Classification with Graph Convolutional Networks

作者Thomas N. Kipf, Max Welling

机构University of Amsterdam / CIFAR

发表ICLR 2017

标签 GCN Graph Neural Network Semi-Supervised Learning Spectral Methods Chebyshev Node Classification

We present a scalable approach for semi-supervised learning on graph-structured data that is based on an efficient variant of convolutional neural networks which operate directly on graphs. We motivate the choice of our convolutional architecture via a localized first-order approximation of spectral graph convolutions. Our model scales linearly in the number of graph edges and learns hidden layer representations that encode both local graph structure and features of nodes.

💡 背景与动机

在现实世界中，图结构数据无处不在：社交网络、引文网络、知识图谱、分子结构……然而，传统的深度学习模型（CNN、RNN）都假设输入是规则结构的数据（网格、序列），无法直接处理图这种非欧几里得结构。

当时的主流半监督图学习方法依赖于一个假设：图中相邻节点共享相同的标签。这种假设通过图拉普拉斯正则化来实现：

L = L₀ + λ Σ_i,j A_ij ‖f(X_i) − f(X_j)‖²

问题：这种"标签平滑"假设太强了。图的边不一定编码节点相似性——社交网络的"关注"关系不能保证两个人喜欢同样的内容。图结构本身可能包含比节点相似性更丰富的信息。

Kipf和Welling提出了一个根本性的思路转变：不要用图结构做正则化，而是把图结构直接编入神经网络的传播过程中。模型 f(X, A) 不仅接收节点特征 X，也接收邻接矩阵 A。这样监督损失的梯度可以直接沿图结构传播到未标记节点。

🔧 核心方法：从谱图卷积到一层近似

GCN的核心推导分为三步，每一步都做了一次优雅的简化：

📌 第一步：谱图卷积（Spectral Graph Convolution）

图上的卷积定义为：信号 x 与滤波器 g_θ 在图傅里叶域的乘法：

g_θ ⋆ x = U g_θ U^T x

其中 U 是归一化图拉普拉斯 L = I_N − D^−½A D^−½ 的特征向量矩阵。复杂度是 O(N²)——对大规模图完全不现实。

📌 第二步：Chebyshev多项式近似（K阶局部化）

Hammond et al. (2011) 提出用 K 阶Chebyshev多项式来近似谱滤波器。滤波器是 K-局部化 的，复杂度降至 O(|E|)。Defferrard et al. (2016) 基于这个公式提出了 ChebNet——GCN的直接前身。

📌 第三步：一层近似（1st-order approximation）—— GCN的诞生

Kipf和Welling做了一个"激进"的简化：把 K 限制到 1，并假设 λ_max ≈ 2。经过推导，Chebyshev近似简化为：

g_θ ⋆ x ≈ θ ( I_N + D^−½A D^−½ ) x

但 I_N + D^−½A D^−½ 的特征值范围是 [0, 2]——深度堆叠会导致数值不稳定。

✨ 重归一化技巧（Renormalization Trick）： 用 Ã = A + I_N 和 D̃_ii = Σ_j Ã_ij 替换：
I_N + D^−½A D^−½ → D̃^−½Ã D̃^−½

最终每一层的传播规则异常简洁优美：

H^(l+1) = σ ( D̃^−½ Ã D̃^−½ H^(l) W^(l) )

Ã = A + I_N：给每个节点加上自连接
D̃^−½ Ã D̃^−½：对称归一化邻接矩阵
H^(l) W^(l)：线性变换学习特征
σ(·)：非线性激活（如ReLU）

🏗️ 两层GCN：最简单也最强大

论文中使用的半监督节点分类模型是一个两层GCN：

Z = softmax( Â · ReLU( Â · X · W⁽⁰⁾ ) · W⁽¹⁾ )

X ∈ ℝ^N×C → Â = D̃^−½Ã D̃^−½ → Hidden H → Z ∈ ℝ^N×F

N=节点数 · C=输入特征维 · H=隐藏层维 · F=类别数 · 前向计算复杂度 O(|E|CHF)

具体流程：

预处理：一次性计算 Â = D̃^−½Ã D̃^−½
第一层：Â X W⁽⁰⁾ → ReLU → H（H个特征图）
第二层：Â H W⁽¹⁾ → softmax → 类别概率 Z
训练：只对有标签的节点计算交叉熵损失，全批量梯度下降

🧠 为什么只用两层就够了？
每一层GCN进行一次邻居信息聚合，两层就能收集 2-hop邻居 的信息。在引文网络中，一篇论文的类别通常由它直接引用的论文和引用它的论文共同决定，2-hop已经足够。更深层反而可能引入噪声并导致过平滑（oversmoothing）。

训练细节：

全批量梯度下降（数据集能放进内存时可行）
使用Dropout增加随机性
邻接矩阵 A 用稀疏矩阵存储，内存 O(|E|)
使用TensorFlow实现，利用稀疏-稠密矩阵乘法加速GPU运算

📊 实验结果

引文网络节点分类

论文在三个标准引文网络数据集上测试：Cora、Citeseer、Pubmed。每个数据集只使用每类20个标签（共约140-220个标签），其余节点作为测试集。

方法	Cora	Citeseer	Pubmed
Chebyshev (K=3)	82.6%	71.4%	78.9%
GCN (ours)	81.5%	70.3%	79.0%
DeepWalk	67.2%	43.2%	65.3%
ICA	75.1%	69.1%	73.9%
Planetoid	75.7%	64.7%	77.2%
LP	68.0%	45.3%	63.0%
SemiEmb	59.0%	59.6%	71.7%
ManifReg	59.5%	60.1%	70.7%

81.5%

Cora准确率

仅140个标签

70.3%

Citeseer准确率

仅120个标签

79.0%

Pubmed准确率

仅200个标签

<0.01s

训练时间/epoch

Cora (GPU)

知识图谱实验（NELL）

论文在知识图谱数据集 NELL 上验证：超过 55K个节点 和 600K条边，节点特征极其稀疏。GCN在大规模高稀疏数据上依然表现优异：

66.0%

NELL准确率

超越所有基线

<0.01s

推断时间

370K边 · GPU

✅ 关键结论：GCN在所有数据集上都达到了当时最优或接近最优的性能，且训练速度比ChebNet 快约100倍。特别是在 Pubmed 上，K=1的GCN甚至超越了参数更多的Chebyshev滤波器（K=3），证明了这一设计选择的有效性。

🌟 为什么GCN是里程碑之作

2016 · ChebNet (Defferrard et al.)

谱图卷积的Chebyshev近似，复杂度O(|E|)，但需要K阶多项式。

2017 · GCN (Kipf & Welling) 🏆

K=1 + 重归一化技巧，训练速度提升100倍。简洁而强大。

2018 · Graph Attention (GAT)

引入注意力机制，让模型学习不同邻居权重。

2019 · DeepGCN / JKNet

研究过平滑问题，提出残差连接方案。

2020 · Graph Transformers

Transformer架构引入图数据，分子预测等任务超越GCN。

2021~今 · 广泛应用

GCN已成为图表示学习标配baseline，药物发现、推荐系统、知识图谱等。

GCN之所以成为经典，在于它做到了极致的简洁：

1. 一句话就能描述的模型 —— H^(l+1) = σ(ÂH^(l)W^(l))。在图机器学习领域很少有模型比这更简单。
2. 优雅的理论推导 —— 从谱图卷积出发，通过三次合理的简化和一个巧妙的重归一化技巧，得到实用的传播规则。
3. 开箱即用的实用性 —— 代码仅有几十行，在三个标准数据集上达到SOTA，训练只需几秒钟。

🔮 局限与后续发展

GCN并非完美：

全批量训练：需要在整个图上做前向传播，数十亿节点的图无法小批量训练
过平滑：堆叠多层后节点表示趋向一致，限制模型深度
直推式学习：训练时需要整个图结构，对新节点泛化能力有限
同配性假设：天然偏向同配图，在异配图上表现不佳

这些局限性催生了大量后续工作：

GraphSAGE / FastGCN：邻居采样实现小批量训练和归纳学习
GAT：注意力机制代替固定归一化权重
GIN / PNA：研究GCN表达能力上限
GCNII / JK-Net：残差连接和初始映射缓解过平滑
截止2026年，GCN已被引用超过 20000次

对于一个AI研究生，这篇论文的价值在于：

它展示了如何用优雅的数学推导得到一个简洁可用的模型。GCN本质上不过是"用邻居特征加权平均"加上"可学习的线性变换"。这个简单而强大的范式贯穿了整个图深度学习领域。

从做GNN研究的角度，理解GCN的推导过程——谱图理论、Chebyshev近似、一层线性化、重归一化——是探索更高级图神经网络方法的必要基础。