SCIENCE CHINA Information Sciences · Dec 2025

Graph Neural Architecture Search
with Large Language Models

Haishuai Wang1, Yang Gao2, Xin Zheng1, Peng Zhang3, Jiajun Bu1, Philip S. Yu4
1浙江大学 · 2浙大公卫 · 3广州大学 · 4UIC
DOI 10.1007/s11432-024-4539-1 搜索迭代 仅 15 轮 代码 GitHub
01

摘要

本文提出 GNAS-LLM,首个基于大语言模型的图神经架构搜索框架。核心思路是设计三类 GNAS 提示词:

  • 空间提示 — 用邻接矩阵描述搜索空间(候选操作 + 连接)
  • 策略提示 — 描述搜索策略(探索 vs 利用的 RL 范式)
  • 奖励提示 — 将历史架构评估结果反馈给 LLM

通过迭代运行提示词,GNAS-LLM 快速收敛到最优架构。在 4 个基准数据集上,验证集准确率平均提升 0.7%,测试集提升 0.3%,搜索迭代减少 56%

02

研究动机

~56%
搜索迭代减少
97.5
平均探索架构
+0.7%
验证集平均提升
+1.0%
AutoGEL 测试集

现有 GNAS 痛点

  • 手动设计搜索空间和搜索策略,需要大量领域知识
  • GNN 的不规则消息传递导致搜索空间组合爆炸
  • RL、梯度、进化三类 GNAS 方法都需要大量迭代

LLM 的契机

  • LLM(GPT-4)展现强大的语言理解与生成能力
  • GENIUS 已用 GPT-4 设计 CNN 架构,但尚未扩展到 GNN
  • GNN 搜索空间更复杂——本文是首次将 LLM 引入 GNAS
核心问题

能否利用 LLM 的生成能力,自动生成新的图神经架构,减轻手动设计搜索空间和搜索策略的负担?

03

方法核心:GNAS-LLM

算法流程

1LLM读取提示词
2生成候选架构
3评估准确率
4构建奖励提示
5迭代优化

三类提示词

Space 描述搜索任务 + 用邻接矩阵表示候选连接 + 列出候选操作(GCN, GAT, GraphSAGE, GIN, ChebNet, ARMA, k-GNN, Skip, FC)

Strategy 初始探索策略 → 后续利用策略(从历史最优中采样)

Reward 格式:"Model [架构] achieves accuracy [准确率]",引导 LLM 快速收敛

为什么有效?

  • LLM 有能力分析图数据(已有研究证实)
  • LLM 作为控制器,比 RL/进化控制器表现更好
  • 描述性提示 + 奖励反馈 → 快速收敛
04

实验结果

与 SOTA 方法对比(NAS-Bench-Graph)

数据集指标RandomGraphNASGenetic-GNNGNAS-LLM
CoraVal82.3781.8082.3783.13 (Rank 1)
CoraTest79.8079.6079.8080.93
CiteseerVal70.6670.5670.6771.37 (Rank 2)
PubmedVal77.6378.2778.2778.30 (Rank 3)
arXivVal72.1872.1072.2172.39 (Rank 1)
亮点

GNAS-LLM 在 Cora 和 arXiv 上验证集 Rank 1,Citeseer Rank 2。9 个搜索空间平均准确率 82.11%,全面超越基线。

收敛速度

GNAS-LLM 仅需 15 轮迭代(150 个架构),基线方法需 200 轮(2000 个架构):

  • Cora:GNAS-LLM 15 轮最优,Random 需 50+ 轮
  • Citeseer & arXiv:基线即使跑 200 轮也无法超越 GNAS-LLM
  • Pubmed:基线需 80+ 轮才能匹配,且仅提升 0.2%
05

五个关键发现

Observation 1

LLM 能理解并执行 GNAS 任务

GNAS-LLM 生成的架构平均优于所有基线,证明 LLM 有效导航图架构搜索空间。

Observation 2

邻接矩阵优于边列表

"with Tuple" 变体平均下降 0.75%,邻接矩阵更有利于 LLM 理解 GNN 结构。

Observation 3

GPT-4 探索最多唯一架构

GPT-4 平均探索 123.8 个唯一架构,远超其他 LLM,探索多样性驱动更好结果。

Observation 4

15 轮超越 200 轮基线

RL/进化方法跑 200 轮,在 3/4 数据集上仍被 GNAS-LLM 15 轮超越。

Observation 5

LLM 对搜索策略高度敏感

移除策略提示(¬Strategy)导致排名下降 21.75 位;用进化策略替代也使排名下降约 43.67 位。

06

消融分析

提示词组件消融

变体Cora (Rank)Citeseer (Rank)Pubmed (Rank)arXiv (Rank)
GNAS-LLM83.13 (1)71.37 (2)78.30 (3)72.39 (1)
¬Operations82.00 (26)70.80 (20)78.03 (11)72.28 (9)
¬Connections81.80 (49)70.17 (119)78.03 (11)72.07 (98)
¬Strategy81.80 (49)70.80 (20)77.90 (16)72.28 (9)
with Evolutionary82.00 (26)71.37 (2)78.00 (12)72.08 (98)
with Tuple81.47 (171)70.67 (30)77.80 (33)72.27 (10)
07

案例分析

Case 1: AutoGEL 搜索空间

扩展到异构搜索空间。Cora 测试集最优模型提升 2.21%(89.30 → 91.51)。

数据集方法Top 1 ValTop 1 TestTop 10 ValTop 10 Test
CoraAutoGEL89.4889.3088.5589.70
GNAS-LLM89.4891.5189.3490.62
CiteseerAutoGEL74.5977.3373.9777.43
GNAS-LLM75.1978.0874.9377.55
PubmedAutoGEL89.1989.5388.8289.48
GNAS-LLM89.4889.6289.3489.67

Case 2: 不同 LLM 能力对比

  • GPT-4 最佳,平均 123.8 唯一架构,领先其他模型 0.83%
  • GPT-3.5 vs PaLM 2 各有胜负;ChatGLM3-6B 限于规模表现最弱
  • 唯一架构数量与性能正相关——探索越多样,找到最优的概率越高

Case 3: 异构图链接预测

FB15k-237 和 WN18RR 数据集上,MRR 四项指标 全面超越 AutoGEL。MRR 领先 0.42%,Hits@1 领先 0.49%。

Case 4: 大规模图(ogbn-products)

约 245 万节点、6186 万边。GNAS-LLM 测试集 70.86%,优于 Random Search(70.55%)和 Pasca(69.50%)。

08

结论 & 未来方向

  • 首次将 LLM 引入图神经架构搜索(GNAS)
  • 设计了包含搜索空间、策略和反馈的全新 GNAS 提示词体系
  • 在标准基准 + AutoGEL + 异构图链接预测 + 大规模图上全面超越 SOTA
  • 搜索效率高:平均 15 轮迭代,减少 56% 迭代次数
  • 未来方向

    • 测试更广泛 GNN 架构下的鲁棒性和适应性
    • 扩展至异构图神经架构搜索
    • 开发计算高效的变体,降低对 GPT-4 等重量级 LLM 的依赖
    一句话总结

    GNAS-LLM = LLM 作为控制器 + GNAS 提示词 + 奖励反馈 → 更少搜索、更优架构的 GNAS 新范式


    论文:Sci China Inf Sci, 2025, 68(12): 222103 · 整理:王小红 · 2026-05-13