SCIENCE CHINA Information Sciences · Dec 2025

Graph Neural Architecture Search
with Large Language Models

Haishuai Wang¹, Yang Gao², Xin Zheng¹, Peng Zhang³, Jiajun Bu¹, Philip S. Yu⁴

¹浙江大学 · ²浙大公卫 · ³广州大学 · ⁴UIC

DOI 10.1007/s11432-024-4539-1 搜索迭代 仅 15 轮代码 GitHub

📑 目录

摘要研究动机方法核心实验结果关键发现消融分析案例分析结论

摘要

本文提出 GNAS-LLM，首个基于大语言模型的图神经架构搜索框架。核心思路是设计三类 GNAS 提示词：

空间提示 — 用邻接矩阵描述搜索空间（候选操作 + 连接）
策略提示 — 描述搜索策略（探索 vs 利用的 RL 范式）
奖励提示 — 将历史架构评估结果反馈给 LLM

通过迭代运行提示词，GNAS-LLM 快速收敛到最优架构。在 4 个基准数据集上，验证集准确率平均提升 0.7%，测试集提升 0.3%，搜索迭代减少 56%。

研究动机

~56%

搜索迭代减少

97.5

平均探索架构

+0.7%

验证集平均提升

+1.0%

AutoGEL 测试集

现有 GNAS 痛点

手动设计搜索空间和搜索策略，需要大量领域知识
GNN 的不规则消息传递导致搜索空间组合爆炸
RL、梯度、进化三类 GNAS 方法都需要大量迭代

LLM 的契机

LLM（GPT-4）展现强大的语言理解与生成能力
GENIUS 已用 GPT-4 设计 CNN 架构，但尚未扩展到 GNN
GNN 搜索空间更复杂——本文是首次将 LLM 引入 GNAS

核心问题

能否利用 LLM 的生成能力，自动生成新的图神经架构，减轻手动设计搜索空间和搜索策略的负担？

方法核心：GNAS-LLM

算法流程

1LLM读取提示词

→

2生成候选架构

→

3评估准确率

→

4构建奖励提示

→

5迭代优化

三类提示词

Space 描述搜索任务 + 用邻接矩阵表示候选连接 + 列出候选操作（GCN, GAT, GraphSAGE, GIN, ChebNet, ARMA, k-GNN, Skip, FC）

Strategy 初始探索策略 → 后续利用策略（从历史最优中采样）

Reward 格式："Model [架构] achieves accuracy [准确率]"，引导 LLM 快速收敛

为什么有效？

LLM 有能力分析图数据（已有研究证实）
LLM 作为控制器，比 RL/进化控制器表现更好
描述性提示 + 奖励反馈 → 快速收敛

实验结果

与 SOTA 方法对比（NAS-Bench-Graph）

数据集	指标	Random	GraphNAS	Genetic-GNN	GNAS-LLM
Cora	Val	82.37	81.80	82.37	83.13 (Rank 1)
Cora	Test	79.80	79.60	79.80	80.93
Citeseer	Val	70.66	70.56	70.67	71.37 (Rank 2)
Pubmed	Val	77.63	78.27	78.27	78.30 (Rank 3)
arXiv	Val	72.18	72.10	72.21	72.39 (Rank 1)

亮点

GNAS-LLM 在 Cora 和 arXiv 上验证集 Rank 1，Citeseer Rank 2。9 个搜索空间平均准确率 82.11%，全面超越基线。

收敛速度

GNAS-LLM 仅需 15 轮迭代（150 个架构），基线方法需 200 轮（2000 个架构）：

Cora：GNAS-LLM 15 轮最优，Random 需 50+ 轮
Citeseer & arXiv：基线即使跑 200 轮也无法超越 GNAS-LLM
Pubmed：基线需 80+ 轮才能匹配，且仅提升 0.2%

五个关键发现

Observation 1

LLM 能理解并执行 GNAS 任务

GNAS-LLM 生成的架构平均优于所有基线，证明 LLM 有效导航图架构搜索空间。

Observation 2

邻接矩阵优于边列表

"with Tuple" 变体平均下降 0.75%，邻接矩阵更有利于 LLM 理解 GNN 结构。

Observation 3

GPT-4 探索最多唯一架构

GPT-4 平均探索 123.8 个唯一架构，远超其他 LLM，探索多样性驱动更好结果。

Observation 4

15 轮超越 200 轮基线

RL/进化方法跑 200 轮，在 3/4 数据集上仍被 GNAS-LLM 15 轮超越。

Observation 5

LLM 对搜索策略高度敏感

移除策略提示（¬Strategy）导致排名下降 21.75 位；用进化策略替代也使排名下降约 43.67 位。

消融分析

提示词组件消融

变体	Cora (Rank)	Citeseer (Rank)	Pubmed (Rank)	arXiv (Rank)
GNAS-LLM	83.13 (1)	71.37 (2)	78.30 (3)	72.39 (1)
¬Operations	82.00 (26)	70.80 (20)	78.03 (11)	72.28 (9)
¬Connections	81.80 (49)	70.17 (119)	78.03 (11)	72.07 (98)
¬Strategy	81.80 (49)	70.80 (20)	77.90 (16)	72.28 (9)
with Evolutionary	82.00 (26)	71.37 (2)	78.00 (12)	72.08 (98)
with Tuple	81.47 (171)	70.67 (30)	77.80 (33)	72.27 (10)

案例分析

Case 1: AutoGEL 搜索空间

扩展到异构搜索空间。Cora 测试集最优模型提升 2.21%（89.30 → 91.51）。

数据集	方法	Top 1 Val	Top 1 Test	Top 10 Val	Top 10 Test
Cora	AutoGEL	89.48	89.30	88.55	89.70
Cora	GNAS-LLM	89.48	91.51	89.34	90.62
Citeseer	AutoGEL	74.59	77.33	73.97	77.43
Citeseer	GNAS-LLM	75.19	78.08	74.93	77.55
Pubmed	AutoGEL	89.19	89.53	88.82	89.48
Pubmed	GNAS-LLM	89.48	89.62	89.34	89.67

Case 2: 不同 LLM 能力对比

GPT-4 最佳，平均 123.8 唯一架构，领先其他模型 0.83%
GPT-3.5 vs PaLM 2 各有胜负；ChatGLM3-6B 限于规模表现最弱
唯一架构数量与性能正相关——探索越多样，找到最优的概率越高

Case 3: 异构图链接预测

FB15k-237 和 WN18RR 数据集上，MRR 四项指标 全面超越 AutoGEL。MRR 领先 0.42%，Hits@1 领先 0.49%。

Case 4: 大规模图（ogbn-products）

约 245 万节点、6186 万边。GNAS-LLM 测试集 70.86%，优于 Random Search（70.55%）和 Pasca（69.50%）。

结论 & 未来方向

首次将 LLM 引入图神经架构搜索（GNAS）

设计了包含搜索空间、策略和反馈的全新 GNAS 提示词体系

在标准基准 + AutoGEL + 异构图链接预测 + 大规模图上全面超越 SOTA

搜索效率高：平均 15 轮迭代，减少 56% 迭代次数

未来方向

测试更广泛 GNN 架构下的鲁棒性和适应性
扩展至异构图神经架构搜索
开发计算高效的变体，降低对 GPT-4 等重量级 LLM 的依赖

一句话总结

GNAS-LLM = LLM 作为控制器 + GNAS 提示词 + 奖励反馈 → 更少搜索、更优架构的 GNAS 新范式

论文：Sci China Inf Sci, 2025, 68(12): 222103 · 整理：王小红 · 2026-05-13

Graph Neural Architecture Searchwith Large Language Models