本文提出 GNAS-LLM,首个基于大语言模型的图神经架构搜索框架。核心思路是设计三类 GNAS 提示词:
通过迭代运行提示词,GNAS-LLM 快速收敛到最优架构。在 4 个基准数据集上,验证集准确率平均提升 0.7%,测试集提升 0.3%,搜索迭代减少 56%。
能否利用 LLM 的生成能力,自动生成新的图神经架构,减轻手动设计搜索空间和搜索策略的负担?
Space 描述搜索任务 + 用邻接矩阵表示候选连接 + 列出候选操作(GCN, GAT, GraphSAGE, GIN, ChebNet, ARMA, k-GNN, Skip, FC)
Strategy 初始探索策略 → 后续利用策略(从历史最优中采样)
Reward 格式:"Model [架构] achieves accuracy [准确率]",引导 LLM 快速收敛
| 数据集 | 指标 | Random | GraphNAS | Genetic-GNN | GNAS-LLM |
|---|---|---|---|---|---|
| Cora | Val | 82.37 | 81.80 | 82.37 | 83.13 (Rank 1) |
| Cora | Test | 79.80 | 79.60 | 79.80 | 80.93 |
| Citeseer | Val | 70.66 | 70.56 | 70.67 | 71.37 (Rank 2) |
| Pubmed | Val | 77.63 | 78.27 | 78.27 | 78.30 (Rank 3) |
| arXiv | Val | 72.18 | 72.10 | 72.21 | 72.39 (Rank 1) |
GNAS-LLM 在 Cora 和 arXiv 上验证集 Rank 1,Citeseer Rank 2。9 个搜索空间平均准确率 82.11%,全面超越基线。
GNAS-LLM 仅需 15 轮迭代(150 个架构),基线方法需 200 轮(2000 个架构):
GNAS-LLM 生成的架构平均优于所有基线,证明 LLM 有效导航图架构搜索空间。
"with Tuple" 变体平均下降 0.75%,邻接矩阵更有利于 LLM 理解 GNN 结构。
GPT-4 平均探索 123.8 个唯一架构,远超其他 LLM,探索多样性驱动更好结果。
RL/进化方法跑 200 轮,在 3/4 数据集上仍被 GNAS-LLM 15 轮超越。
移除策略提示(¬Strategy)导致排名下降 21.75 位;用进化策略替代也使排名下降约 43.67 位。
| 变体 | Cora (Rank) | Citeseer (Rank) | Pubmed (Rank) | arXiv (Rank) |
|---|---|---|---|---|
| GNAS-LLM | 83.13 (1) | 71.37 (2) | 78.30 (3) | 72.39 (1) |
| ¬Operations | 82.00 (26) | 70.80 (20) | 78.03 (11) | 72.28 (9) |
| ¬Connections | 81.80 (49) | 70.17 (119) | 78.03 (11) | 72.07 (98) |
| ¬Strategy | 81.80 (49) | 70.80 (20) | 77.90 (16) | 72.28 (9) |
| with Evolutionary | 82.00 (26) | 71.37 (2) | 78.00 (12) | 72.08 (98) |
| with Tuple | 81.47 (171) | 70.67 (30) | 77.80 (33) | 72.27 (10) |
扩展到异构搜索空间。Cora 测试集最优模型提升 2.21%(89.30 → 91.51)。
| 数据集 | 方法 | Top 1 Val | Top 1 Test | Top 10 Val | Top 10 Test |
|---|---|---|---|---|---|
| Cora | AutoGEL | 89.48 | 89.30 | 88.55 | 89.70 |
| GNAS-LLM | 89.48 | 91.51 | 89.34 | 90.62 | |
| Citeseer | AutoGEL | 74.59 | 77.33 | 73.97 | 77.43 |
| GNAS-LLM | 75.19 | 78.08 | 74.93 | 77.55 | |
| Pubmed | AutoGEL | 89.19 | 89.53 | 88.82 | 89.48 |
| GNAS-LLM | 89.48 | 89.62 | 89.34 | 89.67 |
FB15k-237 和 WN18RR 数据集上,MRR 四项指标 全面超越 AutoGEL。MRR 领先 0.42%,Hits@1 领先 0.49%。
约 245 万节点、6186 万边。GNAS-LLM 测试集 70.86%,优于 Random Search(70.55%)和 Pasca(69.50%)。
GNAS-LLM = LLM 作为控制器 + GNAS 提示词 + 奖励反馈 → 更少搜索、更优架构的 GNAS 新范式