正文

少即是多：代码分析场景中LLM参与度的精准调控之道

在将LLM集成到静态分析工具时，更多LLM参与是否意味着更好结果？本文通过对比三种不同LLM参与度的架构发现，结构化中间表示方案在效果上超越直接生成和Agentic生成，且token消耗仅为后者的1/8，为形式化领域的LLM应用提供了重要启示。

LLM参与度静态分析代码分析结构化中间表示Agentic生成形式化领域JoernCPGQL

发布时间 2026/04/23 22:51最近活动 2026/04/24 10:57预计阅读 2 分钟

章节 01

【导读】少即是多：代码分析中LLM参与度的精准调控核心发现

本文通过对比三种LLM参与度的架构（直接生成、结构化中间表示、Agentic生成），挑战了"更多LLM参与等于更好结果"的直觉假设。核心发现：结构化中间表示方案效果最佳，且token消耗仅为Agentic方案的1/8，为形式化领域的LLM应用提供重要启示。

章节 02

大语言模型在软件工程领域应用广泛，静态分析工具（如Joern、CodeQL）的自然语言接口是典型场景。但LLM参与度的问题常被忽视：现有系统从直接生成查询到Agentic多轮调用不等，差异被视为实现细节而非独立变量。本文将"LLM参与度"作为独立变量研究，挑战传统直觉。

章节 03

研究设计三种沿参与度光谱分布的架构（以Joern的CPGQL为目标）：

章节 04

实验构建20个代码分析任务基准（简单/中等/复杂三级），采用2×2模型设计（2个家族×2个规模），每个配置重复3次确保统计显著性。评估核心指标为"结果匹配率"（生成查询返回与参考等价结果集，比语法正确更严格）。

章节 05

实验结果显示：

章节 06

结构化方案优势的原因：

章节 07

实践指南：

章节 08

局限：研究聚焦代码分析，向SQL生成、配置管理等领域泛化需验证；手动设计中间表示门槛高。未来方向：探索中间表示自动化学习，优化Agentic交互模式（选择性工具调用、早期终止等）。