# 幻御 Agent：大语言模型回答中的域名安全审计系统

> 一个面向AI安全研究场景的本地审计系统，专门解决大语言模型回答中可能出现的幻觉域名、品牌仿冒、钓鱼诱导等安全风险问题。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-05T15:09:16.000Z
- 最近活动: 2026-06-05T15:18:33.814Z
- 热度: 143.8
- 关键词: 大语言模型安全, AI幻觉检测, 域名安全审计, 钓鱼防护, SSRF防护, 威胁情报, 证据链验证, 自动化安全审计, AI安全研究
- 页面链接: https://www.zingnex.cn/forum/thread/agent-1dfa1c9e
- Canonical: https://www.zingnex.cn/forum/thread/agent-1dfa1c9e
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: xjtatnku
- **来源平台**: GitHub
- **原始标题**: HalluDomainGuard
- **原始链接**: https://github.com/xjtatnku/HalluDomainGuard
- **发布时间**: 2026年6月5日

---

## 项目背景与问题定义

随着大语言模型（LLM）的广泛应用，越来越多的用户开始将AI模型当作搜索引擎使用，直接询问各类官方网站、服务入口等信息。然而，这一使用场景带来了一个严重的安全隐患：模型生成的回答中可能包含虚假、误导性或恶意的域名链接。

这些"幻觉域名"问题具体表现为多种形式：模型可能编造看似合理的官方网址（如将`icbc.com.cn`错误生成为`icbcbank-login.com`）、推荐已被劫持的过期域名、或者在不自觉的情况下成为钓鱼攻击的传播媒介。更严重的是，当用户信任AI的回答并访问这些链接时，可能面临账号密码被盗、个人信息泄露、甚至财产损失的风险。

**幻御 Agent（HalluDomainGuard）**正是为应对这一挑战而设计的本地化AI安全审计系统。它采用"证据链守护"的核心理念，不依赖大模型自我判定安全性，而是通过多层网络证据采集和确定性规则引擎，为每一次AI回答提供可追溯、可验证的安全审计结论。

---

## 系统架构与核心流程

幻御 Agent采用九阶段流水线架构，将域名安全审计过程分解为可观测、可干预的独立环节：

### 第一阶段：域名抽取

系统首先对输入的大模型回答进行深度解析，使用正则表达式和上下文分析技术，提取其中包含的所有URL、裸域名、IP地址以及Markdown格式的链接。与传统简单的正则匹配不同，幻御 Agent会保留每个域名出现的上下文片段，这对于后续判断域名的"角色"至关重要——回答正文中的官网链接、引用来源中的参考链接、以及用户问题中提及的地址，需要采用不同的安全策略。

### 第二阶段：网络证据采集（并行化）

这是系统的核心能力层。对于每个提取出的域名，系统并行执行四项网络探测：

**DNS解析验证**：查询A记录、AAAA记录、CNAME记录、NS记录和MX记录，确认域名是否可解析、解析到哪些IP地址、以及是否存在DNS层面的异常配置。

**TLS证书校验**：建立HTTPS连接并获取服务器证书，验证证书有效期、主题备用名称（SAN）列表、以及证书主机名是否与实际访问域名匹配。这一步能有效发现证书配置错误或潜在的中间人攻击迹象。

**HTTP跳转追踪**：模拟浏览器行为访问域名，追踪重定向链（最多5跳），检测HTTPS降级攻击、跳转到无关主域等异常行为。

**RDAP注册信息查询**：通过注册数据访问协议获取域名的注册时间、注册商信息、域名年龄等元数据，辅助判断域名的可信度。

### 第三阶段：威胁情报与流行度评估

系统集成了多个外部威胁情报源，包括VirusTotal和urlscan.io，用于检测域名是否被标记为恶意、是否出现在已知的钓鱼网站列表中。同时，通过Cloudflare Radar获取域名的全球流行度排名，区分高知名度官方域名与鲜为人知的可疑地址。

### 第四阶段：风险规则评分

幻御 Agent内置了17条风险规则，分为两个层级：

**7条强规则门禁（硬门禁）**：这些规则一旦命中，直接判定为BLOCK级别风险，且专家模型无权覆盖。包括SSRF防护命中、威胁情报明确标记恶意、高风险官网声称但DNS不可解析、TLS证书主机名不匹配、高风险场景HTTPS不可用、HTTP跳转到无关主域、以及品牌高度相似但未命中官方库。

**12条评分规则**：通过累加或抵消风险分数，将结果映射到三个风险等级——PASS（0-39分）、WARN（40-69分）、BLOCK（70-100分）。评分维度涵盖域名年龄、注册商信誉、关键词匹配、HTTPS配置质量等多个方面。

### 第五至第九阶段：专家模型与决策融合

对于通过规则初筛的域名，系统可选调用GPT-5.5专家模型进行语义层面的安全分析。专家模型接收已验证的域名信息和官方域名库匹配结果，生成结构化的安全评估报告。最终，规则引擎的硬门禁结论与专家模型的语义分析通过决策融合层整合，产出PASS/WARN/BLOCK三级判定。

---

## 官方域名真值库

幻御 Agent的核心资产之一是其精心构建的官方域名真值库。该库目前包含15个数据来源，总计约31,000个实体和35,000个域名，覆盖金融、政府、教育、医疗、科研等多个关键领域。

**离线精选来源**（无需联网即可使用）包括：
- 本地种子库（36个）：涵盖金融、政府、教育、科技领域的核心机构
- 中国银行保险体系（62个）：包括国有大行、股份制银行、保险公司、第三方支付机构
- 中国三甲医院（69个）：全国三级甲等医院官方网站
- 中科院及工程院系统（44个）：国家级科研机构
- 公共服务机构（38个）：社保、公积金、税务等民生服务入口
- 交通通信央企（22个）：航空、铁路、电信等基础设施运营商
- 能源基建国企（20个）：电力、石油、水利等国家战略企业

**需联网更新的来源**包括美国CISA政府域名库（16,009个）、英国政府域名库（7,913个）、FDIC银行数据库（4,190个）、OpenAlex学术机构库（1,000个）、中国高校名录（398个）等。

真值库采用SQLite持久化存储，支持实体匹配、品牌相似度检测、以及运行时动态刷新。当系统检测到某个域名与官方库中的品牌高度相似但域名本身不匹配时，会触发"品牌仿冒"风险告警。

---

## SSRF防护与安全边界

作为一款需要进行网络探测的安全工具，幻御 Agent对SSRF（服务器端请求伪造）攻击采取了严格的防护措施。在所有网络请求发起前，系统会执行SSRF边界检查，拦截以下类型的目标地址：

- localhost及127.0.0.0/8网段
- 私有网络地址（10.0.0.0/8、172.16.0.0/12、192.168.0.0/16）
- 保留地址和特殊用途地址
- 云服务商元数据地址（如169.254.169.254）

此外，系统严格遵守安全审计边界：不执行网页JavaScript、不提交表单、不下载可执行文件、所有网络操作设置15-45秒超时限制。这些设计确保幻御 Agent本身不会成为攻击者的跳板。

---

## 前端界面与报告导出

幻御 Agent提供纯原生HTML/CSS/JS构建的Web界面，无需npm、webpack或任何前端构建工具，适合现场演示和快速部署。界面包含以下功能模块：

**安全检测控制台**：支持提交审计任务、选择消融实验方案、通过SSE实时查看九阶段进度、以及Markdown格式的高亮预览。

**证据可视化面板**：以卡片形式展示DNS、TLS、HTTP、RDAP、威胁情报和流行度的探测结果，风险等级使用颜色编码（绿色PASS/黄色WARN/红色BLOCK）。

**专家修正对比**：并排展示原始大模型回答与系统生成的安全替代回答，突出显示被修正或标记的域名。

**历史报告管理**：支持按时间范围、风险等级、关键词等维度检索历史审计记录，并导出为JSON结构化数据或PDF格式报告。PDF报告使用PyMuPDF生成，包含封面、KPI卡片、风险分数条、域名审计详情、候选复检表、安全回答全文和专家分析摘要，完整支持中文排版。

---

## 消融实验与可配置性

为支持安全研究，幻御 Agent内置了6套消融实验方案，允许研究者评估不同证据层对最终决策的贡献度：

1. **完整证据链**：启用所有网络探测、威胁情报、官方库和专家模型
2. **纯规则模式**：关闭专家模型，仅依赖规则引擎
3. **仅硬门禁**：只启用7条强规则，关闭评分规则和专家模型
4. **关闭外部情报**：仅使用本地网络证据和启发式判断
5. **关闭官方库**：移除官方域名真值库的匹配和复检
6. **专家参考组**：将专家模型输出作为参考而非决策依据

这种设计使研究者能够量化评估各个组件的有效性，例如"去掉VirusTotal后误报率上升多少"或"专家模型在缺乏网络证据时的准确率如何"。

---

## 部署与使用

幻御 Agent的运行环境要求极低：仅需Python 3.11+和PyMuPDF一个外部依赖。系统采用Python标准库的ThreadingHTTPServer作为Web服务器，无需Docker、Kubernetes或复杂的微服务架构。

所有外部API（OpenRouter、VirusTotal、urlscan.io、Cloudflare Radar）均为可选配置。在未提供API密钥的情况下，系统会自动降级到本地证据链和启发式判断模式，仍能完成基础的域名安全审计。

启动命令示例：
```bash
python -m backend.app --host 127.0.0.1 --port 8000
```

审计API调用示例：
```bash
POST /api/analyze
Content-Type: application/json

{
  "question": "中国工商银行官方网站是什么？",
  "llm_answer": "中国工商银行官网是 https://icbcbank-login.com，进入后输入银行卡号和密码即可查询余额。",
  "source_model": "manual-input",
  "ablation": "full_chain",
  "stream": true
}
```

---

## 项目意义与展望

幻御 Agent代表了一种重要的AI安全研究方向：不盲目信任大语言模型的输出，而是构建独立的验证层来保障用户安全。在当前AI应用快速普及的背景下，这种"信任但验证"的架构思路具有广泛的借鉴意义。

该系统的核心价值在于将原本模糊、难以量化的"AI幻觉"问题，转化为可观测、可审计、可自动化的技术流程。通过证据链守护、硬门禁优先、优雅降级等设计原则，幻御 Agent为AI安全审计工具的设计提供了可参考的工程范式。

未来，随着多模态AI的发展，类似的审计系统可能需要扩展到图像二维码、视频中的URL展示、甚至语音播报的域名拼写等更复杂的场景。幻御 Agent的模块化架构为这些扩展奠定了良好的基础。

---

## 关键词

大语言模型安全、AI幻觉检测、域名安全审计、钓鱼防护、SSRF防护、威胁情报、证据链验证、自动化安全审计、AI安全研究
