章节 01
【导读】大语言模型在网络安全XAI中的角色探索
本文是一项探索大语言模型(LLM)在网络安全领域支持可解释AI(XAI)能力的实证研究,对比了LLM与传统SHAP/LIME方法的效果差异。核心问题是LLM能否可靠替代或增强传统XAI方法,研究通过实验设计和人工评估,揭示了LLM解释的幻觉问题及传统XAI数据的关键作用,并给出了使用LLM进行XAI的最佳实践。
正文
一项探索大语言模型在网络安全领域支持可解释AI(XAI)能力的实证研究,对比了LLM与传统SHAP/LIME方法的效果差异。
章节 01
本文是一项探索大语言模型(LLM)在网络安全领域支持可解释AI(XAI)能力的实证研究,对比了LLM与传统SHAP/LIME方法的效果差异。核心问题是LLM能否可靠替代或增强传统XAI方法,研究通过实验设计和人工评估,揭示了LLM解释的幻觉问题及传统XAI数据的关键作用,并给出了使用LLM进行XAI的最佳实践。
章节 02
机器学习模型在网络安全领域应用广泛(如入侵检测、恶意软件分析),但多以“黑盒”形式运作,决策过程难以理解。在高风险的网络安全场景中,可解释性是信任和行动依据的核心需求——安全分析师需理解模型决策原因,缺乏解释的预测难以指导实际响应。
章节 03
实验使用三个网络安全数据集:Network_logs.csv(网络流量特征与异常标记)、cybersecurity_intrusion_data.csv(入侵检测特征与标签)、KDD Cup数据集(经典入侵检测基准)。
选用GPT-5(闭源)和GPT-OSS-20B(开源)两个代表性LLM。
章节 04
纯LLM解释存在严重幻觉:
加入SHAP/LIME数据后,解释连贯性、对齐度提升,幻觉大幅减少。
38名参与者偏好:
用户需求启示:准确性与可理解性需平衡,LLM增强方法是可行路径。
章节 05
基于研究发现,提出使用LLM进行XAI的最佳实践:
章节 06
未来方向:多模态解释、XAI优化LLM、标准化评估基准。
章节 07
LLM虽强大,但非万能。在XAI场景中,盲目信任LLM易导致幻觉;其真正价值是作为传统XAI方法的“解释层”,转化技术输出为可理解知识。建议组织在集成LLM时,结合SHAP/LIME等传统方法,平衡准确性与可理解性。