Zing 论坛

正文

MACyber:面向网络安全的多源对齐基准测试与专用大语言模型

MACyber项目提供了MACyber-INT多源对齐网络安全基准测试集和MACyber-12B专用大语言模型,涵盖网络流量、IoT、系统日志、DNS、Web安全、漏洞情报和威胁情报七大领域,为网络安全领域的AI模型评估提供了标准化工具集。

网络安全基准测试大语言模型威胁情报RAGAI安全漏洞检测入侵检测
发布时间 2026/05/26 17:45最近活动 2026/05/26 17:49预计阅读 3 分钟
MACyber:面向网络安全的多源对齐基准测试与专用大语言模型
1

章节 01

导读 / 主楼:MACyber:面向网络安全的多源对齐基准测试与专用大语言模型

MACyber项目提供了MACyber-INT多源对齐网络安全基准测试集和MACyber-12B专用大语言模型,涵盖网络流量、IoT、系统日志、DNS、Web安全、漏洞情报和威胁情报七大领域,为网络安全领域的AI模型评估提供了标准化工具集。

2

章节 02

原作者与来源

  • 原作者/维护者: qcydm
  • 来源平台: GitHub
  • 原始标题: MACyber: Multi-Source Aligned Cybersecurity Benchmark (MACyber-INT) and Large Language Model (MACyber-12B)
  • 原始链接: https://github.com/qcydm/MACyber
  • 发布时间: 2026年5月26日
3

章节 03

项目概述

MACyber是一个专注于网络安全领域的综合性开源项目,由两部分核心组件构成:MACyber-INT基准测试集和MACyber-12B大语言模型。该项目旨在解决网络安全领域AI模型缺乏标准化评估工具的问题,为研究人员和从业者提供结构化的安全情报数据评估框架。

在当今数字化时代,网络安全威胁日益复杂,传统的基于规则的安全系统难以应对新型攻击手段。大语言模型在网络安全领域的应用潜力巨大,但缺乏针对性的基准测试来评估其真实能力。MACyber项目填补了这一空白,通过多源数据对齐的方式,构建了一个覆盖七个关键安全领域的综合评估体系。

4

章节 04

基准测试架构

MACyber-INT基准测试集包含31个数据集,按照七个高层级安全领域进行组织:

5

章节 05

七大安全领域

  1. 网络流量安全(Network Traffic Security) 涵盖网络通信层面的威胁检测,包括异常流量识别、入侵检测等场景。

  2. 物联网安全(IoT Security) 针对物联网设备的特殊安全需求,评估模型在IoT威胁识别方面的能力。

  3. 系统日志安全(System Log Security) 通过分析系统日志发现潜在的安全事件和异常行为。

  4. DNS安全威胁(DNS Security Threat) 专注于DNS层面的攻击检测,包括DNS隧道、DDoS攻击等。

  5. Web安全威胁(Web Security Threat) 覆盖Web应用层面的各类攻击,如SQL注入、XSS、CSRF等。

  6. 漏洞情报(Vulnerability Intelligence) 评估模型对已知漏洞的理解和新型漏洞的识别能力。

  7. 威胁情报(Threat Intelligence) 综合性的威胁信息分析,包括攻击者画像、攻击手法识别等。

6

章节 06

数据模式设计

MACyber采用了结构化的JSON数据模式,每个样本包含以下关键字段:

  • 元数据(meta):包含类别和子类别信息,用于数据分类和检索
  • 特征数据(json):存储具体的安全特征,如网络流量特征、日志字段等
  • 标签信息(label):包含官方威胁标签和严重程度分级(良性/可疑/低/中/高)
  • 推理过程(reasoning):提供证据链和分析逻辑,这是MACyber的一大特色
  • 响应建议(response):包含建议的处置动作(无操作/监控/阻断)及理由

这种设计不仅提供了标准的输入输出格式,更重要的是包含了可解释的推理过程,使得模型评估不仅关注结果准确性,还关注推理逻辑的合理性。

7

章节 07

MACyber-12B模型

项目还提供了MACyber-12B大语言模型,这是一个专门为网络安全领域训练的模型。该模型包含两个重要组件:

8

章节 08

CyberLoRA

针对网络安全任务优化的低秩适配器,通过在基础大模型上注入网络安全领域的专业知识,提升模型在安全相关任务上的表现。