Zing 论坛

正文

CTI数据集:面向网络威胁归因的混合安全数据集开源发布

一个包含26,930条记录、14个特征维度的网络安全数据集,整合攻击者动机、TTP战术技术程序、恶意软件家族、工具链、目标环境等威胁情报数据,专用于网络威胁归因研究和机器学习分类任务。

威胁情报网络归因CTA安全数据集机器学习APT分析TTP开源数据网络安全研究
发布时间 2026/05/18 15:45最近活动 2026/05/18 15:50预计阅读 2 分钟
CTI数据集:面向网络威胁归因的混合安全数据集开源发布
1

章节 01

CTI数据集开源发布:助力网络威胁归因研究与机器学习应用

CTI-dataset是一个包含26,930条记录、14个特征维度的开源混合网络安全数据集,整合攻击者动机、TTP战术技术程序、恶意软件家族等多维度威胁情报,专为网络威胁归因研究和机器学习分类任务设计,填补了高质量标注归因数据的空白,支持多种应用场景。

2

章节 02

网络威胁归因的挑战与数据稀缺现状

随着网络攻击日益复杂化,准确识别攻击来源的威胁归因(CTA)成为安全防御关键环节。然而,网络安全领域高质量标注数据稀缺,尤其是威胁归因需融合多源情报和专家知识,制约了AI技术在该领域的应用。

3

章节 03

CTI数据集的规模与14维特征体系

CTI数据集规模为26,930条记录,包含14个结构化字段,涵盖四大维度:

  1. 攻击者画像:动机、技能、来源国家、赞助方;
  2. 攻击技术:TTP、执行操作、工具、恶意软件;
  3. 目标与影响:目标国家、组织、应用、首次发现时间、攻击结果;
  4. 归因标签:CTA字段标识威胁行为者,支持监督学习。数据格式为CSV,便于导入分析工具。
4

章节 04

CTI数据集的应用场景及工具集成能力

应用场景包括:威胁行为者分类、入侵检测研究、网络归因建模、AI驱动安全分析、恶意软件预测、威胁狩猎模拟、安全意识培训。技术兼容性方面,CSV格式支持Python生态(Pandas、Scikit-learn等)、SIEM平台(Splunk、Elastic)及可视化工具(Tableau、Grafana),示例代码可快速加载数据。

5

章节 05

CTI数据集的研究价值及典型数据示例

研究价值:降低学术研究门槛(无需商业订阅)、标准化算法评估、助力教育培养、验证新算法适用性。典型数据示例:动机为政治意识形态驱动,使用Keylogger恶意软件和Empire框架,归因标签为APT组织DeepPanda,结构化表示便于分析和算法训练。

6

章节 06

CTI数据集的使用限制与伦理规范

数据集明确仅限用于教育目的、学术研究、防御性安全研究,严禁用于恶意活动,体现了网络安全数据共享的敏感性与伦理考量。

7

章节 07

CTI数据集的未来优化方向

未来将持续改进:扩展数据规模、丰富特征维度(如时间序列、基础设施信息)、提升标签质量(增加置信度评分)、对齐MITRE ATT&CK等标准框架、建立实时数据更新机制。