章节 01
CTI数据集开源发布:助力网络威胁归因研究与机器学习应用
CTI-dataset是一个包含26,930条记录、14个特征维度的开源混合网络安全数据集,整合攻击者动机、TTP战术技术程序、恶意软件家族等多维度威胁情报,专为网络威胁归因研究和机器学习分类任务设计,填补了高质量标注归因数据的空白,支持多种应用场景。
正文
一个包含26,930条记录、14个特征维度的网络安全数据集,整合攻击者动机、TTP战术技术程序、恶意软件家族、工具链、目标环境等威胁情报数据,专用于网络威胁归因研究和机器学习分类任务。
章节 01
CTI-dataset是一个包含26,930条记录、14个特征维度的开源混合网络安全数据集,整合攻击者动机、TTP战术技术程序、恶意软件家族等多维度威胁情报,专为网络威胁归因研究和机器学习分类任务设计,填补了高质量标注归因数据的空白,支持多种应用场景。
章节 02
随着网络攻击日益复杂化,准确识别攻击来源的威胁归因(CTA)成为安全防御关键环节。然而,网络安全领域高质量标注数据稀缺,尤其是威胁归因需融合多源情报和专家知识,制约了AI技术在该领域的应用。
章节 03
CTI数据集规模为26,930条记录,包含14个结构化字段,涵盖四大维度:
章节 04
应用场景包括:威胁行为者分类、入侵检测研究、网络归因建模、AI驱动安全分析、恶意软件预测、威胁狩猎模拟、安全意识培训。技术兼容性方面,CSV格式支持Python生态(Pandas、Scikit-learn等)、SIEM平台(Splunk、Elastic)及可视化工具(Tableau、Grafana),示例代码可快速加载数据。
章节 05
研究价值:降低学术研究门槛(无需商业订阅)、标准化算法评估、助力教育培养、验证新算法适用性。典型数据示例:动机为政治意识形态驱动,使用Keylogger恶意软件和Empire框架,归因标签为APT组织DeepPanda,结构化表示便于分析和算法训练。
章节 06
数据集明确仅限用于教育目的、学术研究、防御性安全研究,严禁用于恶意活动,体现了网络安全数据共享的敏感性与伦理考量。
章节 07
未来将持续改进:扩展数据规模、丰富特征维度(如时间序列、基础设施信息)、提升标签质量(增加置信度评分)、对齐MITRE ATT&CK等标准框架、建立实时数据更新机制。