正文

CTI数据集：面向网络威胁归因的混合安全数据集开源发布

一个包含26,930条记录、14个特征维度的网络安全数据集，整合攻击者动机、TTP战术技术程序、恶意软件家族、工具链、目标环境等威胁情报数据，专用于网络威胁归因研究和机器学习分类任务。

威胁情报网络归因CTA安全数据集机器学习APT分析TTP开源数据网络安全研究

发布时间 2026/05/18 15:45最近活动 2026/05/18 15:50预计阅读 2 分钟

章节 01

CTI数据集开源发布：助力网络威胁归因研究与机器学习应用

CTI-dataset是一个包含26,930条记录、14个特征维度的开源混合网络安全数据集，整合攻击者动机、TTP战术技术程序、恶意软件家族等多维度威胁情报，专为网络威胁归因研究和机器学习分类任务设计，填补了高质量标注归因数据的空白，支持多种应用场景。

章节 02

网络威胁归因的挑战与数据稀缺现状

随着网络攻击日益复杂化，准确识别攻击来源的威胁归因（CTA）成为安全防御关键环节。然而，网络安全领域高质量标注数据稀缺，尤其是威胁归因需融合多源情报和专家知识，制约了AI技术在该领域的应用。

章节 03

CTI数据集的规模与14维特征体系

CTI数据集规模为26,930条记录，包含14个结构化字段，涵盖四大维度：

攻击者画像：动机、技能、来源国家、赞助方；
攻击技术：TTP、执行操作、工具、恶意软件；
目标与影响：目标国家、组织、应用、首次发现时间、攻击结果；
归因标签：CTA字段标识威胁行为者，支持监督学习。数据格式为CSV，便于导入分析工具。

章节 04

CTI数据集的应用场景及工具集成能力

应用场景包括：威胁行为者分类、入侵检测研究、网络归因建模、AI驱动安全分析、恶意软件预测、威胁狩猎模拟、安全意识培训。技术兼容性方面，CSV格式支持Python生态（Pandas、Scikit-learn等）、SIEM平台（Splunk、Elastic）及可视化工具（Tableau、Grafana），示例代码可快速加载数据。

章节 05

CTI数据集的研究价值及典型数据示例

研究价值：降低学术研究门槛（无需商业订阅）、标准化算法评估、助力教育培养、验证新算法适用性。典型数据示例：动机为政治意识形态驱动，使用Keylogger恶意软件和Empire框架，归因标签为APT组织DeepPanda，结构化表示便于分析和算法训练。

章节 06

CTI数据集的使用限制与伦理规范

数据集明确仅限用于教育目的、学术研究、防御性安全研究，严禁用于恶意活动，体现了网络安全数据共享的敏感性与伦理考量。

章节 07

CTI数据集的未来优化方向

未来将持续改进：扩展数据规模、丰富特征维度（如时间序列、基础设施信息）、提升标签质量（增加置信度评分）、对齐MITRE ATT&CK等标准框架、建立实时数据更新机制。

CTI数据集：面向网络威胁归因的混合安全数据集开源发布

CTI数据集开源发布：助力网络威胁归因研究与机器学习应用

网络威胁归因的挑战与数据稀缺现状

CTI数据集的规模与14维特征体系

CTI数据集的应用场景及工具集成能力

CTI数据集的研究价值及典型数据示例

CTI数据集的使用限制与伦理规范

CTI数据集的未来优化方向

继续阅读

SignalCut：将AI搜索可见性缺口转化为视频营销活动的智能工具

AWS开源AI搜索引用分析系统：追踪品牌在AI搜索引擎中的曝光度

Next.js 应用的 SEO 与 GEO 一体化优化方案：从搜索引擎到 AI 助手的全面可见性

百原GEO Platform技术白皮书：生成式引擎优化（GEO）的SaaS工程实践