正文

基於 BERT 的開源漏洞自動檢測：從 DiverseVul 資料集到實務應用

Sameera Ali 開發的開源專案，利用 BERT 模型在 DiverseVul 資料集上進行三階段漸進式訓練，實現 C/C++ 程式碼漏洞的自動化檢測，為開源軟體安全提供可落地的 AI 解決方案。

漏洞檢測BERTDiverseVul程式碼安全靜態分析開源安全PyTorchHuggingFaceC/C++機器學習

发布时间 2026/05/24 17:12最近活动 2026/05/24 17:22预计阅读 3 分钟

章节 01

基於BERT的開源漏洞自動檢測專案導讀

Sameera Ali開發的開源專案，利用BERT模型在DiverseVul資料集上進行三階段漸進式訓練，實現C/C++程式碼漏洞的自動化檢測，為開源軟體安全提供可落地的AI解決方案。

原作者/維護者：Sameera Ali
來源平台：GitHub
原始標題：LLM_vulnerability_detection-open_source_vulnerability_detection
原始連結：https://github.com/alisameera/LLM_vulnerability_detection-open_source_vulnerability_detection
來源發布時間：2026-05-24

章节 02

專案背景與問題意識

在開源軟體生態系統中，安全漏洞的檢測一直是耗時且需高度專業知識的工作。傳統靜態分析工具雖能發現常見漏洞模式，但面對複雜程式邏輯和新型攻擊手法時力不從心。隨著大型語言模型（LLM）技術成熟，利用AI自動化漏洞檢測成為promising的研究方向。本專案選擇DiverseVul資料集作為訓練基礎，該資料集包含真實世界C/C++函數級漏洞標註，涵蓋多種常見安全漏洞類型。

章节 03

核心技術架構與訓練策略

模型選擇

採用bert-base-uncased作為基礎模型，理由：通用且易取得，有效驗證「自然語言處理技術遷移至程式碼分析」的核心假設，為後續與CodeBERT的比較實驗留空間。

三階段漸進式訓練

Pilot（試點驗證）：200筆資料，1 epoch，最大序列長度64 tokens，快速驗證pipeline可行性。
Scaled（規模擴展）：5000筆資料，2 epochs，最大序列長度128 tokens，調整超參數，捕捉複雜漏洞模式。
Full（完整訓練）：DiverseVul完整資料集，3 epochs，最大序列長度512 tokens，達最佳檢測性能。此策略優勢：降低實驗失敗風險與計算資源浪費。

章节 04

資料處理流程與技術棧

資料處理流程

原始資料載入：從DiverseVul CSV讀取C/C++函數程式碼與漏洞標籤。
預處理：移除空值、格式化字串、標籤編碼（0=安全，1=漏洞）。
Tokenization：使用bert-base-uncased tokenizer分詞（填充+截斷）。
模型微調：AutoModelForSequenceClassification進行二元分類訓練。
評估：70/30訓練測試分割，以準確率和加權F1分數為指標。

技術棧

深度學習框架：PyTorch
NLP工具：HuggingFace Transformers、Datasets、Evaluate
資料處理：Pandas
開發環境：Jupyter Notebook、Python 3.x

章节 05

漏洞檢測能力與當前局限

檢測能力範圍

可識別多種常見漏洞類型：

硬編碼憑證
SQL注入
緩衝區溢位
跨站腳本攻擊（XSS）
使用過時/不安全函數（如strcpy、gets）

當前局限

BERT上下文窗口限制，難以捕捉跨函數漏洞模式。
對與漏洞模式相似的安全程式碼可能產生誤報。
使用CodeBERT或領域特定預訓練可進一步提升F1分數。

章节 06

未來展望與專案價值總結

未來方向

以CodeBERT取代BERT，獲取更適合程式碼的嵌入表示。
整合進CI/CD pipeline，實現Pull Request即時掃描。
增加CWE類別分類，實現多標籤預測。
與現有靜態分析工具（CodeQL、Bandit）進行效果比較。

專案價值

將學術研究成果（DiverseVul資料集）轉化為可執行開源工具。
提供「AI輔助程式碼安全分析」的基線方案。
為進入程式碼智能領域的開發者提供優秀入門參考。
助力軟體供應鏈安全，成為開發流程標配工具的起點。