# LLMFuxian：面向智能运维的多模态大模型机械故障诊断复现

> 复现论文《Multimodal data-enabled large model for machine fault diagnosis towards intelligent operation and maintenance》的代码仓库，专注于HUSTbearing轴承数据集的单数据集实验。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-23T08:47:55.000Z
- 最近活动: 2026-05-23T08:55:54.734Z
- 热度: 159.9
- 关键词: 故障诊断, 多模态大模型, 智能运维, 轴承数据集, 知识图谱, 零样本学习, PyTorch, 工业AI
- 页面链接: https://www.zingnex.cn/forum/thread/llmfuxian
- Canonical: https://www.zingnex.cn/forum/thread/llmfuxian
- Markdown 来源: ingested_event

---

# LLMFuxian：面向智能运维的多模态大模型机械故障诊断复现

## 原作者与来源

- **原作者/维护者**：wangwen2077-boop
- **来源平台**：GitHub
- **原始标题**：llmfuxian
- **原始链接**：https://github.com/wangwen2077-boop/llmfuxian
- **发布时间**：2026年5月23日
- **技术栈**：Python、PyTorch
- **原论文标题**：Multimodal data-enabled large model for machine fault diagnosis towards intelligent operation and maintenance

## 项目概述

LLMFuxian是一个学术论文复现项目，目标是复现《Multimodal data-enabled large model for machine fault diagnosis towards intelligent operation and maintenance》这篇论文中的方法。该项目专注于工业设备智能运维领域，利用多模态大模型技术实现机械故障的自动诊断。

当前阶段主要完成了论文中**HUSTbearing轴承数据集**的单数据集实验复现，暂不包含齿轮数据集、FRC/CAME外部基线以及完整的消融实验。

## 研究背景与意义

### 工业设备故障诊断的挑战

在现代工业生产中，旋转机械（如轴承、齿轮箱）的健康状况直接影响生产效率和安全性。传统的故障诊断方法面临以下挑战：

1. **数据异构性**：振动信号、温度、电流等多种传感器数据格式各异
2. **故障类型复杂**：从单一故障到复合故障，模式多样
3. **标注数据稀缺**：故障样本难以获取，特别是复合故障场景
4. **跨工况泛化**：不同转速、负载条件下的模型迁移困难

### 多模态大模型的解决思路

论文提出的LMM-FD（Large Multimodal Model for Fault Diagnosis）方法，将大语言模型的知识理解能力与时间序列分析相结合，通过知识图谱增强实体表示，实现零样本复合故障诊断能力。

## 当前复现状态

项目已完成以下核心功能：

### 数据预处理

- HUSTbearing数据读取与解析
- `.xls`原始文件按制表符文本解析
- `20Hz / 40Hz / 60Hz`三种工况筛选
- 振动信号`X/Y/Z`三轴窗口分段处理

### 数据集划分策略

采用精心设计的训练/测试划分策略：

- **训练/测试数据**：健康状态（healthy）+ 单一故障（single-fault）
- **零样本验证**：复合故障（compound fault）时间序列单独隔离

这种设计模拟了真实工业场景——复合故障样本稀少，模型需要在未见过的复合故障类型上进行零样本推理。

### 知识图谱构建

项目实现了两种知识图谱构造：

1. **时间序列-文本三元组知识图谱**：将振动信号特征与故障描述文本关联
2. **复合故障文本知识图谱**：专门处理复合故障的语义关系

### 模型训练与评估

- 简化版LMM-FD模型训练
- 多目标训练策略：`LE2E` + `LE2R` + `LG2E`
- GNN（图神经网络）增强实体表示
- 支持论文Table 8风格的评估指标输出

### 评估指标

项目实现了论文中的关键评估指标：

| 指标 | 含义 |
|------|------|
| Top-1 | 排名第一的预测准确率 |
| Top-3 | 排名前三的预测包含正确答案的比例 |
| E2E Top-1 | 实体到实体映射的Top-1准确率 |
| E2R Top-1 | 实体到关系映射的Top-1准确率 |

## 数据类别映射

HUSTbearing数据集包含以下故障类型：

| 文件前缀 | 故障类型 |
|---------|---------|
| `H_*` | 健康/正常状态 |
| `I_*` | 严重内圈故障 |
| `O_*` | 严重外圈故障 |
| `B_*` | 严重滚珠故障 |
| `C_*` | 严重复合故障（内圈+外圈） |
| `0.5X_I_*` | 中度内圈故障 |
| `0.5X_O_*` | 中度外圈故障 |
| `0.5X_B_*` | 中度滚珠故障 |
| `0.5X_C_*` | 中度复合故障（内圈+外圈） |

**重要说明**：训练和测试阶段不使用`C_*`和`0.5X_C_*`的时间序列数据，复合故障时间序列专门用于零样本验证，以测试模型的泛化能力。

## 技术架构

### 核心组件

```
llmfuxian/
├── scripts/
│   └── smoke_test.py          # 数据和图谱冒烟测试
├── lmmfd_hust/
│   ├── train.py               # 训练脚本
│   └── ...                    # 模型实现
├── requirements.txt           # Python依赖
└── README.md                  # 项目文档
```

### 依赖环境

建议使用虚拟环境：

```bash
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
```

主要依赖包括：

- `numpy`：数值计算
- `pandas`：数据处理
- `scikit-learn`：机器学习工具
- `torch`：深度学习框架
- `tqdm`：进度条显示

## 使用方法

### 快速验证

首先运行数据和图谱冒烟测试：

```bash
python3 scripts/smoke_test.py --max-segments-per-file 1
```

预期输出应包含：

```
target_files=27
smoke_test=passed
```

### 训练复现

小规模训练测试：

```bash
python3 -m lmmfd_hust.train \
    --data-dir ./HUSTbearing/raw_data \
    --epochs 10 \
    --batch-size 32
```

## 技术创新点

### 1. 多模态融合

项目将时间序列振动信号与文本知识相结合，利用大语言模型的语义理解能力增强故障诊断的准确性。

### 2. 知识图谱增强

通过构建时间序列-文本三元组知识图谱，模型能够利用领域知识进行推理，而不仅仅依赖统计模式匹配。

### 3. 零样本复合故障诊断

最关键的创新是零样本复合故障诊断能力。通过在训练阶段排除复合故障样本，模型必须学会利用单一故障的知识组合推理出复合故障的类型。

### 4. 多目标训练策略

`LE2E`（实体到实体学习）、`LE2R`（实体到关系学习）、`LG2E`（图到实体学习）三种训练目标的组合，使模型同时掌握多种推理能力。

## 应用价值

### 工业智能运维

该项目的技术可直接应用于：

- **预测性维护**：提前识别设备潜在故障，避免非计划停机
- **故障根因分析**：不仅识别故障类型，还能解释故障原因
- **知识传承**：将专家经验编码为知识图谱，实现知识沉淀

### 跨领域迁移

虽然当前专注于轴承故障诊断，但该方法可迁移到：

- 齿轮箱故障诊断
- 电机故障检测
- 泵阀健康监测
- 其他旋转机械设备

## 局限性与未来工作

### 当前限制

1. **单数据集**：目前仅支持HUSTbearing数据集
2. **单一设备类型**：仅针对轴承，未包含齿轮等其它设备
3. **缺少对比实验**：FRC/CAME等外部基线尚未实现
4. **消融实验不完整**：各组件贡献度的详细分析待补充

### 未来方向

- 扩展至齿轮数据集
- 实现完整的消融实验
- 添加更多对比基线方法
- 优化模型推理效率
- 开发可视化工具

## 总结

LLMFuxian项目代表了工业AI领域的一个重要方向——将大语言模型的强大理解能力与工业时间序列分析相结合。通过知识图谱增强和零样本学习，该方法有望解决传统故障诊断方法在复合故障识别和跨工况泛化方面的难题。

对于从事工业智能运维、预测性维护、设备健康管理的工程师和研究人员，该项目提供了一个可复现、可扩展的研究基础。
