# 机器学习助力生物多样性保护：野外录音中的人为噪声分离技术

> 基于深度学习的人为噪声与鸟鸣声分离系统，为生态监测提供纯净的音频数据

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-03T20:15:50.000Z
- 最近活动: 2026-06-03T20:23:07.805Z
- 热度: 161.9
- 关键词: audio source separation, machine learning, biodiversity, bioacoustics, deep learning, ecological monitoring, signal processing, PyTorch, conservation technology
- 页面链接: https://www.zingnex.cn/forum/thread/geo-github-bendemeurichy-anthropogenic-sound-identification
- Canonical: https://www.zingnex.cn/forum/thread/geo-github-bendemeurichy-anthropogenic-sound-identification
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: Bendemeurichy
- **来源平台**: GitHub
- **原项目名称**: anthropogenic_sound_identification
- **原始链接**: https://github.com/Bendemeurichy/anthropogenic_sound_identification
- **项目性质**: 硕士论文研究项目
- **研究领域**: Machine Learning for Biodiversity

---

## 研究背景与问题定义

在生物多样性监测和生态研究中，野外录音是获取动物声音数据的重要手段。然而，现代环境中无处不在的人为噪声——飞机轰鸣、车辆通行、工业活动——严重污染了这些珍贵的野外录音，给自动化的物种识别和生态分析带来了巨大挑战。

传统的音频分析方法往往难以有效区分目标生物声音与背景人为噪声，导致：
- 物种识别准确率下降
- 生态数据质量受损
- 研究人员需要耗费大量时间进行人工筛选

本项目正是针对这一痛点，开发了一套基于机器学习的音频源分离与分类系统，专门用于从野外录音中分离飞机噪声和鸟鸣声。

---

## 技术方案与架构设计

### 核心任务定义

项目的核心任务是**音频源分离**(Audio Source Separation)——将混合录音分解为独立的声源成分。具体而言，系统需要：

1. 从包含飞机噪声和鸟鸣的混合录音中分离出纯净的鸟鸣声
2. 对分离后的音频进行分类和验证
3. 为后续的生物多样性分析提供高质量的数据输入

### 技术栈与依赖

- **编程语言**: Python 3.11–3.12
- **依赖管理**: Poetry
- **深度学习框架**: PyTorch
- **音频处理**: 自定义音频工具库

### 项目结构

项目采用模块化的架构设计：

```
├── configs/          # YAML配置文件，用于超参数调优
├── scripts/          # 实用脚本和HPC集群脚本
│   ├── analysis/     # 分析与可视化
│   ├── data/         # 数据准备
│   ├── demo/         # 演示入口
│   ├── hpc/          # HPC集群作业脚本(PBS)
│   ├── tuning/       # Optuna超参数调优
│   └── run_validation.py  # 统一验证运行器
├── src/              # 主程序包
│   ├── common/       # 共享工具(音频、路径、数据增强)
│   ├── activity_filter/    # 音频活动检测
│   ├── label_loading/      # 数据集特定的标签加载器(支持10+数据集)
│   ├── models/       # 分离模型
│   │   ├── base.py   # 共享BaseSeparator抽象基类
│   │   ├── clapsep/  # CLAPSep(文本提示分离)
│   │   ├── sudormrf/ # SuDoRM-RF(时域分离)
│   │   └── tuss/     # TUSS(通用源分离)
│   ├── orchestration/      # 训练编排与运行器
│   ├── pipeline/     # 端到端分离流水线
│   ├── validation_functions/  # 验证与诊断
│   └── tag_analysis/       # 标签分析
└── tests/            # 测试套件
```

---

## 核心模型详解

项目实现了三种主要的音频分离模型，每种模型针对不同的应用场景和计算资源需求：

### 1. TUSS (通用源分离)

TUSS是一种通用的音频源分离模型，能够从混合音频中分离出指定的目标声源。

**使用示例**:

```python
from models.tuss.inference import TUSSInference

# 从检查点加载模型
tuss = TUSSInference.from_checkpoint("checkpoints/best_model.pt")

# 分离音频
sources = tuss.separate("audio.wav")

# 获取感兴趣区域(COI)音频
coi = tuss.get_coi_audio(sources)

# 保存分离结果
tuss.save_audio(coi, "separated_coi.wav")
```

### 2. CLAPSep (文本提示分离)

CLAPSep模型引入了文本提示机制，允许用户通过自然语言描述来指定要分离的目标声源。这种基于语义引导的分离方式提供了更大的灵活性。

### 3. SuDoRM-RF (时域分离)

SuDoRM-RF是一种在时域直接进行音频分离的模型，避免了传统频域方法可能引入的相位失真问题。

---

## 统一验证框架

项目设计了一个统一的验证运行器，替代了原本分散的9个独立脚本，大幅简化了模型评估流程：

### TUSS飞机噪声分离验证

```bash
python scripts/run_validation.py \
    --separator tuss \
    --tuss-checkpoint path/to/best_model.pt \
    --data-csv path/to/dataset.csv \
    --classifier plane
```

### CLAPSep飞机噪声分离验证

```bash
python scripts/run_validation.py \
    --separator clapsep \
    --clapsep-checkpoint path/to/best_model.ckpt \
    --data-csv path/to/dataset.csv \
    --classifier pann_finetuned ast_finetuned
```

### TUSS鸟鸣声分离验证

```bash
python scripts/run_validation.py \
    --tuss-checkpoint path/to/best_model.pt \
    --tuss-coi-prompt birds \
    --data-csv path/to/dataset.csv \
    --classifier bird_mae audioprotopnet \
    --with-risoux
```

---

## 训练流程

每个模型都有独立的训练脚本，支持灵活的配置：

```bash
# TUSS模型训练
python src/models/tuss/train.py --config src/models/tuss/training_config.yaml

# SuDoRM-RF模型训练
python src/models/sudormrf/train.py --config src/models/sudormrf/training_config.yaml

# CLAPSep模型训练
python src/models/clapsep/train_text_coi.py --config src/models/clapsep/training_config.yaml
```

每个模型目录都包含详细的README.md，提供具体的使用说明。

---

## HPC集群支持

针对大规模数据处理和模型训练需求，项目提供了完整的HPC(高性能计算)集群支持：

- **作业调度**: PBS格式的作业脚本
- **配置指南**: scripts/hpc/README.md提供详细的集群设置说明
- **并行训练**: 支持分布式模型训练

---

## 环境配置

项目支持灵活的环境变量配置，便于适应不同的部署环境：

| 环境变量 | 默认值 | 用途 |
|---------|--------|------|
| THESIS_DATA_DIR | ../datasets | 音频数据集根目录 |
| THESIS_OUTPUT_DIR | <root>/outputs | 输出目录 |
| THESIS_CHECKPOINTS_DIR | <root>/checkpoints | 模型检查点目录 |

也可以通过`src/common/paths.py`在代码中覆盖默认配置。

---

## 应用价值与意义

### 对生物多样性研究的价值

1. **提升数据质量**: 通过去除人为噪声，获得更纯净的物种声音数据
2. **提高识别准确率**: 为后续的自动物种识别系统提供更干净的输入
3. **降低人工成本**: 减少研究人员手动筛选录音的时间投入
4. **支持长期监测**: 为大规模、长时间的生态监测项目提供技术支撑

### 技术方法的普适性

虽然本项目聚焦于飞机噪声和鸟鸣分离，但其技术框架具有较好的通用性，可以扩展应用于：
- 其他类型的人为噪声分离
- 不同物种声音的分离与识别
- 其他领域的音频源分离任务

---

## 结语

这个项目展示了机器学习技术在解决实际生态问题中的巨大潜力。通过深度学习驱动的音频源分离，我们不仅能够获得更干净的生物多样性数据，也为保护地球上珍贵的自然声音提供了一种新的技术路径。

在技术快速发展的今天，将AI技术应用于环境保护和生物多样性研究，或许是科技回馈自然的最佳方式之一。