# gaze-model：基于多模态粒子滤波器的千赫兹二维视线追踪技术

> 一种利用扫描检眼镜和粒子滤波技术实现高速二维视线重建的开源研究项目，解决了传统单假设追踪器在高采样率下的空间混叠问题。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-11T23:55:09.000Z
- 最近活动: 2026-06-12T00:21:29.717Z
- 热度: 139.6
- 关键词: gaze tracking, particle filter, ophthalmoscope, eye tracking, computer vision, signal processing, neuroscience
- 页面链接: https://www.zingnex.cn/forum/thread/gaze-model
- Canonical: https://www.zingnex.cn/forum/thread/gaze-model
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: strangecradles
- **来源平台**: GitHub
- **原始标题**: gaze-model
- **原始链接**: https://github.com/strangecradles/gaze-model
- **发布时间**: 2026年6月

---

## 研究背景

视线追踪技术在眼科诊断、神经科学研究和人机交互领域有着广泛应用。传统的视线追踪方法通常基于单假设模型（如 argmax 或卡尔曼滤波器），这些方法在高采样率下容易受到空间混叠（spatial aliasing）的影响，导致追踪精度下降。

扫描检眼镜（Scanning Ophthalmoscope）能够以极高的速率采集眼部图像，为千赫兹级别的视线追踪提供了数据基础。然而，如何从这些高速扫描数据中提取准确的视线位置，仍然是一个技术挑战。

## 核心技术创新

### 多模态粒子滤波器

`gaze-model` 项目采用了一种创新的多模态粒子滤波器（Multimodal Particle Filter）方法，将每条快速扫描线转换为视线估计。该方法通过分析-合成（analysis-by-synthesis）框架实现：

1. **粒子渲染**：每个粒子从最近帧渲染出它会产生的那条扫描线
2. **眼动先验**：眼动先验（包括扫视主序列）传播粒子云
3. **二维配准**：当外观信息变得不充分时，慢速二维配准重新锚定估计

这种多模态方法有效解决了单假设追踪器在高采样率下的空间混叠问题，实现了更鲁棒的视线重建。

## 技术组件架构

项目由多个协同工作的 Python 模块组成：

| 模块 | 功能描述 |
|------|----------|
| `filter.py` | 多模态粒子滤波器（预测/权重/估计/重采样） |
| `dynamics.py` | 交互多模型先验（追踪扫视 + 扫视主序列） |
| `decoder.py` | 冻结可微分线条渲染器（atlas ↔ 线条） |
| `likelihood.py` | 物理外观似然（别名感知分数） |
| `khz2d_methods.py` | M0–M5 候选方法和基准测试框架 |
| `losses.py`, `train.py` | 自监督损失 + 可选学习似然 |

## 技术实现细节

### 分析-合成框架

分析-合成（Analysis-by-Synthesis）是计算机视觉中的经典方法，其核心思想是通过生成模型来理解观测数据。在 `gaze-model` 中：

- **分析阶段**：从扫描线数据中提取特征
- **合成阶段**：使用眼动模型生成预期的扫描线外观
- **比较阶段**：通过似然函数评估观测与预期的匹配程度

### 粒子滤波的优势

相比传统的卡尔曼滤波，粒子滤波能够：

1. **处理非线性系统**：眼动模型通常是非线性的
2. **表示多模态分布**：能够同时维护多个可能的视线位置假设
3. **适应快速眼动**：对扫视（saccade）等快速眼动事件更鲁棒

## 实验与结果

项目包含完整的实验框架：

- `docs/make_figures.py`：用于重新生成文档中的图表
- `results/`：包含每个注视点的报告和图表
- 基准测试框架支持 M0 到 M5 多种候选方法的比较

## 项目状态与局限

### 当前状态

该项目目前处于**研究预印本**阶段。真实数据数字已通过自洽性和独立追踪器一致性验证（必要但不充分），绝对精度验证仍需通过人工眼进行 —— 这是未来的工作方向。

### 数据说明

原始采集数据、每人 atlas、缓存和结果视频（总计数 GB）未包含在仓库中（见 `.gitignore`）。仓库仅包含源代码、项目页面和轻量级结果摘要/图表。

## 实际应用价值

### 眼科诊断

千赫兹级别的视线追踪能够：
- 捕捉微扫视（microsaccades）等细微眼动
- 提供更精确的眼动指标用于疾病诊断
- 支持更精细的视觉功能评估

### 神经科学研究

- 研究眼动与认知过程的关联
- 分析阅读过程中的注视模式
- 探索注意力分配机制

### 人机交互

- 超低延迟的视线交互
- 更自然的用户界面控制
- 辅助技术中的视线输入

## 技术启示与展望

`gaze-model` 项目展示了如何将经典的信号处理方法（粒子滤波）与现代的眼科成像技术相结合，解决高采样率视线追踪中的核心技术难题。

该项目的开源性质为研究社区提供了：
1. **可复现的研究基础**：完整的代码和实验框架
2. **方法比较的基准**：M0-M5 候选方法的标准化测试
3. **扩展的可能性**：模块化设计便于集成新的似然模型或动态模型

随着绝对精度验证的完成，该技术有望在临床眼科诊断和高端人机交互系统中得到应用。
