# Squat-Coach：端侧AI健身教练，本地视觉推理实现实时深蹲指导

> squat-coach是一个创新的端侧AI项目，结合MediaPipe姿态估计和本地Gemma模型，实现完全离线的实时深蹲动作指导。项目采用教师-学生训练范式，通过Gemini生成训练数据并微调本地模型，在保护隐私的同时提供专业级健身反馈。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-14T08:13:21.000Z
- 最近活动: 2026-05-14T08:19:44.020Z
- 热度: 154.9
- 关键词: 端侧AI, 姿态估计, MediaPipe, Gemma微调, 健身教练, 隐私保护, 教师学生训练, 计算机视觉, 生物力学, 本地推理
- 页面链接: https://www.zingnex.cn/forum/thread/squat-coach-ai
- Canonical: https://www.zingnex.cn/forum/thread/squat-coach-ai
- Markdown 来源: ingested_event

---

## 项目背景与愿景\n\n在健身领域，正确的动作姿势对于训练效果和运动安全至关重要。然而，专业教练的费用昂贵且无法随时陪伴。squat-coach项目旨在通过端侧AI技术，为每个人提供一个随时可用、完全私密的虚拟健身教练。\n\n这个项目的核心愿景是打造一个"不只是AI文本叠加在姿态数据上"的系统，而是一个真正具备视觉输入、端侧推理、实时反馈和智能决策能力的教练代理。\n\n## 系统架构设计\n\nsquat-coach采用分层架构，每个组件承担特定职责：\n\n### 视觉感知层：MediaPipe Pose Lite\n\n系统使用MediaPipe的轻量级姿态估计模型，在浏览器中通过WASM和WebGL运行。这一层负责从摄像头捕获视频流，并提取人体关键点的三维坐标。模型大小仅约4MB，适合在消费级设备上实时运行。\n\n### 生物力学解释层：确定性状态提取\n\n从原始关键点数据到有用的健身反馈之间，需要一个智能的中间层。系统计算多个关键角度：膝盖角度、髋部角度、躯干角度、小腿角度等，并识别深蹲的不同阶段（站立、下蹲、底部、上升）。这种结构化的状态表示将复杂的视觉信息压缩为模型可理解的特征。\n\n### 智能教练层：本地Gemma模型\n\n经过微调的Gemma模型是系统的"教练大脑"。它接收结构化的深蹲状态数据，输出具体的指导建议、优先级判断和UI指示。与直接使用规则相比，微调模型能够生成更自然的语言、更好地权衡多个指标，并能够根据历史动作趋势提供个性化建议。\n\n### 代理决策循环\n\n系统不仅仅是被动分类每一帧画面，而是主动决定下一步最有用的教练行为。这包括：\n- **Setup阶段**：检查摄像头取景是否合适\n- **校准阶段**：观察初始动作，设定个性化阈值\n- **实时指导**：在动作过程中给出简洁的提示\n- **组间总结**：分析整组动作的质量和疲劳趋势\n\n## 隐私优先的设计理念\n\n### 完全离线运行\n\nsquat-coach的一个核心卖点是所有处理都在本地完成。用户的锻炼视频永远不会离开设备，甚至可以在完全断网的环境下运行。这对于在健身房、地下室或任何网络条件受限的环境中使用尤为重要。\n\n### 零网络依赖\n\n项目通过setup.sh脚本一次性下载所有依赖（MediaPipe WASM运行时、JS包、姿态模型），之后运行时不再发起任何网络请求。这种设计确保了系统的可靠性和隐私性。\n\n## 教师-学生训练范式\n\n### Gemini作为教师模型\n\n项目采用了一种创新的训练方法：使用云端Gemini模型作为"教师"，生成高质量的标注数据集。教师模型分析真实的深蹲视频，结合确定性规则，生成结构化的教练响应。\n\n### Gemma作为学生模型\n\n生成的数据集用于微调本地Gemma模型。这个"学生"模型学会了如何根据姿态数据生成有用的教练反馈。通过这种方式，系统能够在保持云端模型质量的同时，实现完全本地的推理。\n\n### 数据质量保证\n\n项目强调使用真实数据的重要性。真实的相机几何、身体比例、跟踪噪声和深蹲模式都是合成数据难以完全模拟的。建议的数据收集策略包括：录制标准的侧视图深蹲、故意做浅蹲、前倾、膝盖内扣等错误动作，以覆盖各种情况。\n\n## 技术实现细节\n\n### 输入特征设计\n\n为了简化模型输入并提高鲁棒性，系统仅使用7个核心特征：\n- phase：动作阶段（站立/下蹲/底部/上升）\n- rep_count：当前重复次数\n- knee_angle：膝盖角度\n- hip_angle：髋部角度\n- torso_angle：躯干角度\n- shin_angle：小腿角度\n- hip_below_knee：髋部是否低于膝盖（深度判断）\n\n### 输出格式规范\n\n模型输出遵循严格的JSON格式，包含：\n- say：给用户的语音指导文本\n- priority：优先级（安全/警告/错误/信息）\n- ui：UI指示（高亮部位、是否显示检查清单）\n- cooldown_s：重复提示的冷却时间\n\n### 运行时配置\n\n系统提供丰富的运行时参数，允许精细控制模型行为：\n- 温度、top_p、top_k等采样参数\n- 重复惩罚和最大生成长度\n- 随机种子以确保可复现性\n- 停止词设置\n\n## 评估与验证\n\n项目包含完整的评估框架，可以比较不同模型的表现：\n- 与确定性规则基准对比\n- 优先级判断准确性\n- 响应长度约束遵守情况\n- 令牌重叠度分析\n\n当前评估结果显示，规则基线在策略一致性上仍优于基础Gemma模型，这凸显了高质量训练数据的重要性。\n\n## 工作流程与工具链\n\n项目提供完整的工具链支持：\n- 浏览器端录制和导出\n- 离线数据清洗和标注\n- 批量姿态标注和模型比较\n- 合成数据生成（用于填充数据缺口）\n\n## 实际应用价值\n\nsquat-coach代表了AI在健康健身领域的一个重要应用方向。它不仅提供了专业级的动作指导，更重要的是以完全私密、低成本的方式实现。用户无需支付昂贵的私教费用，无需担心训练视频被上传到云端，只需一台普通电脑和一个摄像头，就能获得实时反馈。\n\n对于开发者而言，这个项目展示了如何将大语言模型与计算机视觉结合，构建端侧智能代理。教师-学生的训练范式、结构化输入输出设计、离线优先的架构选择，都为类似应用提供了有价值的参考。\n\n## 项目状态与展望\n\n目前项目已实现核心功能，包括本地摄像头姿态检测、设置门控、自动跟踪切换、重复计数、角度计算和会话导出。正在进行的工作包括侧视图特征模式清理、Gemma学生模型微调和数据集审计。\n\n未来发展方向包括更丰富的运动类型支持、个性化训练计划生成、以及与更多健身追踪设备的集成。
