# MotionCore：基于大语言模型的智能舞蹈动作分析与教学系统

> MotionCore 是一个融合计算机视觉与大语言模型的舞蹈分析系统，通过 MediaPipe 姿态估计提取 3D 骨骼序列，结合 LLM 生成实时流式分析报告，并提供音频对齐的双视频同步对比播放器，为舞蹈教学与动作纠正提供智能化解决方案。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-17T14:11:57.000Z
- 最近活动: 2026-05-17T14:19:57.873Z
- 热度: 152.9
- 关键词: 舞蹈分析, 姿态估计, 大语言模型, MediaPipe, FastAPI, 视频分析, AI教学, 动作识别, 多模态AI
- 页面链接: https://www.zingnex.cn/forum/thread/motioncore
- Canonical: https://www.zingnex.cn/forum/thread/motioncore
- Markdown 来源: ingested_event

---

## 项目概述：AI 赋能舞蹈教学\n\nMotionCore 是一个开源的舞蹈动作分析系统，巧妙地将视频姿态估计技术与大语言模型（LLM）相结合，为舞蹈学习者、教练和爱好者提供智能化的动作评估与教学辅助工具。系统的核心设计理念是"对比学习"——用户上传自己的动作视频与标准教学视频，系统自动提取骨骼关键点、分析动作差异，并生成详细的改进建议。\n\n与传统的舞蹈教学软件不同，MotionCore 不仅提供视觉化的姿态对比，更引入了 LLM 的认知能力，能够像专业教练一样理解动作细节、识别常见问题，并以自然语言形式给出针对性的训练指导。这种"视觉感知 + 语言理解"的双模态融合，代表了 AI 辅助体育教学的新方向。\n\n## 系统架构与技术栈\n\nMotionCore 采用清晰的分层架构，各模块职责明确、协同工作：\n\n### 前端交互层\n\n前端基于原生 HTML5、CSS3 和 JavaScript 构建，无需复杂框架即可实现流畅的用户体验。界面设计遵循"渐进式披露"原则：\n\n- **视频上传区**：支持拖拽和点击两种上传方式，分别对应用户动作视频（Video A）和标准教学视频（Video B）\n- **实时预览区**：展示 MediaPipe 提取的 3D 骨骼关键点叠加效果\n- **流式报告区**：以聊天形式逐字显示 AI 分析结果，用户可随时中断\n- **同步播放器**：音频对齐后的双视频对比播放组件\n\n界面支持中英文一键切换，不仅改变 UI 文本，更通过系统提示词强制 LLM 以对应语言生成报告。\n\n### 后端处理层\n\n后端基于 FastAPI 框架构建，提供高性能的异步 API 服务：\n\n| 端点 | 功能描述 |\n|------|----------|\n| POST /upload | 接收视频上传，返回任务 ID |\n| GET /stream/{task_id} | MJPEG 实时视频流（处理过程中） |\n| GET /progress/{task_id} | 查询处理进度与时间估算 |\n| GET /status/{task_id} | 获取完成状态与下载链接 |\n| POST /analyze/stream | SSE 流式分析报告生成 |\n| GET /audio-offset | 计算音频对齐偏移量 |\n\n### 核心算法模块\n\n**姿态估计**：采用 Google 的 MediaPipe Pose 解决方案，实时提取 33 个 3D 人体关键点。MediaPipe 的优势在于轻量级、跨平台，且对遮挡和快速运动具有较好的鲁棒性。\n\n**音频对齐**：基于 MoviePy 和 NumPy 实现音频指纹匹配，自动计算两段视频的时序偏移，确保对比播放时的动作同步。\n\n**目标检测**：集成 Ultralytics YOLO 模型，用于视频中人体的定位与跟踪，为姿态估计提供预处理支持。\n\n**LLM 集成**：通过 OpenAI SDK 统一接入多种大语言模型，包括：\n\n- **OpenAI**：GPT-4.1-mini 等商用模型\n- **DeepSeek**：deepseek-v4-pro，针对中文场景优化\n- **Gemma**：通过 Ollama 本地部署，适合隐私敏感场景\n\n## 核心功能详解\n\n### 双视频对比分析流程\n\n系统的典型使用流程体现了"上传-处理-分析-对比"的完整闭环：\n\n**第一步：视频上传**\n\n用户分别上传两个视频文件。Video A 是用户自己的动作录像，Video B 是想要学习的标准教学视频。系统支持常见视频格式，自动处理分辨率归一化。\n\n**第二步：骨骼提取与可视化**\n\n上传完成后，后端启动 MediaPipe 处理管道，逐帧提取人体姿态。处理过程中，用户可通过 MJPEG 流实时查看骨骼关键点叠加效果，直观了解系统识别状态。进度条显示当前处理进度与预计剩余时间。\n\n**第三步：AI 流式分析**\n\n骨骼数据准备就绪后，系统构造结构化提示词，调用 LLM 生成动作分析报告。报告内容涵盖：\n\n- 整体动作完成度评估\n- 关键关节角度对比（如膝关节弯曲度、手臂抬升高度）\n- 节奏与音乐节拍匹配度分析\n- 具体改进建议与针对性练习\n\n报告采用 Server-Sent Events（SSE）技术逐字流式输出，营造"教练现场点评"的沉浸感。用户可随时点击"停止"中断生成。\n\n**第四步：音频对齐与同步播放**\n\n分析完成后，系统自动计算两段视频的音频偏移量，生成同步播放方案。用户可在页面底部的双视频播放器中同时观看自己的动作与标准动作，音频对齐确保了两者的节奏一致性。\n\n### 多语言与多模型支持\n\nMotionCore 的国际化设计体现在两个层面：\n\n**界面语言**：前端提供中英文切换按钮，所有 UI 文本即时响应。\n\n**报告语言**：通过系统提示词工程，强制 LLM 以用户选择的语言生成报告。例如，英文模式下的系统提示词明确要求模型"respond in English"，确保输出语言的一致性。\n\n**模型灵活性**：用户可在配置文件中自由切换底层 LLM 提供商，无需修改代码。这种设计既支持调用云端 API 获取最强性能，也支持本地部署保障数据隐私。\n\n## 技术亮点与创新点\n\n### 时序数据的 LLM 理解\n\n将 3D 骨骼序列转化为 LLM 可理解的文本描述是系统的核心挑战。MotionCore 采用结构化编码策略，将关键点坐标、关节角度、运动轨迹等信息组织为层次化的文本表示，使语言模型能够"读懂"动作。\n\n### 流式生成体验\n\n不同于传统的批处理模式，MotionCore 的 SSE 流式输出显著提升了用户体验。用户无需等待完整报告生成，即可开始阅读前半部分内容，这种"边生成边阅读"的模式更符合人类的信息消费习惯。\n\n### 音频驱动的时序对齐\n\n舞蹈教学的核心在于节奏。MotionCore 的音频对齐算法不仅匹配波形相似度，更关注音乐节拍的对应关系，确保对比播放时两个视频的动作在节奏上真正同步。\n\n## 部署与使用指南\n\n### 环境配置\n\n系统要求 Python 3.10+，推荐使用 Conda 管理依赖：\n\n```bash\nconda create -n motion python=3.10 -y\nconda activate motion\npip install -r requirements.txt\n```\n\n### 模型配置\n\n复制环境变量模板并填写 API 密钥：\n\n```bash\ncp .env.example .env\n```\n\n编辑 `.env` 文件选择 LLM 提供商：\n\n```\n# 可选：openai / deepseek / gemma4\nLLM_PROVIDER=deepseek\nDEEPSEEK_API_KEY=sk-xxxxxx\nDEEPSEEK_MODEL=deepseek-v4-pro\n```\n\n### 启动服务\n\n```bash\npython main.py\n```\n\n访问 `http://127.0.0.1:8000` 即可使用舞蹈分析工具。\n\n## 应用场景与价值\n\nMotionCore 的设计初衷是降低舞蹈学习的门槛，但其技术框架具有更广泛的适用性：\n\n**舞蹈教学**：为舞蹈教室提供 AI 助教，实现一对多的个性化指导\n\n**健身训练**：瑜伽、普拉提等需要标准动作参照的健身场景\n\n**体育训练**：武术、体操等技巧性运动的姿态纠正\n\n**康复医疗**：物理治疗中的动作规范性评估\n\n**动作研究**：舞蹈学、人体运动学的数据采集与分析工具\n\n## 开源生态与扩展性\n\nMotionCore 采用 MIT 许可证开源，代码结构清晰，便于二次开发：\n\n```\nmotioncore/\n├── main.py                 # 主入口\n├── web/\n│   ├── api/\n│   │   ├── app.py         # FastAPI 端点\n│   │   ├── client.py      # LLM 流式客户端\n│   │   ├── prompts_zh.py  # 中文提示词\n│   │   └── prompts_en.py  # 英文提示词\n│   └── h5/                # 前端页面\n└── outputs/               # 运行时生成文件\n```\n\n开发者可轻松扩展：\n\n- **新的姿态估计后端**：替换 MediaPipe 为 AlphaPose、OpenPose 等方案\n- **新的 LLM 提供商**：添加 Claude、Gemini 等模型的支持\n- **新的分析维度**：引入速度、加速度等动力学特征\n- **新的应用场景**：适配健身、体育、医疗等垂直领域\n\n## 局限性与未来方向\n\n当前版本存在一些已知局限：\n\n**遮挡处理**：复杂动作中的自遮挡仍可能影响关键点检测精度\n\n**深度估计**：MediaPipe 的 3D 关键点在深度维度上的精度有限，对于需要精确空间定位的动作分析存在瓶颈\n\n**计算资源**：实时处理高分辨率视频需要较强的 GPU 支持\n\n未来迭代方向可能包括：\n\n- 引入多视角融合提升 3D 重建精度\n- 探索视频大模型（如 Video-LLaMA）端到端理解动作\n- 开发移动端版本支持实时拍摄分析\n- 构建舞蹈动作数据集支持更精细的风格迁移\n\n## 结语\n\nMotionCore 展示了计算机视觉与大语言模型融合在体育教学领域的巨大潜力。它不仅是技术 demo，更是一个可落地的开源工具，为舞蹈学习者提供了随时可用的 AI 教练。随着多模态大模型技术的持续进步，类似的"视觉+语言"双模态应用将在更多垂直场景绽放价值。