章节 01
【导读】无眼之视:可穿戴IMU实现4D人景理解的核心突破
本文提出IMU-to-4D框架,创新性地将大语言模型应用于可穿戴IMU传感器数据,实现无需视觉的4D人体运动与场景结构重建。该框架解决了视觉感知在隐私、能耗、环境适应性等方面的局限,在隐私敏感场景(如居家健康监测)、VR/AR等领域展现巨大潜力。
正文
IMU-to-4D框架利用大语言模型进行非视觉时空理解,仅凭耳机、手表或手机中的惯性传感器即可重建详细4D人体运动和场景结构,在隐私敏感场景中展现巨大潜力。
章节 01
本文提出IMU-to-4D框架,创新性地将大语言模型应用于可穿戴IMU传感器数据,实现无需视觉的4D人体运动与场景结构重建。该框架解决了视觉感知在隐私、能耗、环境适应性等方面的局限,在隐私敏感场景(如居家健康监测)、VR/AR等领域展现巨大潜力。
章节 02
视觉感知面临隐私泄露风险(敏感场景禁用)、高能耗计算成本、部署扩展性差(光照/遮挡影响)等问题。
IMU(惯性测量单元)小巧低功耗、隐私友好(仅捕捉运动)、不受环境影响,但传统方法泛化能力弱,难以直接重建姿态与场景。
章节 03
章节 04
使用AMASS、HPS等数据集,评估姿态准确性(MPJPE)、时序一致性、场景理解、动作识别。
章节 05
级联式架构存在误差累积、滞后性、模式简化等问题。
端到端生成式框架,联合优化姿态与时序,利用LLM先验解决欠定问题,结果更连贯自然。
该框架实现了非视觉的4D感知,隐私友好且性能优异,为智能感知提供新方向。
章节 06
隐私敏感健康监测、VR/AR姿态追踪、运动康复分析、智能家居情境感知、工业安全监控。