正文

NAO 社交机器人项目：多模态人机交互的毕业设计实践

这是一个基于 SoftBank NAO 人形机器人平台开发的智能交互系统，整合了计算机视觉、语音识别和 ChatGPT 大语言模型，实现了人脸识别、自然对话和自主舞蹈三大核心功能，采用有限状态机（FSM）架构实现行为控制。

NAO 机器人ChatGPT人机交互多模态有限状态机计算机视觉语音识别大语言模型情感计算机器人开发

发布时间 2026/05/19 09:42最近活动 2026/05/19 09:53预计阅读 3 分钟

章节 01

NAO社交机器人项目导读

本项目是基于SoftBank NAO人形机器人平台开发的智能交互系统，整合计算机视觉、语音识别和ChatGPT大语言模型，实现人脸识别、自然对话和自主舞蹈三大核心功能，采用有限状态机（FSM）架构控制行为，是多模态人机交互的毕业设计实践。

章节 02

项目背景：人形机器人的社交化探索

在人机交互领域，传统基于规则或预设脚本的交互方式生硬且缺乏灵活性。随着大语言模型（LLM）成熟，将AI对话能力嵌入物理机器人成为可能。NAO是SoftBank Robotics开发的经典人形机器人平台，拥有丰富传感器、灵活运动能力和成熟开发框架。本项目作为毕业设计，探索将ChatGPT智能对话能力与NAO物理交互能力结合，打造具有社交属性的机器人系统。

章节 03

系统架构与技术方法

系统架构

采用有限状态机（FSM）架构，定义三种核心行为状态：

空闲状态：实时人脸检测、用户身份识别、新用户注册、语音指令监听
对话状态：语音输入转文本、ChatGPT生成回复、语音合成输出、上下文记忆
舞蹈状态：音乐检测、舞蹈编排执行、平滑过渡

技术栈

核心平台：NAOqi SDK、Python、OpenCV
感知交互：Google Speech API/离线语音识别、音频处理、人脸检测与识别
智能核心：OpenAI API、有限状态机设计模式

状态机设计

优势：状态边界清晰、转换逻辑简单、易于调试扩展；触发事件包括语音指令（Hey NAO/Dance NAO等）、人脸识别事件、音频检测。

章节 04

功能实现与验证

系统工作流程

启动进入空闲状态
环境扫描（人脸检测、打招呼/邀请注册）
监听指令：
- 听到"Hey NAO"→对话状态
- 听到"Dance NAO"→舞蹈状态
退出条件：对话中"Goodbye"/舞蹈中"Stop NAO"返回空闲

验证与亮点

提供视频演示（链接见README）
技术亮点：多模态融合（视觉/听觉/语言）、LLM物理化（ChatGPT赋能自然对话）、情感计算初步探索（舞蹈表达情绪）

章节 05

团队协作与分工

开发团队分工：

计算机视觉集成：人脸检测、识别和用户管理模块
机器人行为编程：NAOqi框架调用和动作编排
ChatGPT对话系统设计：OpenAI API集成和对话流程设计
音频处理与状态控制：音乐检测和状态机实现

团队成员：David Shi、Ousama Alabdullah、Humaira Saddat

章节 06

局限与改进方向

系统存在的局限及改进建议：

离线能力：依赖OpenAI API，离线无法使用对话功能
多语言支持：中英文切换不够智能
舞蹈多样性：仅预设序列，可加入实时编舞
情感识别：目前仅能表达情感，无法识别用户情绪

章节 07

总结与启示

总结

本项目是优秀的毕业设计作品，展示前沿AI技术与成熟机器人平台的结合，通过FSM架构实现三大功能的有序协调，为机器人开发和人机交互学习提供参考范例。

启示

状态机是机器人行为管理的有效模式
LLM让机器人从"执行者"变为"对话者"
多模态是自然人机交互的必经之路