AD Companion Robot Dog with RAG Memory + SLAM Navigation + LLM Dialogue
基于绝影Lite3机器狗的阿尔茨海默症陪伴机器人 | 智慧社区国赛一等奖 | ICAN创新创业大赛三等奖
面向阿尔茨海默症患者的具身智能陪伴机器狗,集成多模态交互能力:
- 🧠 记忆系统 — Sentence-BERT向量记忆库(RAG架构)
- 🗣️ 语音交互 — GPT-SoVITS克隆亲人声音
- 🤖 LLM对话 — 实时感知+记忆检索→情景化自然对话
- 🚶 自主导航 — ORB-SLAM3室内定位与自适应跟随
- 📱 远程控制 — Flutter App(WebRTC实时图传)
本项目实践了具身智能的核心技术栈——多模态感知(视觉+语音)、RAG记忆检索、LLM驱动的自主决策、SLAM环境建图。这些能力是VLA(Vision-Language-Action)模型在真实机器人上部署的必要支撑。项目中对多传感器融合、实时语音交互、动态环境导航的工程实践,与VLA研究中"视觉感知→语言理解→动作执行"的闭环高度对应。
- ICAN创新创业大赛 全国三等奖
graph TD
subgraph User["用户交互层"]
App["Flutter App (WebRTC)"] <--> Voice["语音输入/输出"]
end
subgraph Decision["决策层"]
LLM["大语言模型 (LLM)"] <--> RAG["Sentence-BERT 记忆库"]
TTS["GPT-SoVITS 语音合成"]
end
subgraph Perception["感知+运动层"]
SLAM["ORB-SLAM3 定位导航"] <--> Follow["自适应跟随"]
Face["SFace 人脸识别"]
QR["pyzbar 二维码识别"]
end
Voice --> LLM
LLM --> SLAM
| 模块 | 技术选型 | 说明 |
|---|---|---|
| 记忆库 | Sentence-BERT (paraphrase-multilingual-MiniLM-L12-v2) + FAISS | 384维语义向量,支持模糊记忆检索 |
| 语音合成 | GPT-SoVITS | 克隆亲人声音(MOS~3.5),个性化语音提醒 |
| 对话引擎 | LLM + RAG | 位置+时间+记忆检索→情景化应答 |
| 视觉SLAM | ORB-SLAM3 | 室内定位误差~5cm |
| 人脸识别 | SFace | 家庭成员识别 |
| 远程控制 | Flutter + WebRTC | 实时图传与控制 |
pip install -r requirements.txt
# 连接机器狗硬件后运行
python src/main.pysrc/
├── main.py # 主入口
├── memory/ # 记忆模块(RAG)
├── voice/ # 语音合成模块
├── navigation/ # SLAM导航模块
├── vision/ # 视觉识别模块
└── app/ # 远程控制接口
王承孟 | wcm@njust.edu.cn | GitHub