diff --git a/README.md b/README.md index 53cc620..f008338 100644 --- a/README.md +++ b/README.md @@ -2,8 +2,8 @@ [](https://imchong.github.io/Humanoid_Robot_Learning_Paper_Notebooks/) [](LICENSE) -[](papers/PROGRESS.md) -[](papers/) +[](papers/PROGRESS.md) +[](papers/) **来源**: [awesome-humanoid-robot-learning](https://github.com/YanjieZe/awesome-humanoid-robot-learning) diff --git a/_data/papers.json b/_data/papers.json index 1a290b2..1b85c6e 100644 --- a/_data/papers.json +++ b/_data/papers.json @@ -1552,6 +1552,16 @@ "13_Physics-Based_Animation": { "display_name": "Physics-Based Animation", "papers": [ + { + "title": "Physics-Based Motion Tracking of Contact-Rich Interacting Characters", + "path": "papers/13_Physics-Based_Animation/Physics-Based_Motion_Tracking_of_Contact-Rich_Interacting_Characters/Physics-Based_Motion_Tracking_of_Contact-Rich_Interacting_Characters.md", + "url": "/papers/13_Physics-Based_Animation/Physics-Based_Motion_Tracking_of_Contact-Rich_Interacting_Characters/Physics-Based_Motion_Tracking_of_Contact-Rich_Interacting_Characters.html", + "dir": "Physics-Based_Motion_Tracking_of_Contact-Rich_Interacting_Characters", + "arxiv": "2604.07984", + "published_date_zh": "2026年4月9日(arXiv)· Eurographics 2026 / Computer Graphics Forum", + "published_date_en": "Apr 9, 2026 (arXiv)· Eurographics 2026 / Computer Graphics Forum", + "zhname": "接触密集的多角色交互动作的物理跟踪——用渐进式网络让多个专家各管一类难度" + }, { "title": "Iterative Closed-Loop Motion Synthesis for Scaling the Capabilities of Humanoid Control", "path": "papers/13_Physics-Based_Animation/Iterative_Closed-Loop_Motion_Synthesis/Iterative_Closed-Loop_Motion_Synthesis.md", @@ -1605,16 +1615,6 @@ "published_date_en": "Sep 26, 2025 (arXiv)", "zhname": "Learning to Ball:用「策略组合 + 高层软路由」拼出长程篮球连招" }, - { - "title": "Physics-Based Motion Tracking of Contact-Rich Interacting Characters", - "path": "papers/13_Physics-Based_Animation/Physics-Based_Motion_Tracking_of_Contact-Rich_Interacting_Characters/Physics-Based_Motion_Tracking_of_Contact-Rich_Interacting_Characters.md", - "url": "/papers/13_Physics-Based_Animation/Physics-Based_Motion_Tracking_of_Contact-Rich_Interacting_Characters/Physics-Based_Motion_Tracking_of_Contact-Rich_Interacting_Characters.html", - "dir": "Physics-Based_Motion_Tracking_of_Contact-Rich_Interacting_Characters", - "arxiv": "2604.07984", - "published_date_zh": "2026年4月9日(arXiv)", - "published_date_en": "Apr 9, 2026 (arXiv)", - "zhname": "接触密集的多角色交互动作的物理跟踪——用渐进式网络让多个专家各管一类难度" - }, { "title": "Character Controllers using Motion VAEs", "path": "papers/13_Physics-Based_Animation/MotionVAE/MotionVAE.md", @@ -1633,6 +1633,17 @@ "14_Human_Motion": { "display_name": "Human Motion", "papers": [ + { + "title": "Kimodo: Scaling Controllable Human Motion Generation", + "path": "papers/14_Human_Motion/Kimodo__Scaling_Controllable_Human_Motion_Generation/Kimodo__Scaling_Controllable_Human_Motion_Generation.md", + "url": "/papers/14_Human_Motion/Kimodo__Scaling_Controllable_Human_Motion_Generation/Kimodo__Scaling_Controllable_Human_Motion_Generation.html", + "dir": "Kimodo__Scaling_Controllable_Human_Motion_Generation", + "arxiv": "2603.15546", + "has_open_source": true, + "published_date_zh": "2026年3月", + "published_date_en": "Mar 2026", + "zhname": "Kimodo:用 700 小时光学动捕把「可控人体动作生成」扩大规模" + }, { "title": "EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents", "path": "papers/14_Human_Motion/EmbodMocap__In-the-Wild_4D_Human-Scene_Reconstruction_for_Embodied_Agents/EmbodMocap__In-the-Wild_4D_Human-Scene_Reconstruction_for_Embodied_Agents.md", diff --git a/papers/14_Human_Motion/Kimodo__Scaling_Controllable_Human_Motion_Generation/Kimodo__Scaling_Controllable_Human_Motion_Generation.md b/papers/14_Human_Motion/Kimodo__Scaling_Controllable_Human_Motion_Generation/Kimodo__Scaling_Controllable_Human_Motion_Generation.md new file mode 100644 index 0000000..e4ba23a --- /dev/null +++ b/papers/14_Human_Motion/Kimodo__Scaling_Controllable_Human_Motion_Generation/Kimodo__Scaling_Controllable_Human_Motion_Generation.md @@ -0,0 +1,176 @@ +--- +layout: paper +paper_order: 7 +title: "Kimodo: Scaling Controllable Human Motion Generation" +zhname: "Kimodo:用 700 小时光学动捕把「可控人体动作生成」扩大规模" +category: "人体动作生成" +--- + +# Kimodo: Scaling Controllable Human Motion Generation +**Kimodo:在 700 小时商用友好动捕数据上训练的运动学动作扩散模型,用文本 + 多种运动学约束精确可控地生成高质量人 / 人形动作** + +> 📅 阅读日期: 2026-06-13 +> +> 🏷️ 板块: 14 Human Motion · 文本驱动 / 运动学约束 / 扩散模型 / 数据规模化 +> +> 🔁 推进轨: 模块轮转(13_Physics-Based_Animation → **14_Human_Motion**) + +--- + +## 📋 基本信息 + +| 项目 | 链接 | +|---|---| +| 时间 | 2026 年 3 月 | +| arXiv | [2603.15546](https://arxiv.org/abs/2603.15546) · [PDF](https://arxiv.org/pdf/2603.15546) · [HTML](https://arxiv.org/html/2603.15546v1) | +| 项目页 | [research.nvidia.com · Kimodo](https://research.nvidia.com/labs/sil/projects/kimodo/) · [xbpeng 镜像](https://xbpeng.github.io/projects/Kimodo/index.html) | +| 技术报告 | [kimodo_tech_report.pdf](https://research.nvidia.com/labs/sil/projects/kimodo/assets/kimodo_tech_report.pdf) | +| 代码 | [nv-tlabs/kimodo](https://github.com/nv-tlabs/kimodo)(Apache-2.0,含推理 / CLI / 交互 demo / 评测基准) | +| 模型 | [HuggingFace · nvidia](https://huggingface.co/nvidia) | +| 作者 | Davis Rempe\*、Mathis Petrovich\*、Ye Yuan 等(NVIDIA;\* 共同一作) | +| 机构 | NVIDIA(Spatial Intelligence Lab / DAIR) | +| 数据 | 700 小时商用友好光学动捕(含 BONES-SEED 细粒度时序文本标注) | + +> 来源:YanjieZe/awesome-humanoid-robot-learning · 14 Human Motion Analysis and Synthesis 第 520 项。 + +--- + +## 🎯 一句话总结 + +> 公开动捕数据太小,限制了生成式动作模型的质量、控制精度与泛化。Kimodo 用 **700 小时商用友好光学动捕**把规模拉起来,配上**精心设计的运动表示**和**两阶段去噪器(先 root 再 body)**,在尽量减少动作伪影的同时支持**文本 + 一整套运动学约束**(全身关键帧、稀疏关节位置 / 旋转、2D 路点、稠密 2D 路径)灵活组合,并能输出 SMPL-X / Unitree G1 等多种骨架,定位为机器人 / 仿真 / 娱乐的高质量动作数据来源。 + +--- + +## 📌 英文缩写速查 + +| 缩写 | 含义 | +|---|---| +| Kinematic Motion Diffusion | 运动学(非物理仿真)层面的动作扩散生成模型 | +| Mocap | Motion Capture,动作捕捉 | +| Keyframe | 关键帧,指定某些时刻的全身姿态 | +| Waypoint / Path | 2D 路点(离散目标点)/ 稠密 2D 路径(连续轨迹) | +| SMPL-X | 参数化人体网格模型,常用动作表示 | +| Foot Skate | 脚底打滑伪影,本文有后处理清理 | + +--- + +## ❓ 论文要解决什么问题? + +高质量人体动作数据在**机器人、仿真、娱乐**里越来越重要,生成式模型本可以成为一种「数据来源」——用文本或姿态约束直接合成动作。但现实瓶颈是: + +- **公开动捕数据集规模太小**,导致生成动作质量不够、控制精度不足、泛化差; +- **控制方式零散**:文本、关键帧、稀疏关节、路径……往往各做各的,难以在同一个模型里统一且精确地条件化; +- **root(全局位移 / 朝向)与 body(局部姿态)混在一起预测**,容易出现抖动、漂移、脚底打滑等伪影。 + +Kimodo 的目标:**把数据规模做大 + 把控制接口做全 + 把动作质量做高**,三者兼得。 + +--- + +## 🔧 方法详解 + +### 1. 数据规模化:700 小时商用友好动捕 +核心前提是数据。Kimodo 收集 / 整理了约 **700 小时**、**商用许可友好**的光学动捕数据,并为其中的 BONES-SEED 数据提供**细粒度时序文本标注**(同一段动作不同时间段对应不同文本描述),使「文本 → 动作」的对齐更精细。 + +### 2. 运动表示 + 两阶段去噪器(root / body 解耦) +- **精心设计的运动表示**:让全身姿态、全局轨迹、约束信号都能统一编码进扩散过程; +- **两阶段去噪器**:把 **root(全局平移 / 朝向)预测**与 **body(局部关节姿态)预测**拆开、分阶段去噪。先定下全局走向、再细化身体姿态,从而**减小伪影**(漂移 / 抖动),同时为各种约束留出灵活的条件化入口。 + +### 3. 统一、可组合的控制接口 +同一个模型支持文本与多种运动学约束,并可叠加: + +| 控制类型 | 说明 | +|---|---| +| 文本 | 自然语言提示,描述要做的动作 | +| 全身关键帧 | 指定若干时刻的完整姿态 | +| 稀疏关节位置 / 旋转 | 只约束部分末端 / 关节(如手、头) | +| 2D 路点 | 地面上的离散目标点 | +| 稠密 2D 路径 | 连续的行走 / 移动轨迹 | + +### 4. 多骨架输出 + 后处理 +支持 **SOMA / Unitree G1 / SMPL-X** 等多种骨架变体;并提供**脚底打滑清理与约束精修**等后处理,可对接 MuJoCo / ProtoMotions / GMR 等机器人 / 仿真框架,直接作为参考动作数据使用。 + +--- + +### 🧭 整体流程(mermaid) + +