G1
编程与工程
IsaacLab
G1-23dof 强化学习训练文档 Phase 1 总结
2026-04-12
·
2 min read
G1-23dof 强化学习训练文档 Phase 1 总结
文档版本:V1.0
编写日期:2026-04-12
Phase 1 完成度:✅ 100%
1. Phase 1 文档索引
| 文档 | 字数 | 核心内容 |
|---|---|---|
| Velocity 任务配置规范 | ~14.5KB | 环境配置、78D 观测、17项奖励函数、PPO超参数 |
| CPG-Flat 任务配置规范 | ~12.8KB | CPG振荡器原理、CPG-Residual动作接口、82D观测 |
| Fusion 多传感器融合配置(V0~V11) | ~12.2KB | LiDAR+Depth融合、27项奖励、V0~V11版本演进 |
| 网络架构深度解析 | ~16KB | FusionActorCritic、CrossAttention、MultiCriticPPO |
| 超参数系统调优指南 | ~10KB | PPO/网络/奖励/传感器/Curriculum超参分析 |
| 部署架构文档 | ~11.6KB | C++ FSM、PD控制参数、DDS通信接口 |
Phase 1 总计:~76KB 技术文档
2. 任务配置横向对比
| 维度 | Velocity | CPG-Flat | Fusion V11 |
|---|---|---|---|
| 地形 | 混合(鹅卵石+其他) | 仅平地 | 混合(楼梯+坡道+方块) |
| 传感器 | Height Scanner | Height Scanner | Depth + LiDAR + Height |
| Policy 观测 | 78D | 82D | 6030D |
| Critic 观测 | 78D | 78D | 241D |
| 奖励项数 | 17项 | 19项 | 27项 |
| CPG 模块 | 无 | 有 | 无 |
| Curriculum | terrain_levels | terrain_levels | quality_gated |
| episode_length 目标 | 950+ | 950+ | — |
3. 核心设计要点速查
3.1 观测空间设计原则
Proprio (78D) = base_ang_vel(3) + gravity(3) + cmd(3) + qpos(23) + qvel(23) + last_action(23)
Fusion Policy = Proprio(78D) + Depth(3072D) + LiDAR(2880D)
→ Encoders → CrossAttention → 142D → Actor MLP → 23D
Fusion Critic = Proprio(78D) + base_lin_vel(3D) + height_scan(160D) = 241D
3.2 奖励函数设计原则
Total Reward = Σ(weight_i × reward_i)
└── Locomotion 组(主导):track_lin_vel, alive, forward_progress, gait
└── Reg 组(辅助):joint_vel, action_rate, energy
└── Safety 组(约束):base_height, flat_orientation, penetration
调参经验:正奖励总和应 ≈ 2~5 倍 |Safety 惩罚总和|
3.3 网络架构选择
| 场景 | 推荐架构 |
|---|---|
| 纯平地/简单地形 | Velocity(78D,直接 MLP) |
| 周期步态引导 | CPG-Flat(82D,CPG-Residual) |
| 复杂地形+视觉感知 | Fusion(6030D,CrossAttention+MultiCritic) |
4. Phase 2 预告
Phase 2 将深入以下主题:
- [ ] Following 任务:目标跟踪行走
- [ ] Blind-Teacher 任务:教师引导的盲行走
- [ ] H1 / Go2 机器人配置:多机器人平台适配
- [ ] ** Curriculum 深度解析**:failure_adaptive vs quality_gated
- [ ] 训练稳定性实战:从崩溃到收敛的排查日志
- [ ] 真机调参经验:部署后的实际调优案例
5. 源码文件索引
| 功能 | 源码路径 |
|---|---|
| G1-23dof 关节配置 | assets/robots/unitree/g1_23dof_cfg.py |
| Velocity 环境 | tasks/locomotion/robots/g1/23dof/velocity_env_cfg.py |
| CPG-Flat 环境 | tasks/locomotion/robots/g1/23dof/cpg_flat_env_cfg.py |
| Fusion V0~V11 环境 | tasks/locomotion/robots/g1/23dof/fusion_v{0..11}_env_cfg.py |
| CPG 振荡器 | modules/cpg.py |
| CrossAttention 融合 | modules/cross_attention.py |
| MultiCriticPPO | modules/multi_critic_ppo.py |
| 奖励函数库 | tasks/locomotion/mdp/rewards.py |
| C++ 部署 | deploy/robots/g1_23dof/ |
版本记录
| 版本 | 日期 | 修改内容 | 作者 |
|---|---|---|---|
| V1.0 | 2026-04-12 | Phase 1 总结完成 | AI Assistant |
本文档由 AI 辅助整理自 unitree_lab_locomotion 仓库源码