G1 编程与工程 IsaacLab

G1-23dof 强化学习训练文档 Phase 1 总结

2026-04-12 · 2 min read

G1-23dof 强化学习训练文档 Phase 1 总结

文档版本：V1.0
编写日期：2026-04-12
Phase 1 完成度：✅ 100%

1. Phase 1 文档索引

文档	字数	核心内容
Velocity 任务配置规范	~14.5KB	环境配置、78D 观测、17项奖励函数、PPO超参数
CPG-Flat 任务配置规范	~12.8KB	CPG振荡器原理、CPG-Residual动作接口、82D观测
Fusion 多传感器融合配置（V0~V11）	~12.2KB	LiDAR+Depth融合、27项奖励、V0~V11版本演进
网络架构深度解析	~16KB	FusionActorCritic、CrossAttention、MultiCriticPPO
超参数系统调优指南	~10KB	PPO/网络/奖励/传感器/Curriculum超参分析
部署架构文档	~11.6KB	C++ FSM、PD控制参数、DDS通信接口

Phase 1 总计：~76KB 技术文档

2. 任务配置横向对比

维度	Velocity	CPG-Flat	Fusion V11
地形	混合（鹅卵石+其他）	仅平地	混合（楼梯+坡道+方块）
传感器	Height Scanner	Height Scanner	Depth + LiDAR + Height
Policy 观测	78D	82D	6030D
Critic 观测	78D	78D	241D
奖励项数	17项	19项	27项
CPG 模块	无	有	无
Curriculum	terrain_levels	terrain_levels	quality_gated
episode_length 目标	950+	950+	—

3. 核心设计要点速查

3.1 观测空间设计原则

Proprio (78D) = base_ang_vel(3) + gravity(3) + cmd(3) + qpos(23) + qvel(23) + last_action(23)

Fusion Policy = Proprio(78D) + Depth(3072D) + LiDAR(2880D)
              → Encoders → CrossAttention → 142D → Actor MLP → 23D

Fusion Critic = Proprio(78D) + base_lin_vel(3D) + height_scan(160D) = 241D

3.2 奖励函数设计原则

Total Reward = Σ(weight_i × reward_i)
  └── Locomotion 组（主导）：track_lin_vel, alive, forward_progress, gait
  └── Reg 组（辅助）：joint_vel, action_rate, energy
  └── Safety 组（约束）：base_height, flat_orientation, penetration

调参经验：正奖励总和应 ≈ 2~5 倍 |Safety 惩罚总和|

3.3 网络架构选择

场景	推荐架构
纯平地/简单地形	Velocity（78D，直接 MLP）
周期步态引导	CPG-Flat（82D，CPG-Residual）
复杂地形+视觉感知	Fusion（6030D，CrossAttention+MultiCritic）

4. Phase 2 预告

Phase 2 将深入以下主题：

[ ] Following 任务：目标跟踪行走
[ ] Blind-Teacher 任务：教师引导的盲行走
[ ] H1 / Go2 机器人配置：多机器人平台适配
[ ] ** Curriculum 深度解析**：failure_adaptive vs quality_gated
[ ] 训练稳定性实战：从崩溃到收敛的排查日志
[ ] 真机调参经验：部署后的实际调优案例

5. 源码文件索引

功能	源码路径
G1-23dof 关节配置	`assets/robots/unitree/g1_23dof_cfg.py`
Velocity 环境	`tasks/locomotion/robots/g1/23dof/velocity_env_cfg.py`
CPG-Flat 环境	`tasks/locomotion/robots/g1/23dof/cpg_flat_env_cfg.py`
Fusion V0~V11 环境	`tasks/locomotion/robots/g1/23dof/fusion_v{0..11}_env_cfg.py`
CPG 振荡器	`modules/cpg.py`
CrossAttention 融合	`modules/cross_attention.py`
MultiCriticPPO	`modules/multi_critic_ppo.py`
奖励函数库	`tasks/locomotion/mdp/rewards.py`
C++ 部署	`deploy/robots/g1_23dof/`

版本记录

版本	日期	修改内容	作者
V1.0	2026-04-12	Phase 1 总结完成	AI Assistant

本文档由 AI 辅助整理自 unitree_lab_locomotion 仓库源码

← 上一篇

G1-23dof 强化学习训练实战复盘与经验总结

G1-23dof CPG-Flat 任务训练配置规范

← 返回博客列表