宇树开源OmniXtreme：人形机器人学会24种极限动作

okynai 2026-03-05 14:17 49 阅读 AI资讯

2026年3月5日，当大多数人还在讨论前一天谷歌与OpenAI的模型“贴脸”对决时，中国机器人领域悄然投下了一枚更具颠覆性的“技术炸弹”。宇树科技（Unitree）联合北京通用人工智能研究院（BIGAI）等顶尖机构正式发布并开源了名为“OmniXtreme”的人形机器人运动控制架构。

这项研究最震撼之处在于：它让同一个“大脑”——一个统一的控制策略——在真实的Unitree G1人形机器人上，同时稳定掌握了后空翻、侧手翻、托马斯全旋、武术踢击等24种风格迥异、动态特性天差地别的极限动作，整体成功率高达91.08%。其中，最具挑战性的后空翻类动作成功率更是达到了惊人的96.36%。

更关键的是，这套复杂系统的端到端推理延迟被压缩至仅10毫秒，完全满足50Hz的高频实时控制需求。这不仅是技术指标的突破，更标志着人形机器人从“单一技能复现”的“功夫模式”，正式迈向了“通用高保真运动能力”的“打工模式”。在人形机器人产业化呼声日益高涨的2026年春天，宇树用一场彻底的技术开源，为整个行业的“运动大脑”研发树立了新的标杆。

核心突破：双阶段框架，破解“保真度”与“可扩展性”的死结

让人形机器人学会一个后空翻，业界早已实现。但让同一个控制策略无需任何调整，就能流畅切换于后空翻、街舞地板动作、武术连招之间，且每一种都保持极高的完成度和稳定性，这曾是横亘在研究者面前的“不可能任务”。

传统基于强化学习（RL）的多动作训练方法，存在一个根本性矛盾：随着要学习的动作库规模扩大、种类增多，策略网络需要处理的状态-动作映射关系呈指数级增长。这导致严重的“梯度干扰”——模型在优化过程中无所适从，最终往往退化为保守的“平均化”行为，所有动作都学得“四不像”，高难度动作的追踪保真度最先崩溃。业内称之为“保真度-可扩展性权衡”（Fidelity–Scalability Trade-off）。

OmniXtreme的创新，在于采用了一个精妙解耦的双阶段训练框架，将“通用技能学习”与“物理系统适配”这两个难题分开攻克，各个击破。

第一阶段：基于“流匹配”的可扩展预训练——打造“过目不忘”的运动天才

研究团队首先从LAFAN1、AMASS等大型动作捕捉数据库中，提取了包含翻转、空翻、街舞、武术等约60种高动态动作，并重定向至Unitree G1的机器人模型。针对每一个动作，他们使用PPO算法训练出一个独立的“专家策略”。

关键一步随之而来。OmniXtreme没有采用传统的多任务联合强化学习，而是引入了“流匹配”（Flow Matching）这一前沿的生成式建模技术。通过DAgger（数据集聚合）机制，将分布广泛的专家行为“蒸馏”到一个统一的流匹配基础策略中。

“你可以把这想象成请了60位不同领域的顶级教练（专家策略），然后培养一位拥有‘过目不忘’天赋的超级学员（流匹配模型）。”一位接近该项目的技术专家向OKYN.COM解释道，“流匹配模型学习的不是最终的动作坐标，而是从随机噪声逐步‘演化’到目标动作的整个‘速度场’。这种生成式方法赋予了模型极高的表征容量，使其能够优雅地融合多样化的运动模式，而不会产生内部冲突。”

第二阶段：执行器感知的残差后训练——配备“贴身安全员”

拥有了强大的“运动大脑”后，还需要为它配备一位精通硬件极限的“贴身安全员”，确保所有炫酷的动作在真实物理世界中绝对安全、可执行。

OmniXtreme的第二阶段引入了一个轻量级的MLP（多层感知机）网络作为残差策略。在冻结第一阶段训练好的流匹配基础策略后，通过残差强化学习，专门弥补仿真环境与真实机器人之间的“现实差距”。

这一阶段的核心在于对真实物理约束的极致精细化建模：

真实的电机扭矩-速度包络线建模：将真实电机的物理极限（如反电动势导致的力矩随速度衰减）直接集成到仿真器中，确保网络输出的每一个力矩指令都在硬件的能力范围之内。

功率安全正则化：针对高动态动作中极易出现的瞬间大制动负载（如后空翻落地瞬间），在奖励函数中引入针对过量负机械功率的显式惩罚。这能有效抑制危险的“再生制动”现象，防止电机因过流而触发保护停机。

激进的域随机化：将机器人的初始姿态、外部扰动力、地面摩擦力等参数的随机化范围大幅放宽（约50%），并同步放宽任务终止的阈值。这迫使残差策略去探索并学习如何从各种大偏差、危险状态中“挽救”回来，极大增强了系统的整体鲁棒性。

实战数据：24种极限动作，91.08%的平均成功率

为了全面检验OmniXtreme，研究团队构建了名为“XtremeMotion”的挑战性评测集，包含60个具备极高角速度、频繁接触切换和严苛时序约束的极限动作。

在仿真对比测试中，OmniXtreme在追踪保真度上全面碾压传统基线方法。随着动作类别从10个扩展到50个，传统“从零开始的多动作RL”方法的成功率从100%暴跌至73.9%，而OmniXtreme始终保持稳定在高位。

真正的考验在真实世界。研究团队在宇树G1机器人上选取了XtremeMotion中的24个高动态动作，进行了总计157次物理测试。结果令人振奋：整体平均成功率高达91.08%。细分来看：

后空翻类动作：7个动作，55次尝试，成功率 96.36%

武术类动作：3个动作，30次尝试，成功率 93.33%

霹雳舞类动作：5个动作，22次尝试，成功率 86.36%

“这意味着，同一个策略无需任何调整或切换，就能让机器人稳定完成从后空翻到托马斯全旋再到武术踢击等完全不同的动作序列。”上述专家表示，“这在以前是业界公认的难题，OmniXtreme给出了一个优雅的解决方案。”

在工程部署上，整个推理管线（包括正向运动学状态估计、流匹配基础策略和残差策略）通过TensorRT深度优化，在G1机载的NVIDIA Jetson Orin NX平台上实现了约10毫秒的端到端延迟，完美支撑50Hz的实时闭环控制。

观察：开源“大脑”，吹响产业化总攻号角

宇树选择在此时将OmniXtreme这一核心技术框架彻底开源，其意义远不止于一项学术成果的分享。

首先，它标志着运动控制从“专用算法”走向“通用架构”的范式革命。过去，人形机器人的高动态动作控制往往是“一动作一策略”，每个炫酷的表演背后都是大量的专用调试。OmniXtreme证明，通过先进的生成式建模和物理感知微调，单一策略完全可以掌握一个庞大而异构的技能库。这为人形机器人未来在复杂、非结构化的真实环境中（如工厂、家庭、灾难现场）自主适应千变万化的任务需求，提供了最关键的技术基石——一个强大且通用的“运动大脑”。

其次，这是一次充满自信的“技术民主化”行动。在产业爆发前夜，宇树开源核心框架，极大地降低了全行业的研发门槛。中小型团队和高校实验室无需再从零开始攻克高动态控制的基础难题，可以基于OmniXtreme快速搭建自己的系统，将精力聚焦于上层应用创新和特定场景优化。这种开放姿态，有助于快速凝聚生态合力，加速整个产业的技术迭代和场景落地。

第三，对“仿真到现实”鸿沟的系统性攻克，为工程化落地扫清了关键障碍。 OmniXtreme第二阶段对电机物理特性、功率安全、域随机化的极致精细化建模，代表了中国团队对Sim-to-Real（仿真到现实）这一老大难问题的深刻理解和工程化解决能力。它不再满足于在仿真中追求纸面高保真，而是主动将真实世界的所有物理约束“内化”到训练过程中。这种务实的工程化思维，正是人形机器人从实验室展台走向真实产线的前提。

当然，挑战依然清晰。91.08%的成功率虽高，但距离工业级99.9%以上的可靠性要求仍有差距。10毫秒的延迟是突破，但面对更复杂的多任务序列规划、动态环境感知与交互，人形机器人的“智能”仍需进化。

从宏观视角看，OmniXtreme的开源、国家标准的出台、巨额资本的涌入、头部企业的工厂实训——这些事件在2026年春天密集发生，共同勾勒出一幅清晰的产业图景：中国人形机器人产业，正在完成从“技术突破”到“工程能力”的积累，并集体吹响了向“规模化落地”发起总攻的号角。

当机器人不再只是实验室里重复单一动作的“特长生”，或春晚舞台上博人一笑的“功夫明星”，而是真正拥有一个能适应多种任务、理解物理极限的“通用运动大脑”时，我们距离那个机器人与人类协同工作的未来，无疑又近了一大步。OmniXtreme，或许就是打开那扇大门的第一把钥匙。

相关文章