
中国北京时间2025年2月21日,Figure公司宣布了一项革命性的技术突破——首次实现了两个机器人的「共脑」协作。这一创新不仅引发了科技界的广泛关注,也让网友们直呼“太恐怖”。
据悉,Figure公司此次推出的技术核心是其首个人形视觉-语言-动作模型(VLA)——Helix。该模型被直接装入人形机器人的大脑中,使机器人具备了感知、语言理解和学习控制的能力,成为一个端到端的通用模型。Figure公司的一大目标就是发展家庭机器人,而Helix正是为了实现这一目标而诞生的。它使机器人能够像人一样推理,处理各种家庭用品。
令人惊叹的是,Helix不仅能够单独控制一个机器人,还能首次同时操控两台机器人,让它们实现「共脑」合作。这意味着两台机器人可以共同解决复杂的、长序列的操作任务,即使面对从未见过的物品也能游刃有余。例如,当被要求“捡起沙漠物品”时,两台装备了Helix的机器人会识别出玩具仙人掌,选择最近的手,并执行精确的电机指令以牢固地抓住它。它们甚至还能将物品放置在冰箱中,这一协作过程流畅而高效。
这一技术的突破在于,Helix采用了单一神经网络权重学习所有行为,无需任何特定的微调。此外,它还是首款完全在嵌入式低功耗GPU上运行的VLA模型,为未来商业部署甚至走入家庭打下了坚实的基础。
Figure公司的研发团队表示,Helix是首个由「系统1,系统2」组成的VLA模型。系统2(S2)是VLM主干网络,经过互联网规模数据的预训练,用于场景和语言理解,可以对不同的物体和场景进行泛化。而系统1(S1)则是一个80M参数的交叉注意力Transformer,依靠一个全卷积的多尺度视觉主干网络进行视觉处理。这种解耦架构让每个系统都能在最佳时间尺度上运行,S2可以「慢思考」高层目标,S1则通过「快思考」来实时执行和调整动作。
在协作任务中,S1能快速适应伙伴机器人的动作变化,同时维持S2设定的语义目标。这种能力使得Helix不仅达到了专门针对单任务行为克隆策略的运行速度,还能对数千个全新测试对象实现零样本学习。此外,Helix还能直接输出高维动作空间的连续控制,避免了先前VLA方法中使用的复杂动作token化方案。
这一技术的推出无疑将从根本上改变机器人技术的发展轨迹。传统上,教会机器人一个新技能需要大量的人力投入,要么需要博士级专家花费数小时进行手动编程,要么需要数千次的示教。然而,有了Helix,这些曾经需要数百次示教才能掌握的新技能,现在只需通过自然语言与机器人对话就能立即获得。
网友们对这一技术的反应热烈。有人表示,“这一刻让我瞬间不寒而栗”,认为这种技术的发展可能会带来不可预测的后果。也有人认为,“这非常令人印象深刻”,甚至有人已经迫不及待想要购买两台装备了Helix的机器人来体验一下这种前所未有的协作能力。
随着技术的不断进步和应用场景的不断拓展,机器人将在未来发挥越来越重要的作用。而Figure公司的Helix技术无疑为机器人的发展开辟了新的道路,让我们共同期待这一技术未来在家庭、工业、医疗等领域的广泛应用吧。