10 月 10 日消息,字节跳动研究团队最新推出了第二代机器人大模型 GR-2(Generative Robot2.0),其亮点在于创新构建“机器人婴儿期”学习阶段,模仿人类成长学习复杂任务,具备卓越的泛化能力和多任务通用性。字节跳动研究团队推出的第二代机器人大模型 GR-2 具有诸多亮点:
- 训练过程:
- 预训练:和许多大模型一样,GR-2 的训练包括预训练和微调两个过程。在预训练阶段,GR-2 “观看” 了多达 3800 万个来自各类公开数据集的互联网视频,这些视频涵盖了家庭、户外、办公室等多种日常场景,这让 GR-2 具备了学习多种操作任务和在多种环境中泛化的潜能,拥有了对世界的深刻理解。
- 微调:在经历大规模预训练后,通过在机器人轨迹数据上进行微调,GR-2 能够预测动作轨迹并生成视频。这种能力提升了其动作预测的准确性,也为机器人的智能决策提供了新的方向。
- 任务表现:
- 高成功率:在多任务学习测试中,GR-2 能够完成 105 项不同的桌面任务,平均成功率高达 97.7%。
- 强泛化能力:其强大之处不仅在于能够处理已知任务,更在于面对未知场景和物体时的泛化能力。无论是全新的环境、物体还是任务,GR-2 都能够迅速适应并找到解决问题的方法。
- 实际应用突破:
- 端到端拣选:在实际应用中,GR-2 相比前一代的一个重大突破在于能够端到端地完成两个货箱之间的物体拣选。无论是透明物体、反光物体、柔软物体还是其他具有挑战性的物体,GR-2 均能准确抓取,展现了其在工业领域和真实仓储场景的巨大潜力。
不过,尽管 GR-2 在互联网视频上接受了大规模的预训练,但真实世界动作数据的规模和多样性仍然有限,这也是其未来需要改进的方向。总体而言,GR-2 预示着机器人大模型技术将爆发出巨大潜力和无限可能。ByteDance Research 提出机器人大模型,具备世界建模和强大泛化能力 |