2025年7月22日,字节跳动Seed官方公众号宣布推出通用机器人模型GR-3及配套的通用双臂移动机器人ByteMini。GR-3凭借独特的网络结构和数据训练法,展现出强大性能,在多种任务中表现卓越,字节跳动Seed团队还计划进一步提升其性能,期望它成为迈向通用机器人“大脑”的重要一步。
GR-3模型的核心优势
GR-3模型拥有出色的泛化能力和对抽象概念的理解能力。与传统VLA模型不同,它通过少量人类数据即可实现高效微调,快速且低成本地迁移至新任务、认识新物体。其采用Mixture-of-Transformers(MoT)网络结构,将“视觉-语言模块”和“动作生成模块”紧密结合,形成40亿参数的端到端模型,能依据摄像头画面和语言指令迅速计算动作。例如听到“收拾餐桌”指令,它能自动完成“打包剩菜、收拾餐具、倒垃圾”等一系列连续动作。此外,GR-3采用三合一数据训练法,结合遥操作机器人数据、人类VR轨迹数据以及公开可用的图文数据,提升模型性能。其中,遥操作机器人数据提供基础操作能力;人类VR轨迹数据使GR-3能低成本快速学习新任务,采集效率比传统方法快近一倍;公开图文数据提升泛化能力,让其认识更多物体、理解更复杂抽象概念。
ByteMini机器人的特点与功能
ByteMini机器人是为充分发挥GR-3模型能力而设计的通用双臂移动机器人。它拥有22个全身自由度和独特的手腕球形设计,动作快速稳定,能像人类一样灵活操作,在狭小空间内完成精细操作,如整理收纳盒、抽屉内物品。该机器人搭载全身运动控制系统,抓取易碎物品时可自动调整力度。同时配备多颗摄像头,手腕摄像头捕捉细节,头部摄像头观察全局,确保准确执行任务。
GR-3模型在实际应用中的卓越表现
在实际应用中,GR-3模型展现出卓越性能。在通用拾取放置任务中,面对训练中未见过的物品和环境,仍能保持高指令遵循率和成功率,在从未见过的卧室书桌、超市柜台等场景中性能几乎无衰减。在长程餐桌清理任务中,仅凭“收拾餐桌”总指令,就能自主完成全流程操作,平均完成度超95%,还能严格跟随人类分步指令。在柔性衣物精细操作任务中,无论是长袖还是短袖衣物,GR-3都能稳定完成挂衣服任务。经过上千次系统性实验测试,GR-3表现超过业界此前可测试具体性能的VLA头部模型π0。
GR-3模型的未来发展规划
字节跳动Seed团队计划进一步扩大GR-3模型规模和训练数据量,提升其对未知物体的泛化能力。同时,团队将引入强化学习(RL)方法,突破现有模仿学习局限,让机器人在实际操作中通过“试错”,从成功和失败中自主学习调整动作与策略,如物体滑落时如何快速重新抓取等。字节跳动Seed团队期望通过持续研究和探索,让GR-3成为迈向通用机器人“大脑”的重要一步,未来使机器人操作大模型真正进入人们日常生活,成为通用机器人助手。
以上文章由 AI 总结生成