GO-1:智元推出的首个通用具身基座模型

GO-1是什么? GO-1是智元机器人发布的通用具身基座大模型,采用ViLLA架构,结合视觉、语言、隐式动作和执行能力。它通过学习人类视频和少量样本泛化新任务,支持多机器人形态并持续进化。GO-1代表了具身智能向通用化、智能化发展的新阶段,预示着机器人将具备更广泛的应用潜力。 GO-1的主要特点 ViLLA架构:GO-1采用Vision-Language-Latent-Action (ViLLA)…

核心架构解析

GO-1采用创新的ViLLA架构(Vision-Language-Latent-Action),融合多模态大模型(VLM)与混合专家系统(MoE)。其中,VLM模块通过海量互联网图文数据构建场景感知和语言理解能力;MoE中的隐式规划器(Latent Planner)解析人类动作视频生成抽象指令,而动作专家(Action Expert)依托百万级真机数据实现精细操作,形成“感知-规划-执行”闭环。


四大核心能力

  1. 人类视频学习
    通过分析互联网视频和真人示范,直接学习复杂技能。例如,仅需500段擦桌视频即可掌握不同材质桌面的清洁力度控制,学习效率比传统模型提升45%。
  2. 小样本快速泛化
    在极少数据下适应新场景。以“倒水”任务为例:传统模型需1万-5万条训练数据,GO-1仅需1000条,后训练成本降低90%。
  3. 一脑多形适配
    同一模型可部署至机械臂、人形机器人等不同本体。工业测试中,GO-1在3天内完成从抓取零件到厨房辅助的跨场景切换,故障率下降32%。
  4. 持续进化机制
    内置数据回流系统实时优化表现。实际测试显示,机器人在执行“泡茶”任务时,通过10次迭代将水温控制精度从±15℃提升至±3℃。

性能突破性进展

在五大类家务任务测试中,GO-1平均成功率高达78%,较前代模型提升32%。核心场景表现如下:

  • 倒水任务:识别12种容器材质,液体溅洒率降至4%
  • 桌面清理:动态避让障碍物,通行成功率98%
  • 饮料补给:多物体抓取效率达每分钟7件。

关键突破源于隐式规划器——将动作分解为可复用标记(如“抓取”“倾斜”),使跨任务泛化效率提升12%。


开源生态与产业应用

基于百万级数据集AgiBot World(覆盖217项任务、100+真实场景),GO-1已实现:

  • 工业场景:汽车工厂螺栓紧固精度达0.1牛·米
  • 家庭服务:老年护理机器人跌倒响应时间缩短至5秒
  • 商业扩展:与阶跃星辰合作开发多模态控制接口。

产品评测分析

GO-1大模型综合评分:★★★★☆(4.5/5)
优势亮点

  • 泛化能力颠覆性:零样本任务适应率超同业40%,大幅降低部署成本
  • 进化机制实用化:3个月家庭测试中任务效率提升27%,具备真实场景学习价值
  • 生态开放性:支持第三方硬件接入,加速行业解决方案开发

待优化方向

  • 实时响应延迟:复杂指令处理需500-800ms,低于工业级毫秒标准
  • 长时序任务局限:超过20步骤的任务链成功率不足60%
  • 硬件依赖度高:需搭配六维力传感器等精密部件,单机成本超$5万

评分依据:在泛化性、进化能力等核心指标上定义行业新高度,但产业化成本与复杂任务稳定性仍需突破。


项目资源

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧