重磅发布 | 星海图全身智能VLA模型首发!全球首个开放场景高质量真机数据集!全面开源!

今天,星海图正式发布端到端双系统全身智能VLA模型——星海图G0。

项目网站:https://opengalaxea.github.io/G0/

我们构建了全球首个开放场景高质量真机数据集 Galaxea Open-World Dataset,并提出了快慢双系统架构。结合System-2(规划,G0-VLM)+ System-1(执行,G0-VLA)异步运行,实现从视觉和语言指令到23自由度全身控制的长程任务执行。

同时,我们还提出了3阶段训练方法,使用跨本体预训练泛化感知与语言理解,再用单本体高质量数据精训动作控制,最后少样本后训练提升特定任务表现。

G0模型评测结果全面优于 π0 完整模型,作为全球首个开放场景下的高质量真机数据集,即将面向所有具身智能开发者全面开源。这一进展将为相关领域的技术研发提供扎实的数据与模型支持,助力全球开发者更高效地推进具身智能的研究与应用。

重磅发布 | 星海图全身智能VLA模型首发!全球首个开放场景高质量真机数据集!全面开源!

星海图端到端双系统全身智能VLA模型G0

全球首个开放场景高质量真机数据集:

Galaxea Open-World Dataset

星海图开放世界数据集(Galaxea Open-World Dataset )在真实的人类生活与工作场景中完成采集任务,覆盖住宅、厨房、零售和办公室等 50 种环境,总计包含 500 小时高质量移动操作数据,涵盖超过 150 种任务、1600 多种操作对象以及 58 种操作技能。

数据集基于统一的机器人平台(星海图 R1 Lite)采集,硬件配置正装双 6 自由度机械臂、3 自由度躯干、可全向移动的底盘,以及多视角 RGB-D 摄像头。统一硬件设计保证了所有数据具有一致的动作空间和感知输入,使模型能够在不同任务和场景中保持动作参数的一致性。此外,Galaxea Open-World Dataset 在采集过程中特别强调多视角覆盖和自然光照条件,确保感知信息更加接近真实部署环境,减少领域适配成本

重磅发布 | 星海图全身智能VLA模型首发!全球首个开放场景高质量真机数据集!全面开源!

Galaxea Open-World Dataset使用星海图R1 Lite单一本体采集

数据集中的任务既包括常见的桌面整理、物体抓取与家电操作等短时序动作,也包含如铺床等需要全身协调和多步推理的长时序任务,显著增加了数据集中任务分布的多样性和复杂性。

重磅发布 | 星海图全身智能VLA模型首发!全球首个开放场景高质量真机数据集!全面开源!

数据多样性统计:(a) 总交互时间的分布显示在四个主要场景类别中:住宅、零售、餐饮和办公。 (b) 轨迹数量呈现了丰富的对象子类别,这些子类别被归类为更广泛的类别,如电子产品、家居用品和家具等,用以展示数据集中广泛的可交互物品范围。

重磅发布 | 星海图全身智能VLA模型首发!全球首个开放场景高质量真机数据集!全面开源!

数据集任务统计,时间特征和结构特征:(a) 任务完成时间的分布显示,大多数任务的时长处于中等范围,但数据集中也包含大量复杂且长时间跨度的任务。(b) 任务复杂度(以每个任务所包含的子任务数量衡量)呈现出较大差异,涵盖了从简单动作到复杂多步骤流程的广泛范围。

重磅发布 | 星海图全身智能VLA模型首发!全球首个开放场景高质量真机数据集!全面开源!

动作数据统计:(a) 按身体部位使用情况划分的交互时间分布,展示了动作类型的多样性,从单纯的“仅手臂”操作到协调的“全身”动作。(b) 技能的长尾分布凸显了数据集中丰富的动作词汇,既涵盖了高频、基础的动作(如“抓取”、“放置”),也包括了大量更为专业化的技能。

在标注体系方面,Galaxea Open-World Dataset 对每个任务进行了子任务级语言标注,即将一个完整任务分解为多个具有明确语义的动作步骤,并精确对齐对应的感知与执行数据。这种细粒度标注不仅支持动作级别的监督学习,还为训练高层任务规划模块提供了可直接利用的序列化知识。

我们发现,数据标注在训练 VLA 模型中具有非常重要的意义,其中语言(Language)的存在尤为关键——它不仅定义了人类与机器人之间的交互界面,还能将长程任务拆解为更易执行的小任务,从而帮助机器人更高效地完成目标。

与大多数在模拟环境或受控实验室采集的数据集相比,Galaxea Open-World Dataset 在场景真实性、任务多样性和动作复杂度上均有显著优势。它能够直接反映机器人在非结构化环境中面临的感知噪声、对象遮挡、动作冗余和任务干扰等实际挑战,从而为模型的泛化性和稳定性提供更有价值的训练信号。这些特性使 Galaxea Open-World 不仅适合作为具身智能模型的预训练数据源,也能够作为评估移动操作与多模态任务规划能力的高标准基准。

双系统全身智能模型:

慢思考、快执行

G0模型采用“双系统”架构,以“慢思考、快执行”为核心理念,借鉴生物进化中大脑皮层与小脑不同频率运作的分工机制,实现能量利用效率最优。系统 1 (System 1)与系统 2(System 2) 在不同速度上进行推理,并通过数据交互相互转化;多轮任务后,模型可将策略固化为记忆,实现自主化与下意识执行。

双系统结构将机器人控制分为高层思考与低层动作两个模块。高层的 G0-VLM 是一个视觉语言模型,负责解析自然语言任务指令,进行多模态推理并分解为可执行的子任务,相当于“系统 2(System 2)”的推理与决策功能。

低层的 G0-VLA 则是视觉-语言-动作模型,以高频率执行具体动作并进行闭环控制,对应“系统 1(System 1)”的快速反应能力。两者异步运行:G0-VLM 以 2 Hz 的频率输出子任务指令,G0-VLA 则以15 Hz 的频率执行动作和200Hz进行控制,从而实现全局规划的智能性与局部执行的高响应性。

重磅发布 | 星海图全身智能VLA模型首发!全球首个开放场景高质量真机数据集!全面开源!

星海图G0-VLA模型架构图

三阶段学习训练策略:

渐进提升性能以掌握复杂技能

为了同时提升跨平台泛化能力和目标平台的适配性,G0 模型的训练分为三个阶段:

第一阶段跨本体预训练(Stage-1),在多种机器人形态的大规模无标注数据上训练 G0-VLM 模块,获取通用的感知-动作先验。

第二阶段单本体预训练(Stage-2),利用 Galaxea Open-World Dataset 在目标机器人平台上训练全模型,强化语言与动作的精确对齐,并适配平台的动力学与运动学特性。

第三阶段任务后训练(Post-training),使用少量高质量的示范数据进行微调,以掌握特定的复杂技能。实验表明,单本体预训练对于长时序全身控制任务至关重要,例如在铺床任务中,该阶段训练显著提升了底盘与躯干的协同控制精度,而仅进行跨实体预训练的模型在该类任务上的表现甚至不如从零训练的模型。

如此一来,三阶段策略通过跨本体预训练获取通用知识、单本体预训练适配目标平台、任务后训练精通特定技能,逐步优化模型性能,最终实现对复杂技能的掌握。

模型评测全面超越π0:

全身动作、长续任务、柔性操作、语言理解优势突出

与当前主流开源模型相比,G0 在多项任务中表现优于π0,并在部分任务上实现了高达 20% 的性能提升。经过更激进的训练实验,即使训练数据仅有 20 条,G0 依然保持了优异表现。

我们在桌面整理、微波炉操作、铺床和积木堆叠四个基准任务上评估了模型性能,这些任务涵盖精确抓放、双臂协调、设备操作、全身运动控制以及语言指令跟随等多种能力。

在仅使用100 条任务轨迹进行微调的条件下,结合跨本体与单本体预训练的 G0(Full)模型在平均进度得分上表现最佳,全面超越Benchmark模型π0,尤其在物体拾取与放置任务中优势明显

重磅发布 | 星海图全身智能VLA模型首发!全球首个开放场景高质量真机数据集!全面开源!

不同预训练 VLA 模型在多任务及平均进度的任务完成度对比,G0 (Full) 等表现突出

同时,我们在少样本迁移实验中发现,单本体预训练可显著提升适应性,仅用 20 条轨迹即可在新任务中实现平稳、连贯的执行。这一实验结果也表明,跨本体预训练效果显著低于单本体预训练,具身智能模型的能力与其本体高度相关。

重磅发布 | 星海图全身智能VLA模型首发!全球首个开放场景高质量真机数据集!全面开源!

不同预训练 VLA 模型在餐桌清理、微波炉操作任务及平均进度表现对比,G0 (Full) 等 Stage – 2 相关模型多有优势

接下来,我们对本体构型特定动作进行深入分析。铺床是一个长时序任务,需要频繁、协调且精确的全身控制,包括底盘、躯干和双臂。这些都是跨本体数据集(如 OXE)中未体现的特定行为。结果显示,仅经过跨本体预训练的模型,由于与目标平台存在较大的构型差异,在这些技能上表现较弱,甚至有时不如从零训练的模型。这说明跨本体数据并不能替代单本体数据在学习构型特定动作上的价值。

重磅发布 | 星海图全身智能VLA模型首发!全球首个开放场景高质量真机数据集!全面开源!

不同预训练 VLA 模型在铺床任务各子技能及平均进度的表现对比,G0(Stage – 2) 相关模型多占优势

另外,针对 G0-VLM 的任务特定指令微调(SFT)进一步提升了指令-动作对齐的准确率,增幅超过 50%。尤其是在经过专门训练后,指令能够被VLA模型精准执行,证明了机器人需要专业的领域适应性训练。

重磅发布 | 星海图全身智能VLA模型首发!全球首个开放场景高质量真机数据集!全面开源!

经任务特定指令微调后的G0-VLM指令准确性显著超过其他VLM模型

2025WRC现场直击:

刷新现场展示任务难度,稳定完成长程、柔性、全身移动操作任务

在本届 2025WRC 上,星海图将 G0 模型带到展会现场。基于星海图 G0 模型,仅凭少量后训练微调,星海图 R1 Lite 便能完全自主、连续不断地完成床铺整理任务,并将每一步的思考与动作实时投放在大屏幕上,让观众直观看到“机器人在想什么、怎么做”,刷新现场展示任务难度,稳定完成长程、柔性、全身移动操作任务

重磅发布 | 星海图全身智能VLA模型首发!全球首个开放场景高质量真机数据集!全面开源!

星海图R1 Lite在2025WRC现场稳定完成高难度铺床任务

生态共创:

模型参数及数据集,全面开源

Galaxea Open-World Dataset 与 G0 双系统 VLA 模型的结合,为具身智能的训练与部署提供了高保真、可扩展的技术路径。通过真实世界大规模数据采集、规划与执行分离的架构设计,以及分阶段课程学习策略,机器人在非结构化环境中展现了更强的泛化性与稳定性。

随着数据与模型的开源,星海图将为全球开发者搭建起一座跨越技术鸿沟的桥梁,加速具身智能从实验室创新迈向普惠性社会价值的转化。这背后,是星海图向全球开发者敞开技术生态、汇聚集体智慧的赤诚,让每一份创新都能融入具身智能突破的浪潮,共同书写机器人真正服务人类、赋能世界的未来篇章。

访问官网https://galaxea-ai.com,了解我们以及产品技术的详细信息。

访问文档中心https://docs.galaxea-ai.com,查看产品技术手册。

访问https://github.com/userguide-galaxea,探索我们的开源代码仓库。

星海图,与您携手,共创科研教育的智能未来!

Frontiers
Frontiers
文章: 147