继Deepseek后, 中国又迎来“Spirit时刻”: 具身智能也登顶了 | 前沿在线

继 Deepseek 在语言模型领域登顶后,中国模型又一次在全球统一标准下拿下第一。这次,是具身智能。Spirit v1.5 的登顶,意味着中国团队训练出的机器人“大脑”,开始具备真正的世界级通用能力。

编辑:前沿在线 编辑部

2025年3月,Deepseek冲上Hugging Face Trending榜首,引爆了那句圈内刷屏的评论:“中国第一次用开源模型把chatGPT挤下去了。”

那一刻不只是一次排行榜事件,而是国产通用模型从 “追得上” 到 “开始压线” 的节点,标志着中国团队能在全球共享的 benchmark 上赢得公平赛道。

现在,这一幕在另一个原本更难追上的领域 —— 具身智能,也悄然发生了。

2026年1月12日,千寻智能开源自研基础模型Spirit v1.5,并在由Hugging Face、Dexmal等机构联合发起的真机评测平台RoboChallenge上,以综合得分66.09任务成功率50.33%的成绩,击败了长期领跑的 Physical Intelligence 的 pi0.5,登顶榜首。

这不是一个 “演示视频更流畅” 的胜利,也不是国产模型 “又一次在自己主场称王”,而是:第一次有国产具身模型,在一个全球通用的硬标准下,拿到了第一。这是具身智能的 “Spirit 时刻”。

从 Deepseek 到 Spirit,中国模型两次在 “全球标尺” 下赢了

在讲 Spirit v1.5 为什么值得关注前,我们先厘清一个问题:它到底赢在哪儿?又赢得算不算数?

因为我们都知道,AI 行业并不缺 “自封的第一”。过去一年,几乎每个月都有 “XX 模型超过 GPT”“XX 跑赢 LLaMA” 的宣传,但真正能引起行业结构性认知变化的,只有那几次 “全球可验证、真实登榜、公开对比” 的胜利。

比如 Deepseek 登顶 Hugging Face Trending,打破的是 GPT 开源生态长时间的统治格局。

而这次,Spirit v1.5 拿下的,是具身智能领域目前唯一一个 “统一硬件 + 标准任务 + 远程真机 + 全公开评分” 的国际评测平台 —— RoboChallenge。

这个平台自 2025 年底上线以来,做了一件大家早该做但没人真做成的事:用一套统一设备(如 Franka、ALOHA、UR5)、统一操作任务(Table30 任务集),让来自全球的机器人模型站在 “同一个肉身” 上,接受公开考试。它像是同时具备统一基准价值(类似 ImageNet/GLUE)真实场景落地属性(类似 RealRobot) 的评测体系,第一次把 “具身智能的理解、规划与执行能力”,从演示视频里拉到同台竞技的公开榜单上。

Spirit v1.5 就是在这套规则里,拿下了榜首,成为 RoboChallenge 成立以来,第一个打破 Pi0.5 连续霸榜的选手,也是第一个开源的登顶者。

所以如果你认同 Deepseek 带来的 “全球标尺下的中国时刻”,那么 Spirit v1.5,就是具身智能领域的对应场景落地。而且,从多个角度看,这甚至是个更难的胜利:

  • 语言模型 至少在文本语料和基准评测体系上是比较成熟的
  • 具身智能 则是一个连 “如何比” 都刚刚建立共识的领域

所以,这次 Spirit 的登顶,更像是两件事一起完成:

  1. 中国模型第一次赢了
  2. 全球行业第一次确认:现在可以比了

这不是普通的 “又一张榜单第一”,而是真正意义上的对等竞技场初次逆转。

RoboChallenge 不只是榜单,而是 “具身智能的度量衡”

Spirit v1.5 的胜利之所以值得书写,并不只是因为它 “比 Pi0.5 分数更高”,而是它赢的这个地方,是目前全球唯一可以把具身智能模型放在一套硬件上、公平做任务、数据全公开的统一评测平台。

这件事在具身智能领域的意义,相当于当年 ImageNet 之于计算机视觉,GLUE 之于自然语言处理。

它标志着这个领域从 “各自为政的炫技赛” 进入到 “统一问题定义 + 标准化评测 + 可对比结果” 的新阶段。而这种标尺的建立,其实比 “拿第一” 更难。

为什么具身智能需要 “统一标尺”?过去几年,具身智能给大众的印象,大多来自一条条惊艳的演示视频。人形机器人会叠衣服、擦桌子、烹饪、插花、做体操、搬快递箱…… 这些 Demo 往往流量爆棚,也为很多公司带来了融资与话语权。

但在行业内部,这些 “” 长期存在几个老大难问题:

  • 环境是人为设计的:光线、物体位置、执行顺序、甚至可能还有隐形辅助,全部在控制范围内,模型演得漂亮但脱不了 “温室感”。
  • 没有统一题库:一个模型做插花,另一个做打扫,第三个做翻书页…… 任务之间完全无法比较。
  • 评测主语是公司,不是模型:工程干预、手动调参、遥控接管,很难看清 “AI 大脑” 到底能干多少。

于是整个行业开始陷入一个剪辑优先、工程堆叠的尴尬状态大家都在做具身智能,但到底谁家模型能力强?怎么个强法?能不能迁移?适不适合商品化?没有答案,只有视频。

这才是 RoboChallenge 的意义所在:它不只是 “让大家比一次”,而是尝试用统一的题库、统一的身体、统一的运行方式,来回答一句我们过去回答不了的问题:“如果你们的模型都装在同一台机器人上,让它做同一件事,到底谁做得更好?

一套 “硬规则” 带来的行业重塑

RoboChallenge 的三大特征,是它能够成为行业转折点的底气:

1、统一硬件、统一任务、远程操控

  • 所有参赛模型运行在本地,只能通过网络接口向真实机器人发送动作指令
  • 真机平台(Franka、ALOHA、UR5、ARX5 等)在一个标准化的测试环境中执行任务
  • 所有任务执行录像、成功失败标准、操作时长都完全公开这一点,极大削减了工程干预空间:你无法偷偷遥控,也无法用某些场景优化模型,只能靠模型本身的感知、推理、控制能力。

2、Table30 任务集:具身智能的 “考试卷”这个测试包含 30 个标准桌面操作任务,覆盖了从抓取、插入、倾倒,到遮挡物处理、长时序指令、双臂协作等多种真实挑战。这些任务并不是 “秀肌肉” 的项目,而是典型的、难度刚好的真实生活 / 工作场景:

Spirit v1.5部分子项评测分数一栏 (共30项具体评测项目)

Spirit v1.5堆叠彩色方块任务分为10个评价维度,成功率80%,子项总分85分

(spirit v1.5 clean_dining)

(pi0.5 clean_dining)

所以,Spirit v1.5 选择在这个平台上登顶,本身就是一种宣言:不是自己做个榜单跑个分,而是走进公认规则体系,在世界的主场上,赢一次有说服力的分数。更重要的是,这种场景,在国产模型身上并不多见。

Spirit v1.5 赢的不是 “更大”,而是 “更对”

这几年大家看机器人比赛、论文、视频看的多了,逐渐都默认了一件事:要训练出一个能干活的机器人,就得靠 “干净数据”—— 成功率高、动作标准、物体摆放整齐、环境清晰、路径可复现。像搭积木一样,搭出一个看上去 “什么都会” 的模型。

但问题是,这种 “干净”,很多时候反而变成了一种诅咒。

Spirit v1.5 这次能赢,并不是在现有框架里优化得更极致,而是它主动抛弃了这些 “干净标准”,选择从一开始就走一条更贴近现实、更泛化但也更混乱的路径:非结构化、多样化、目标驱动的数据采集范式。

千寻团队没有给采集员写详细剧本,而是只设定高层任务目标,比如 “清理厨房”“浇花”“放回物品”,剩下的流程由采集员在真实场景中自由执行。

在执行过程中,会自然出现诸如 “抓取 – 移动 – 整理 – 擦拭” 等多个原子技能的连续衔接,有遮挡、有偏差、有失败、有临场调整,甚至还有跨任务的中断与恢复。

这种方式的最大价值在于:它让模型不再像演员那样只记住一套流程,而是开始像人类一样,习得 “处理现实意外的能力”。

我们都知道,真实世界的环境是动态、复杂、充满意外的,而传统的精选演示数据,恰恰屏蔽掉了这一层复杂性。你给模型看了一千遍成功插花,它还是不知道插花失败后怎么调整手臂角度重新插。

Spirit 的训练方式打破了这一限制。它的训练数据中自然包含失败、遮挡、任务干扰和环境变化。模型在这种高多样性的情境中训练,就学会了在 “出错” 时如何调整,在 “混乱” 中保持策略,在 “变化” 中找到路径。

这不只是理论上好听,官方通稿里还给出了实打实的对比实验:

  • 在同样数据量下,采用多样化采集的模型,在新任务上的微调迭代次数减少了约 40%;


多样化采集预训练的模型比干净数据采集训练的模型具有更快的收敛速度和更好的验证误差。

  • 模型在验证任务上的误差随着数据规模扩大持续下降,没有出现 “早期饱和”;
    并且,这种范式还带来了显著的工程效率提升 —— 人均有效采集时间提升 200%,算法专家干预需求减少 60%。


不同数据规模下的模型效果。扩大多样化采集的数据规模可以持续降低模型的验证误差。

注意:这些指标不是出现在某个 “特定任务上调得好” 的模型上,而是出现在一个跑通了 30 项任务、覆盖 Franka、UR5、ARX5、ALOHA 等多平台、多形态、多任务的通用模型上。

这就意味着,它不是 “针对某一场景表现出色”,而是真正具备了泛化潜力。

你可以说,Spirit v1.5 赢的不是 “更猛的参数” 或 “更巧的架构”,而是从最底层的采集逻辑开始,就在训练 “一个懂得现实的人”。这在具身智能还高度依赖工程兜底和脚本堆叠的今天,是一次非常少见的思路胜出。

而从结果看,它确实让这条路跑通了 —— 不仅打穿了榜单,也为全行业提供了一种新的 “基础模型可行路径”。

这不是一次模型优化,而是一场数据范式的换代

如果说 Deepseek 的那一刻,第一次让全球开发者在 Hugging Face 上认真看向了中国模型,那 Spirit v1.5 的登顶,则让人意识到:中国不止会在自然语言模型上玩开源,也能在最具落地门槛、工程复杂度最高的具身智能赛道上,开出一条自己的路,而且,已经比很多人想象中快一步。

更关键的是,这两次胜利之间,有着惊人一致的结构:都是在全球主流 benchmark 下完成了突破、都选择了开放共享的方式发布、都不只是“模型性能高”,而是在数据策略与训练逻辑上,提出了新范式

这才是值得被称为“Deepseek 式胜利”的地方。

过去我们讲国产模型的胜利,总习惯性带着点自卑语气:“也能行了”“终于追上了”“国内也可以”。但 Deepseek 和 Spirit 的共同之处恰恰在于:它们的成功不是从模仿出发,而是从认知升级出发;不是一步步压线追平,而是直接在方法论层面提出新标准。

你回头看,会发现它们都完成了几个关键的叙事跃迁

第一,是从“追平”到“定义”的转变。

  • Deepseek 把中文主导语料训练模型、结合指令微调、工程流公开部署做成了 Hugging Face 上的范式案例,成为后续众多开源双语模型的技术参考;
  • Spirit 也是一样,从数据采集范式就开始自立门户,拒绝脚本化、标准化演示样本,转而采用更贴近人类真实操作路径的自由采集机制,构建的是一个全流程贴近真实物理环境的训练体系。

这两件事都不是“参数更优”“指标更高”就能做到的,而是:你提出的路线,比别人那套更合理、更有普适性、也更容易被社区继承。

第二,是从“开源是追赶”到“开源是领先的一部分”的认知变化。

很多团队说开源,只是因为跑不过 GPT;但 Deepseek 和 Spirit 选择开源,是一种正向选择,是对自己训练逻辑、模型质量、推理接口、社区文档成熟度的自信表达。

更重要的是,他们都在用“开源”作为推广模型范式、构建合作共识、打通上下游生态的第一步。这不再是“研究导向”的展示品,而是“产业导向”的基础设施。

说白了,开源不再是战术,而是一种战略,是模型胜出的 延续条件,而不只是前戏。

第三,是从“模型领先”到“路线成立”的落点变化。

你可以有很多高光模型,但如果没人能在你之后走下去,那它很可能只是一次工程奇迹。而 Deepseek 和 Spirit 的路线,真正跑通了方法论的闭环。

  • Deepseek 让国内越来越多团队参考其指令数据构建方式、压缩推理部署路径、中文向训练技巧;
  • 而 Spirit 则已经成为国内多家研究团队在具身预训练任务上采样机制与泛化能力设计的标杆案例。

这才是一个范式成立之后,最重要的特征:它不只是一个项目成功,而是一整套技术逻辑开始被行业复用,成为“标准答案”之一。

所以,如果你问,Spirit v1.5 是不是一次中国模型的战术性突破?我会说,不,它不是“偶尔跑赢一次”的故事,它是我们路线成立之后,在一张全球标准考卷上交出的那一份有说服力的答卷。

而正是这张答卷,让我们不仅赢了当前的比赛,更为下一轮全球模型竞赛写下了自己的题目。

开源不是 “顺带一下”,而是一种能力,一种态度,也是一种宣言

Spirit v1.5 登上 RoboChallenge 榜首的第二个震撼,是它在赢的同时,选择了立刻全量开源。不是只发个模型链接意思一下,而是连同基模权重、推理代码、调用样例都一并放了出来,结构清晰、文档完善。那种 “我不怕你复现,也欢迎你来接着做” 的姿态,不只是展示实力,更是一种罕见的主动姿态。

要知道,在具身智能这个领域里,开源从来都不是默认选项,反而是例外。尤其是高性能模型,一旦跑出好成绩,很多团队的第一反应都是 “先封起来”,毕竟这个领域的门槛高、工程重、资本热,谁都想先拿着成果去融资、接项目、谈生态。

但 Spirit 并没有把这当成一个 “技术护城河”,而是反过来,把它变成一个 “产业底座”:欢迎你在我这之上搭建应用、构建生态、开展合作。

这不仅仅是自信的问题,更是意识的问题。具身智能产业迟早要走到生态化阶段,一个模型想走得远,不能只靠自己能做什么,还得看别人能不能在你身上做点什么。

  • 能不能快速复现?
  • 能不能移植到不同机器人?
  • 能不能兼容不同任务?
  • 能不能在不懂算法的场景方手里跑起来?

这背后靠的不是性能指标,而是开源的质量、工程的完备度、文档的友好程度、范式的普适性。Spirit v1.5 交出来的这套东西,已经能被国内外的研究者直接调起来在真机上复现任务,也意味着一套通用具身模型的 “复用路径” 正在形成。

而这对下游厂商而言,信号非常明确:你不需要从零做模型,也不需要绑死在海外 API 上。在过去的几年里,那些高性能的具身模型不是不开,而是不能用:Google RT 只发了 paper,不开权重;Figure 展示了效果,但系统封闭;一些开源模型虽然存在,但性能过低,难以商用。

而 Spirit 现在交出的是一个 “性能可比 Pi0.5、架构全量公开、兼容多机器人” 的真实底座 。这类模型,一旦经得起复现和落地验证,很快就能变成行业共用的 “基础设施”。而当一个模型能变成基础设施,它就有了真实意义上的产业号召力,不再只是实验室里的好看作品。

所以说,Spirit v1.5 开源的,不只是代码,也不只是 “透明”。它开源的,是一种新的产业策略。是说:我们不玩壁垒,我们搭地基;我们不等独角兽,我们先把路修出来。你愿意走进来,我们不设门槛。

这,是中国具身智能在全球舞台上,第一次有底气说出这句话。

中国机器人产业,终于开始比 “大脑” 了

这几年,谁去过几场机器人展,就会明白一个现实:中国的机器人,从 “身体” 层面,从来不缺惊喜。一个比一个轻,一个比一个稳,腿越做越多,手越做越巧,身形逼近人类,甚至跳舞、打拳、翻跟头、耍手绢…… 样样不在话下。

但很多行业人也知道:越是炫技的动作,背后越是工程化编排。动作是精调出来的,流程是脚本堆出来的,甚至某些 “具身智能模型” 的名字,更多是出现在 PPT 和发布会中 —— 真正起作用的,是工程师连夜调的参数、默契配合的操控台,还有被剪辑过无数次的演示视频。

我们擅长制造一个 “会动的身体”。但要造出一个 “能想的大脑”,一直是最短的那一块板。

所以前几年,中国团队的共识几乎就是:先把躯体搞出来,智能先靠工程兜底。动作能跑就行,模型慢慢补。

Spirit v1.5 是这条路径的一个分水岭。它是第一次,中国团队不是用工程表演拼 “智能”,而是用训练范式和泛化能力,在一张国际统一标准的考卷上,以模型为主角,赢得一场无可争议的具身智能硬仗

而且这场胜利足够扎实:是真机评测、统一任务、多构型平台、多步骤任务,全套打下来,比的是迁移能力、策略泛化、失败恢复、任务理解 —— 这些能力,不可能靠脚本堆出来,必须是模型自己 “学” 出来的。

这说明一个事实正在发生变化:国产机器人不再只靠姿势取胜,而是开始真正构建自己的 “认知中枢”。过去我们能造出能跑、能跳、能举重的身体;现在我们开始造出能决策、能适应、能变通的大脑。

这不是技术指标的变化,而是技术认知和产业定位的变化。从 “谁动作更稳” 到 “谁泛化能力更强”;从 “谁现场 demo 更惊艳” 到 “谁能复现、能落地、能服务多个场景”。

这背后,其实是一整代机器人开发逻辑的转变。从工程先行,走向智能主导。从 “用代码堆功能”,走向 “用模型学策略”。

Spirit v1.5 只是起点,但它标志着中国具身智能产业,已经走出了 “只有肌肉没有大脑” 的阶段,开始迈向智能主导的产业结构升级。

真正的具身智能,从来不是哪个机器人能做什么动作,而是:它能不能学,能不能变,能不能在失败之后继续做正确的事。

而接下来,比的不是谁喊得响、视频做得好,而是 —— 谁的模型,真能在真实世界里站得住。

继 DeepSeek 之后,中国又赢了一次 “起点之战”

还记得 2025 年 DeepSeek 刷屏 Hugging Face Trending 热榜的那个瞬间吗?那一晚,无数人第一次意识到,中国不只是能开源出一款 “差不多” 的大模型,而是能做出真正领先的通用语言模型,并靠社区力量跑到全球开发者的核心视野里。那被称为 “中国开源大模型的高光时刻”。

而现在,Spirit v1.5在 RoboChallenge 登顶,同样开放出完整的具身大模型底座,意味着我们在具身智能这个更靠近物理世界、更接近工业难度的赛道上,也迎来了属于中国的 “开源主角时刻”。

语言之后,是行动。大脑之后,是身体。

从 DeepSeek 到 Spirit,这两个 “高光节点” 的共同点都不是它们技术上有多极致,而是 —— 它们都把开源这件事,做到了基础设施级的完成度。不是半封闭的 checkpoint,不是好看的展示页面,而是真正可用、可跑、可拓展、能打通上下游系统的 “工程化开源”。

我们都知道,在 AI 的世界里,“第一” 这两个字并不稀缺。每周都有新模型,每天都有新榜单,抢热度、争发布、刷存在感,行业早已习惯。真正稀缺的,是那种能被长期绑定、能够沉淀为生态起点、能撑起别人项目、成为别人方案的一部分的模型。

Spirit v1.5 是目前我们看到的,具身智能领域中第一个具备这个潜质的国产模型。它背后连接着完整的技术路径(多样化采集范式)、产品思路(可复现、多任务迁移)、工程能力(多构型适配)、以及最重要的:开源出来的勇气和组织能力。

这是一种行业信号,也是一种战略姿态。过去中国的具身智能总被贴上 “硬件强、智能弱” 的标签。今天开始,有团队用一个完整、开源、性能领先的通用模型,给出了不一样的答案。

当然,这并不意味着我们已经赢了。RoboChallenge 的榜单会变,开源模型的竞争会加速,下一代具身模型可能转向端侧部署、极简架构、甚至多模态协同。

但正如当年 ImageNet、GLUE、OpenAI Gym 之于计算机视觉、自然语言与智能体训练的意义一样:只要你能在 “统一基准” 下拿到一次真正领先的结果,并开放给全球社区验证、使用和超越,你就为中国具身智能赢得了关键的 “起点话语权”

这一次,是 Spirit。

再下一次,会是谁?

开源地址:

Code: https://github.com/Spirit-AI-Team/spirit-v1.5Model:https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5Blog:https://www.spirit-ai.com/en/blog/spirit-v1-5

– END –

Frontiers
Frontiers
文章: 224