8月9日,宇树科技创始人兼CEO王兴兴在北京举办的国际机器人大会上,谈及当时智能机器人暂时还没得到大规划使用的技能妨碍时表明,最大的应战是模型。“现在对具身智能和机器人来说,AI模型彻底不行用,这也是约束当时人形机器人大规划使用最大的卡点。”此外,王兴兴对现在机器人公司挑选的常用技能道路VLA模型架构持置疑情绪。
VLA模型指的是Vision-Language-Action Model(视觉-言语-动作模型),能够把它理解为——让机器“看得懂、听得懂,而且能动起来”的一种AI模型,着重像人相同,从感知环境到自主决议计划并采纳必定的举动。
王兴兴以为,关于VLA模型,现在在实在国际交互中,数据收集的质量和数量都缺乏,即便在VLA模型基础上参加Reinforcement Learning(强化学习练习),仍不行用,模型自身还需求进一步晋级和优化。
“现在机器人大模型相似于处在ChatGPT出来前的一到三年。”王兴兴称。
什么时分才干到达机器人GPT时间?
王兴兴以为,假如有一天,咱们带一台机器人到一个它此前从未去过的环境,随意给它一个指令,比方“把这瓶水递给某位观众”或“协助收拾一下这个房间”,它就能顺利、自主地完结任务。那时就挨近机器人的“GPT时间”了。
本年5月,谷歌在I/O开发者大会上正式发布了新的国际模型Veo 3,这是其首款能够同步生成音效(包含环境音与对话)的AI视频生成模型。
王兴兴以为,谷歌这条视频生成道路技能的收敛速度和成功概率或许会比VLA模型更高,但仍然面对还有许多应战。其间一个首要问题是,视频生成模型过于重视画质,导致GPU耗费十分大。
别的,王兴兴指出,现在还面对的一个大问题是,假如要进一步提高机器人模仿学习的才能,有必要处理Scaling
law,而这一点现在职业做得并欠好。“最简略的比方是,当我练习机器人履行一个新动作,比方学一支新舞或完结一项新任务时,往往需求从零开始练习,这十分低效。抱负情况下,新的练习应该根据已有练习作用,让练习速度越来越快,学习新技能的作用越来越好。”
王兴兴指出,这是一个十分值得深入研讨的方向,Scaling law在言语模型上的成功现已得到验证,但在机器的运动操控上,咱们做的还仅仅刚刚开始,他主张能够重视这方面的研讨。
王兴兴表明,在未来两到五年,除了更低本钱、更高寿数的硬件之外,机器人的技能中心仍将是端到端的具身智能AI模型。
除了宣布讲演,王兴兴在现场还承受了包含央视财经在内的多家媒体采访。
问:在机器人研制层面,还有哪些技能有待打破?
王兴兴:今天我还看到一种说法,马斯克以为未来基本上每个人都不必写代码,AI会协助生成代码。的确,现在AI在写代码这个范畴的技能前进十分快,这也是各家公司十分重视的。简略的程序或简略代码,AI的成功率的确十分高,但假如代码十分复杂,那成功率必定是会下降不少的,这个成功率指的是一遍就成的成功率。
所以我觉得,最大的技能点仍是要把具身智能AI模型做得更好。对职业来说,现在机器人的AI才能还不行用。假如哪一天,在这个场馆里,每台人形机器人都能随意地走来走去,人能随意跟它说点什么,能让它协助干点事的时分,才算到达了一个比较好的临界点。这是咱们的方针,也是当下社会等待机器人能完结的点。
机器人范畴,模型才能优先于数据才能问:现在机器人落地使用的技能难点有哪些?怎么处理机器人通用泛化性以及自主决议计划才能缺乏问题?
王兴兴:现在机器人的硬件才能是够用的,当然缺乏够好,想要更大规划、更低本钱、更高可靠性,硬件必定要继续完善。最大的难点仍是现在整个具身智能AI模型在本质上还没有到达一个阶段性打破的临界点。举个比方,ChatGPT时间在具身智能范畴还没有产生,AI许多情况下是阶梯式的前进。今天或许咱们感觉不到,但忽然有个阶段性的前进,这是十分容易产生的。
别的,言语模型范畴是纯数据驱动的,有满足多、满足好的数据,桑叶2电影无删减版韩语言语模型的功能就会上升得十分快,可是在机器人范畴,这个点反而是很大的一个问题。不管用哪种办法收集的数据,实在放到机器人上,跟什物机器人的误差仍是十分大。
某种意义上,哪怕收集了许多数据,把机器人的数据练习出来布置到什物机器人上,会发现没办法很好地对齐。所以在机器人范畴,特别对AI模型自身才能的要求是需求定位到更高等级。简略说,咱们期望到达什么作用呢?便是只需很少的数据就能把机器人练习出来,成功率很高而且泛化才能很好。咱们期望有这样的模型出来,然后再用数据去练习。而不是现在或许模型都没有,又搞一大堆数据去练习,这个作用其实不是特别抱负。
---------------------
现在,国内多家具身智能和机器人公司都在布局VLA模型、AI数据收集等技能方向。
关于王兴兴的言辞,许多职业人士并不彻底同意。其间,AI国际模型技能公司极佳科技创始人、CEO黄冠发朋友圈表明:“哭笑不得,关于数据、VLA、国际模型的观念也太业余了,主张王兴兴仍是好好做下肢硬件和运控,不要谈AI了!”
链接阅览:
王兴兴「迸裂」讲话:对VLA持置疑情绪,数据并非最要害问题
今天(2025年8月9日),宇树科技创始人兼CEO王兴兴在「2025国际机器人大会」的论坛上,宣布了最新讲演。以下是RoboX收拾出的部分要害讲演内容:
王兴兴表明,本年上半年,整个机器人职业十分火爆,再加上方针的支撑,相关整机厂商及零部件厂商,均匀每家企业至少有将近50%-100%的增加,这意味着需求端拉动了整个职业的开展。
在海外,特斯拉本年大约他们会发布他们第三代的特斯拉的人体机器人,一起包含英伟达、苹果,META等头部企业都在继续推进机器人范畴的开展。
在此布景下,王兴兴共享了几个个人观念:
1、关于本体的误区
之所以机器人还没有大规划使用,并非由于硬件不行好或许本钱比较高。他以为其实从技能层面或许AI视点来说,现在硬件是彻底够用的,这也包含人形机器人和灵活手。
要害问题在于量产,相关的工程问题十分多。
2、具身AI彻底不行用
与硬件比较,更大的应战,仍是具身智能的AI彻底不行用,这也是约束机器人特别人形进行大规划使用的最大问题。
王兴兴以为,现在的智能体AI使用,感觉相似于ChatGPT出来前的1-3年左右。现在业界现已发现了相似的方向以及技能道路,可是还没人把它做出来。
而机器人的临界点应当到达什么程度?他表明,假如哪一天咱们带一个人形机器人来到彻底生疏的会场,和它说,协助把这瓶水带给某个观众,它能够流畅地完结;或许说「把这个房间收拾一下」,它也能自己完结,那就差不多到达了临界点。
“假如快的话,未来的1-3年内仍是很有或许完结的。最慢的话估量3-5年也能够完结,可是现在的确还没有到达这个作用。”
3、要害问题:数据仍是模型?
之所以智能机器人还没到达应有水平,到底是模型的问题,仍是数据的问题?王兴兴给出了一起答案:
“现在全球范围内,咱们关于机器人数据问题的重视度,都有点太高了。现在最大的问题其实反而是模型。”
他以为,现在具身智能和机器人的模型架构不行好,也不行一致。
“在大言语模型范畴,当有了满足多的好数据时,就能把模型练习得越来越好。可是在具身智能范畴,会发现在许多情况下,数据采了却用不起来。咱们对模型的重视现在是相对有点少,反而对数据重视有点太高了。”
4、对VLA模型持置疑情绪
“VLA是一个相对傻瓜式的架构,我个人对它仍是抱一个比较置疑的情绪。”
王兴兴表明,VLA模型关于实在国际的交互,数据质量是不太够用的。有个简略的主意,是在VLA模型上加RL练习,但归纳宇树长时间的测验来看,VLA+RL仍是不行的,模型架构还得再晋级和优化。
5、宇树的做法
上一年,Open桑叶2电影无删减版韩语AI发布了视频生成模型今后,职业界产生了一个主意——假如生成一个「收拾房间」的视频,是不是能让视频生成模型直接去驱动一个机器人去履行?
上一年,宇树就做了这个作业——使用预练习的机器人动作视频,去操控机器人模仿履行。他指出,现在谷歌的全新一代的视频生成模型,也是一个视频驱动的国际模型,相同想完结这样的作用。
“我觉得这个道路的方向,或许比VLA模型的收敛概率还大。可是我没有验证不敢打包票,现在该办法的问题便是,视频生成模型太检测视频生成质量了,导致对GPU的耗费有点大。可是对机器人来说,假如遇到并不需求很高精度的视频生成质量,仍是可行的。”
6、机器人的Scaling law才刚开始
王兴兴指出,现在宇树等品牌的机器人,在跳舞、搏斗等动作上,完结的作用还不错。可是要想进一步全体提高才能,还面对着一个很大的问题。
“现在,机器人范畴的Scaling law,咱们做得十分欠好。举个最简略比方,假如我有一个新的舞蹈要去练习,那么每次参加新的动作,都要从头练习,而是从头开始练习,这是十分欠好的。咱们是期望我每做一个新练习的时分,是能够在之前的练习基础上去做AI练习的。”
他以为,做AI练习的时分,理论上应该练习速度越来越快,学习新技能的作用越来越好。可是全职业界现在还没人能做出来,这是十分值得做的一个方向。
由于这在言语模型上已得到过充沛验证,可是在机器人的运动操控上面,咱们才刚刚开始。
“在未来2-5年,最重要的仍是端到端的具身智能AI模型,模型自身是十分最重要的。”
7、硬件工程优化
更低本钱、更高寿数的硬件,哪怕关于现已开展100多年的轿车职业来说,假如要做一辆很好的轿车出来,工程量仍是十分大的。
“对机器人职业来说,未来或许每年要出产几百万、几千万乃至几亿台的人形机器人。假如要大批量出产制造出来,它的工程量的应战仍是十分吓人的一件作业。”
8、算力布置的局限性
现在,在人形机器人上,或许在移动机器人本体上,没办法直接布置很大规划的算力。这是由于它的尺度和电池都有限,它布置的算力功耗也是有约束的。
王兴兴称,在人形机上,最多只能布置峰值功耗约为100瓦的算力,且平常作业时算力只需几个手机的水平。可是,未来的机器人关于大规划算力的需求必定是毋庸置疑的,而且或许会是分布式的算力。
由于,咱们都期望机器人作业的通讯推迟比较低。此刻假如数据中心或许算力中心在异地,推迟实在是太大了。所以他以为,未来假如一座工厂里有100个机器人,也能够装备集群的分布式服务器,这样其安全性和通讯延时是能够承受的。
再比方,假如一个小区中每家每户都有机器人的时分,该小区也能够有分布式的集群。而且假如有一个新客户想买一台人形机器人的时分,他不需求给这部分算力的建造花钱,本钱也会更低许多。
“我觉得分布式集群是未来在机器人范畴十分重要的构成。”王兴兴说道。
9、全球共创的重要性
他以为,机器人范畴是一个全球共创的进程,包含我国、美国的许多的大企业,咱们在曩昔的许多年和当下,都做了许多奉献,也期望一起推进职业前进。
“在AI范畴,没有一家大公司能确保只需有满足的人、有满足的资源,就能永久保持在AI范畴抢先。OpenAI和DeepSeek现已证明了AI的立异,永久伴随着一些随机性。所以许多情况下,需求每家公司或许每家高校都做出许多奉献,进行全球共创。”