又一颗芯广丰区强奸罪片,被英伟达打败

来源:荆州市融媒体中心 发布时间: 2025-08-15 05:36:50

近来特斯拉闭幕Dojo团队、负责人离任的音讯甚嚣尘上,也让观众们唏嘘不已。

近几年来,关于一众摊开身子去做练习芯片的大公司也好,草创企业也好,都是血淋淋的经验:Graphcore一度声称“IPU对立GPU”,终究被软银收买,完毕独立冲击;英特尔/Habana(Gaudi)路途多、生态割裂,近来逐渐并入 GPU/Falcon Shores 体系,淡化独立加速器路途;Cerebras坚持晶圆级(WSE)差异化,产品与订单在增加,但商业化和生态仍远未与 CUDA 可比——这是“特种配备”而非“通用渠道”。

自研练习芯片这条路途,对绝大多数公司并不可行,能成的是极少数破例,不是可仿制的范式。英伟达又赢了。

Dojo的“高开低走”

Dojo 是特斯拉为“实践国际场景”模型练习而自研的数据中心级练习体系。2019 年 4 月,马斯克在“Autonomy 投资者日”初次抛出 Dojo 概念;2020 年 8 月,他称受限于供电与散热,体系“还需大约一年”才干安排妥当。2021 年 8 月的 AI Day 上,特斯拉正式发布 D1 与 Training Tile,并同步揭露 CFloat8/16 白皮书,给外界描绘了一条“自研算力+自研数值格局”的硬核路途。

在 2022 年的AI Day上,特斯拉给出 Dojo 的体系化扩展途径:从自研 D1 芯片 → Training Tile(5×5)→ System Tray → Cabinet → ExaPOD,方针是完结“超 1 ExaFLOP 级”的 ML 核算才能。

  • D1:台积电 7nm,约 500 亿晶体管,645 mm²,354 个核算中心;单芯 BF16/CFP8 ≈ 362 TFLOPS。
  • Training Tile:25 颗 D1 组成一块水冷 Tile,BF16 ≈ 9 PFLOPS,以高带宽片间互联为卖点。

商场对 Dojo 的预期曾被推到高位——2023 年,摩根士丹利曾预算 Dojo 可能为特斯拉带来约 5000 亿美元的增量价值。直到 2025 年 Q2 财报会上,马斯克仍表明 Dojo 2 的方针是对标约 10 万台 H100 等价物。但实践层面,项目终究叫停。

期间多位中心技能负责人相继脱离:2018 年,开端受聘领导特斯拉芯片作业的 Jim Keller 离任;随后 Ganesh Venkataramanan 接棒,2023 年脱离并创建 DensityAI;近年继续主导芯片项目的 Peter Bannon 亦已离任,Dojo 项目随之收尾。

更指向性的依据来自并行路途的推动。早在 2024 年 Q4,特斯拉在奥斯汀上线 “Cortex” 练习集群(对外口径为约 5 万张 H100),并在 Q2’25 股东信里发表新增 1.6 万 H200,使全体规划约等于 6.7 万张 H100。这说明 Dojo 未能成为主力产线,特斯拉更多转向“收购老练GPU渠道”。实际也证明,买卡比造卡更快:除特斯拉外,马斯克体系的 xAI/“Colossus” 相同大规划选用英伟达 GPU,并配套 Spectrum-X 以太网做超大规划组网——连网络栈都被英伟达打包交给。

亡羊补牢,为时未晚

现在,特斯拉及时扭转局面。

练习侧:外采为主。特斯拉把主力练习转向可马上布置、可线性扩容、生态老练的英伟达(并弥补部分 AMD),把“模型练习周转率(Time-to-Train)”拉回商业节奏。

推理侧:自研为主。与三星敲定 165 亿美元长时刻代工协议(AI6),将车载/机器人/边沿推理算力自控在手,靠近产品、危险更低、迭代更快。

安排侧:约 20 名原练习团队成员参加 DensityAI,其他并入公司数据中心/算力工程,防止在没有收敛的练习芯片路途继续“烧时刻”。

$$广丰区强奸罪$$$$这套组合拳很务实:练习端“买老练产线”,推理端“做自己最懂的场景”,既把 Time-to-Train 和 Time-to-Market 拉回到商业节奏内,也防止在生态战里被逼充任“软件渠道供应商”。

Dojo项目的关闭可能对特斯拉来说并不是一个很大的丢失。8月8日,马斯克在交际渠道X上回应amit网友称:“没有必要一起扩展两条天壤之别的练习芯片路途;Tesla AI5、AI6 以及后续芯片在推理方面将十分超卓,至少在练习方面也适当不错。全部精力都会集在这上面。”

他还进一步弥补道,“在超算集群中,无论是用于推理仍是练习,将许多 AI5/AI6 芯片放在一块板上是合乎情理的,这只是是为了将网络布线的复杂性和本钱下降几个数量级。我想,这能够称之为 Dojo 3。”“AI4 和 AI5 之间在实践性能上的差异,远超我所知的全部芯片版别。它真的很超卓。”

为什么“自研练习芯片”这么难?

1)生态与软件壁垒

练习芯片不是单芯片比赛,结构适配、编译器、内核库、并行战略、调优东西链才是吞时刻的黑洞。英伟达把 CUDA/cuDNN/各类并行库打磨了十几年,后来者很难追平这个“隐形工程量”。业界多家厂商在软件老练度上“掉链子”,练习端难以安稳开释算力密度。

2)体系工程与供应链

先进封装(CoWoS/SoIC)、HBM 供应、机柜/供配电/散热、互联拓扑、集群调度、可靠性工程,任何一环不行强,TCO 就会被市售 GPU 渠道反杀。尤其是先进封装和HBM这两块,2025年NVIDIA至少确认台积电CoWoS-L 七成产能的报导频出,HBM商场由 SK hynix/三星/美光三强主导,且 HBM3E→HBM4 的节奏被各家紧紧盯住。没有这些供应保证,自研计划即使流片成功,也会在封装与内存上“卡脖子”。

3)需求与现金流节奏

自研要靠安稳、可预期且超大规划的自用练习需求摊薄巨额前期投入。除谷歌(TPU)和 AWS(Trainium)这类云巨子,鲜有人能把“芯片—集群—云服务”联动成正循环。

Meta练习芯也在逐渐测验,本年3月份据路透社的报导,Meta正在测验首款 AI 练习芯片,音讯人士称,测验布置是在Meta完结芯片的初次“流片”后开端的。这款芯片是该公司元练习和推理加速器 (MTIA) 系列的最新产品。不过该项目多年来开展一向不太顺畅,乃至一度在相似的开发阶段抛弃一款芯片。现在Meta的MITA芯片仍以推理为主,用于确认哪些内容呈现在 Facebook 和 Instagram 新闻推送中的引荐体系。

Meta 高管表明,他们希望到 2026 年开端使用自己的芯片进行练习,或许进行核算密集型进程,为 AI 体系供应许多数据以“教”它怎么履行。与推理芯片相同,练习芯片的方针是从引荐体系开端,然后将其用于谈天机器人 Meta AI 等生成式人工智能产品。

4)机会本钱

AI年代下,英伟达和AMD两大AI芯片玩家均已代际晋级以季度为单位推动,自研芯片的代次跨度很简单一上板就过期,落地即落后。

在 Llama 2-70B-LoRA 等渠道(8 GPU)微调作业负载中,Instinct MI325X的性能比 Instinct MI300X提高高达 30%(图源:AMD)

现在AMD也补上了“可用的第二供货商”,6月份,AMD发布了其初次提交MLPerf练习的成果,AMD的练习成果也现已很能打(MLPerf 上与英伟达可比/部分抢先的负载呈现了)。在 AMD MLPerf Training v5.0 测验中,Instinct MI3广丰区强奸罪25X渠道在微调 Llama 2-70B-LoRA(一种广泛用于定制大型言语模型的作业负载)时,性能比 NVIDIA H200 渠道高出高达 8%。

Instinct MI325X渠道与NVIDIA H200的比照(图源:AMD)

在这种情况下,再走一条第三条自研路,边沿价值更小、失利本钱更高。

Dojo 的叫停不等于“自研练习芯片永无出路”。云巨子破例仍然建立:Google TPU、AWS Trainium 能跑通,是因为它们具有超大、安稳的自用练习需求 + 云服务生态 + 算法/结构协同,能把“芯-机-云-软件”串成正循环。但对车企/使用公司而言,缺生态 + 缺供应链 + 节奏跟不上,机会本钱才是终极杀手。

英伟达赢在哪里?

英伟达的成功是体系性成功。不只是 GPU 抢先,而是从硅到机架到网络到软件的全栈交给才能:

硬件层:GPU + NVLink/NVSwitch + 高带宽内存 + 机架级整机;

网络层:InfiniBand 与 Spectrum-X 以太网两套计划,掩盖不同客户偏好与本钱模型;

软件层:CUDA 体系与全栈库/东西,保证“可用算力/周”;

交给层:从整柜到整机房的“交钥匙工程”,缩短客户的Time-to-Train。

一个典型的事例:GB200 NVL72——72 张 Blackwell GPU + 36 颗 Grace CPU 的液冷整柜,一个机柜内构成 72-GPU 的 NVLink 一致域,对外就像一块超大加速器;第五代 NVLink/ NVSwitch 还能把多个机柜无堵塞拼合到 576 GPU。这不是“堆卡”,而是把互联、内存、软件、上电与运维做成可交给的“AI 工厂”

关于去自研AI练习芯片的厂商而言,许多时分,他们并不是技能不可行,而是时刻、资金与生态的归纳算术不合。当你在流血做“芯—板—机—集群—软件—网络”的全栈集成时,英伟达现已把GPU+ NVLink/NVSwitch/Spectrum-X + CUDA/cuDNN + DGX/GB 系一致整套“AI 工厂”卖给了你的对手与合作伙伴,“买英伟达 = 马上可用的AI 工厂”

英伟达在机架级产品(如 GB 系列)与网络(Spectrum-X/InfiniBand 之外的以太网解法)上继续前移,把“可用算力/周”最大化。2024年10月28日,NVIDIA使用NVIDIA Spectrum-X以太网网络渠道,完结了100,000个 NVIDIA Hopper GPU相连,这便是坐落田纳西州孟菲斯的 xAI Colossus 超级核算机集群,其主要用于练习马斯克的Grok大模型。xAI和NVIDIA仅用122天就建成了配套设备和最先进的超级核算机,而这种规划的体系一般需求数月乃至数年的时刻。从第一个机架滚到地上到练习开端,整个进程仅用了 19 天。

英伟达的“体系 + 软件 + 生态 + 交给才能”的复合护城河,正在把每一家“自研练习芯片”的商业实验拖回到实践。

关于英伟达而言,现在最大的变量和对手是AMD,AMD在性价比、特定作业负载(如微调)上继续追近,会紧缩自研路途的“理论窗口期”,但短期难撼动英伟达的体系与软件抢先。

接下来很长一段时刻,“练习自研,推了解耦”将成为非云巨子的干流战略:练习上公版渠道,推理做自家 SoC/ASIC,把能沉积差异化的算力放在端侧/产品内。

结语

特斯拉关掉 Dojo,不是输给了一块更强的芯片,而是输给了一个更强的“工业体系”。 自研练习芯片这条路,对绝大多数公司而言不具可仿制性;而在“买卡 + 更快上线 + 产品侧自控推理”的组合里,英伟达再次赢下了时刻、生态与现金流的三重赛点。

英伟达的再次成功,是对整个职业的一次提示:在 AI 基建年代,速度与生态,便是全部。

本文来自微信大众号 “半导体职业调查”(ID:icbank),作者:杜芹DQ,36氪经授权发布。

相关附件

扫一扫在手机上查看当前页面