一夜之间,网络成为了AI年代的新宠,简直一切参加数据中心的企业,近几个月来都在议论网络。GPU仍旧炽热,但AI网络好像受到了更多重视,从硅谷巨子到初立异企,我们乐此不疲地讲着AI网络的多元运用与宽广远景。
这一现象的背面,是“AI工厂”与“AI云”的兴起,其间,AI工厂是指专门处理很多数据并生成智能的超级核算机或数据中心。它将“AI开发”流程比作工业制作工厂:好像工厂将原材料转化为产品,AI 工厂则将原始数据转化为“智能”或“处理方案”;而AI云则是在公有云或私有云渠道上供给弹性、可扩展的AI服务,用户无需自建根底设施即可调用模型和算力,着重灵活性与普适性。
从传统数据中心转型而来的它们,不再仅仅处理和存储数据,而是将海量原始数据转化为实时洞悉与价值,肩负着“制作智能”的重要使命。
明显,过往老旧的底层网络架构已难以支撑这样的需求。
也正因如此,AI巨子英伟达的网络优势开端全面闪现,除了广为人知的InfiniBand技能外,其专为 AI 打造的以太网架构Spectrum-X正备受瞩目。
IDC陈述显现,在Spectrum-X以太网网络渠道的微弱推进下,英伟达数据中心以太网沟通机收入从2024年第四季度到2025年第一季度完结了183.7%的惊人添加,在整个以太网沟通机商场中占有12.5%的比例,在数据中心细分范畴更是到达21.1%的商场占有率。
依靠着发布仅两年多的Spectrum-X以太网网络渠道,英伟达不只成功跻身全球数据中心以太网商场前三甲,更在快速兴起的AI以太网商场中抢占先机,建立了无可争议的领导地位。
虽然外界仍然习气将英伟达界说为GPU巨子,但在聚光灯照不到的当地,这家公司正以惊人的速度重塑着AI年代的数据中心网络地图。
关于英伟达而言,它在AI网络上的布局远早于其他巨子。
2020年9月30日,为了庆祝以太网规范诞生40周年,英伟达创始人兼CEO黄仁勋特地采访了以太网的发明者鲍勃·梅特卡夫。
访谈中,两人探讨了一个耐人寻味的问题:英伟达的中心竞争力,在于GPU自身,仍是GPU之间的互连技能?
这一问题的布景,是英伟达2020年4月刚才完结的一桩收买,其以69亿美元的报价收买芯片规划公司Mellanox,这家企业不只开发了一系列依据InfiniBand规范的核算网络产品,还推出了依据敞开以太网规范的Spectrum沟通机。
而不论是InfiniBand,仍是Spectrum以太网,都归于服务器之间互连的一种技能方向,InfiniBand技能专心于极致的高功用和即插即用,Spectrum以太网则是高功用与传统云运用场景的完美交融,英伟达将Mellanox归入囊中,就意味着其自此具有了GPU服务器直接互连的两张主力,统筹了功用、扩展性和服务性的商场火急需求。
面对这一问题,梅特卡夫笃定地指出,英伟达真实的底气,便是GPU互连。
五年后的今日,英伟达市值飙升至4万亿美元,跻身全球最具价值的企业前列。支撑这一惊人成果的背面,除了现在炙手可热的Blackwell芯片外,还有它早已独步于全国的GPU服务器互连技能——即AI网络。
这时候新的疑问诞生了,AI网络商场的竞争者这么多,为什么唯一英伟达能够赢得很多巨子的“欢心”呢?
让我们先从InfiniBand说起。
作为一种功用强大的网络架构,InfiniBand被专门规划用于支撑高功用核算和AI数据中心根底设施的I/O衔接,它的共同之处在于既可作为 “盒内” 背板处理方案(PCB 上的组件互连),也可经过铜缆或光纤完结 “盒外” 设备互连,一致了传统总线与网络互连的功用。
除此之外,InfiniBand的高带宽、低推迟、低功耗以及可扩展性等特性,让它与AI数据中心形成了天作之合,例如最新的InfiniBand XDR网络带宽可达800Gb/s,其开展速度远超PCIe的开展速度,现在的x86服务器都还未支撑PCIe6.0来满意其关于带宽的需求,需求经过Multi Host或许Socket Direct 等技能来到达XDR网络关于800Gb/s上行带宽的需求;业界第一种支撑RDMA(长途直接内存拜访)技能的网络,在大约20年前就完结了无需 CPU 干涉就能完结网络的线速数据传输;也是业界最早完结了网络核算的网络,能够将HPC和AI作业负载中杂乱的调集通讯核算卸载到网络沟通机上,有用提高了通讯功用和下降了网络拥塞。
形象一点来说,InfiniBand就像是一条特别规划的专用公路,速度很高,一起能够有用防止拥堵,它的共同架构能够在完结高带宽的一起大幅下降推迟,比照传统网络架构有着十分大的优势,其十分合适那些练习各类大言语模型(LLM)的AI工厂。
而英伟达在2023年推出的Spectrum-X 网络渠道,则是专门面向AI运用场景,对传统以太色情女良网的进一步的优化和晋级,是一种从网卡到沟通机协同规划的端到端AI网络技能。
首先是传统以太网被诟病最多的推迟问题,Spectrum-X最大极限经过端到端的优化规划明显下降了AI事务的通讯时延,经过源于InfiniBand网络的RDMA技能,完结了GPU显存和GPU显存之间的直接通讯,大幅下降通讯推迟并为用户的通讯优化供给了更多的方向;而在网络拥塞与丢包问题上,Spectrum-X则加入了在InfiniBand网络上现已老练运用的动态路由技能(Adaptive Routing),依据网络负载状况,实时调整数据传输途径,最大化网络带宽的使用率。
一起,Spectrum-X也具有了InfiniBand网络的功用阻隔技能(Performance Isolation),该技能保证在多租户的多使命环境中,不同租户的运用之间的网络流量互不搅扰,即便一个事务呈现了突发流量,也不会影响到其它事务,保证各个使命都能在最优环境中运转,完结Bare Metal的功用。
与InfiniBand不同的是,Spectrum-X面向的是AI云商场,它也统筹了以太网的灵活性和安全性,让传统的以太网用户能够在不改动运用习气的状况下,完结快速向AI数据中心网络的搬迁。数据中心走向AI数据中心(AI工厂和AI云)现已是大势所趋,AI模型正在逐步替代传统的运用形式,Spectrum-X的呈现,完结了传统云根底设施走向AI的滑润晋级扩展,满意了更多云服务供给商对大规划生成式AI等运用需求。
事实上,现在在AI练习方面,英伟达网络已稳居主导地位:微软Azure、OpenAI和Meta等AI巨子早已选用InfiniBand来练习自己的大言语模型,而Spectrum-X也在曩昔的一年敏捷争夺到了很多新老客户,完结了在网络开展史上稀有的爆发性添加,成为了数据中心网络的王者。至此,NVIDIA经过NVLink网络为AI事务在纵向扩展(Scale Up)上供给了坚实的根底,经过Spectrum-X网络和InfiniBand网络供给了在横向扩展(Scale Out)的无限或许,经过与业界抢先的各种GPU技能的结合,终究完结了AI事务在核算和通讯上的闭环,为AI数据中心走向高功用和无限可扩展铺平了路途。
但AI开展明显不会拘泥于练习这一个范畴,能够撑起英伟达4万亿市值的中心,始终是其对AI开展趋势的前瞻洞悉与先下手为强的战略眼光。
在本年3月举行的GTC大会上,英伟达开释出了一个重要的职业信号:跟着AI工业在大规划模型练习方面的需求添加逐步趋缓,加之DeepSeek等公司在推理技能上的打破性立异,整个AI职业正迎来从练习年代向推理年代的要害转折点。
这一改变背面,瞄准的是一个规划远超练习商场的全新蓝海——推理商场。如果说练习阶段是AI才能的“铸造”进程,那么推理阶段则是这些才能的“实战”,其商场潜力和商业价值将呈现指数级添加。
但新的问题接二连三。
一方面,跟着推理模型杂乱度提高,本来只需在单GPU或许单节点处理的使命,开端向多GPU和多节点并行转移。推理已不再是传统意义上的“一问一答”,而是进入“Test-time Scaling”阶段——在每次恳求中模仿多条回答途径,并选出最优解。这种推理逻辑本质上是一种实时的深度推演,需求在毫秒级完结很多token处理与上下文回溯。这也意味着推理体系对推迟、带宽、同步机制的要求大幅上升。
另一方面,当时推理使命日益体现出“P-D别离”的趋势,行将Prefiling与Decoding使命布置在不同硬件节点,以完结资源最优化使用,防止Prefiling与Decoding阶段呈现核算和通讯资源的抵触。但这也使得在Prefiling与Decoding之间的数据沟通成为瓶颈。
除此之外,大模型推理(特别是依据MoE的推理大模型)还高度依靠KVCache(键值缓存),其存储规划往往跟着输入token数量的添加而快速添加,这就导致了KVCache或许被存放于GPU显存,或许CPU内存,或许GPU服务器本地SSD,或许远端的同享存储。由于KVCache需求在多GPU间频频同享与更新,这对网络提出“双向压力”:东西向需完结GPU间经过RDMA的方法高速同享KV,南北向则要求GPU与存储、CPU间能低推迟调度和高功用传输数据。
英伟达针对这部分推理中所遇到的实际难题供给了高效的处理方案:
在分布式推理上,英伟达现在已有的InfiniBand与Spectrum-X以太网架构,构建了具有RDMA、智能拥塞操控和QoS才能的网络层,为其供给所需的“高速公路”。
而在PD别离的通讯瓶颈上,英伟达经过NVLink/NVSwitch构建了高速互连通道,并凭借Grace CPU完结CPU与GPU之间的深度耦合,在一致的同享内存域下,极大削减主存数据转移与推迟,大幅提高推理功率。
最终是KVCache存储结构所面对的双向应战,英伟达引入了BlueField SuperNIC(Super Network Interface Card)与BlueField DPU(Data Processing Unit)的双引擎协同架构。前者作为一种专为AI负载规划的高功用智能网卡,在KVCache场景中可加快GPU节点间的KV同享操作,保证跨节点toke色情女良n处理时延最低、带宽最大化;而后者则是在CPU与GPU之间建立了一条智能的“数据高速公路”,将传统由CPU承当的KVCache转移、调度、拜访操控等使命转移到DPU上履行,有用下降推迟、开释CPU资源,并提高全体IO吞吐功率。
以上几大问题是推理所遇到的网络问题,而在大型推理集群中,还有着不同的难点。
很多人本来以为推理是单节点即可完结的轻量使命,但实际彻底相反,越来越多企业将练习集群直接转用于推理,尤其在Agentic Reasoning(自主智能体推理)场景中,每个Agent都需求独立数据库与长上下文处理才能,算力与网络资源耗费更胜练习。
为应对这一趋势,英伟达推出了AI Fabric网络架构,经过NIXL(NVIDIA Inference Xfer Library)和Dynamo推理结构的合作,可支撑动态途径挑选与GPU等级资源调度,使得推理体系在大规划布置下仍然具有灵活性与实时性,处理了大型推理集群的资源编列瓶颈。
互连设备的功耗与安稳性则是另一个企业头疼的大难题,跟着推理所需GPU的数量敏捷添加,网络互连成为整个体系能耗的要害组成,传统的电衔接(如铜缆)受限于衔接间隔的影响,现已成为了扩展瓶颈,光互连成为了AI数据中心的干流。
为此,英伟达推出了CPO(Co-Packaged Optics,光电一体化封装)技能,将光模块集成入沟通芯片封装中,有用下降功耗并提高可靠性。据了解,与传统光模块比较,CPO可带来30%-50%的网络能耗节约,相当于在超大规划数据中心中开释出数十兆瓦电力用于GPU核算。
值得一提的是,CPO还带来了运维层面的优点——光模块数量削减、手艺插拔模块时引发的故障率下降、激光器削减四倍,这都在提高全体体系耐性的一起,支撑更高密度布置。
能够看到,英伟达网络正以练习年代的技能沉淀,为推理年代构筑全新底座:从BlueField SuperNIC、BlueField DPU,到Spectrum-X, AI Fabric、CPO光电一体化网络沟通机,再到全栈优化的软件生态,其推理根底设施地图现已成型。
2020年9月那场与梅特卡夫的沟通中,黄仁勋还说了这样一句话,客户不关怀你选用什么技能,更关怀怎么处理他们的问题。
在他的眼里,英伟达的真实打破,不只在于GPU的功用优势,而在于它早早把GPU从头界说为一种渠道级组件——就像DRAM、CPU相同,可被嵌入到处理方案中,面向具体问题构建彻底体系,数据中心成为了核算机,而网络决议了数据中心的功用、扩展性和功率。这种体系思想,是英伟达从图形处理走向AI数据中心供货商的中心底层动力。
在开始,没有人信任GPU有如此宽广的未来。“专心于CPU无法处理的问题?那商场要么底子不存在,由于没有处理方案,要么商场十分小,并且是一个超级核算机的商场,都不或许成功。”黄仁勋回想当年质疑者时曾这样说。但英伟达的洞悉更深一层:真实的商场往往诞生于需求没有成型时。
这一逻辑,正仿制在今日的AI网络渠道之上。就像当年的3D游戏离不开以太网,今日的推理模型、Agent智能体、生成式AI也相同离不开高速、安稳、智能化的网络——遵从的,仍旧是梅特卡夫规律:衔接越多,渠道价值越大。
未来,跟着大型推理集群的加快布置,AI渠道的“结局战场”不再是某一颗芯片的功用之争,而是整个体系、生态、网络的协同功率之争。在这个新的战场上,英伟达不只现已上场——它正在引领方向。
本文来自微信大众号“半导体职业调查”(ID:icbank),作者:邵逸琦,36氪经授权发布。