几个月前,爱范儿在一台 M3 Ultra 的 Mac Studio 上,成功布置了 671B 的 DeepSeek 的本地大模型(4-bit 量化版)。
而假如咱们搞来 4 台顶配 Mac Studio……
把这四头猛兽,经过开源东西串联成一个「桌面级 AI 集群」——能否把本地推理的天花板再举高一个维度?
这也是来自英国创业公司 Exo Labs 正测验处理的问题。而爱范儿成为了第一批见到这个全新处理计划的我国媒体之一。
你可能会认为,像牛津这样的尖端大学必定 GPU 多得用不完,但其实彻底不是这样。
Exo Labs 创始人 Alex 和 Seth 结业于牛津大学——即便在这样的顶尖高校做研讨,想要运用 GPU 集群也需求提早数月排队,一次只能请求一张卡,流程绵长而低效。
( 甭说牛津大学了,就连美国的国家试验室体系,具有的超算集群算力也相同需求预定排队。 )
Alex 和 Seth 发现了一个现象:其时 AI 根底设施的高度集中化,使得个人研讨者和小型团队被边缘化。
为了处理问题,他们在上一年 7 月启动了第一次试验,串联了手头上的两台 MacBook Pro,然后跑通了 LLaMA 模型。尽管功能有限,每秒只能输出 3 个 token,但现已足以验证 Apple Silicon 架构用于 AI 分布式推理的可行性。
更重要的是,尽管 LMStudio 等本地跑大模型的根底设施处理计划现已比较遍及了,但串联多台消费级电脑——组成集群——相关计划在其时依然归于「不知道水域」。
而这个小团队的作业,也被苹果留意到了。
MacBook Pro 的算力终究是有限的,而二人集群化 Mac 电脑的作业,在本年 3 月迎来了一个要害的转折点:苹果发布了 M3 Ultra 顶配处理器版别的 Mac Studio。
512GB 一致内存、819GB/s 的内存带宽、80 核 GPU,再加上 Thunderbolt 5 的 80Gbps 双向传输才能——真实强有力的,足以运转 2025 上半年满血版大模型的本地 AI 集群,总算从抱负变成了实践。
4 台顶配 M3 Ultra 的 Mac Studio 经过 Thunderbolt 5 串联后,账面数据适当惊人:
这样的组合,功能现已称得上是一台小型超算了,但从体积上依然(牵强)可归到「家用级」。
但硬件仅仅根底,真实发挥效能的要害是 Exo Labs 开发的分布式模型调度渠道 Exo V2。Exo V2 会依据内存与带宽状况将模型主动拆分,布置在最合适的节点上。
Exo Labs 和苹果在现场供给了 Exo V2 的 demo,向爱范儿展现了以下中心才能:
大模型加载:8-bit 量化后的 DeepSeek,完好载入需求高达 700GB 内存,单台 Mac Studio 无力承当。而 Exo 的软件会将模型拆分布置到 2 台 Mac Studio 上完结加载。激活后,它的流式输出「打字速度」根本上超越了人的阅览速度。
并行推理:在 DeepSeek V3 仍在两台顶配 Mac Studio 上跑着的一起,又加载了相同 670 亿参数的 DeepSeek R1。体系立行将 R1 分配到剩下的两台 Mac Studio,完结两个大模型并行推理,支撑多用户一起发问。
私有文档 RAG 问答:拖入公司财报 PDF,模型在本地完结常识嵌入与问答,不依赖任何云端资源,数据彻底私有可控。
轻量微调:若企业有数千份内部资料,可经过 QLoRA + LoRA 技能进行本地微调。假如只用单台 Mac Studio,微调的耗时依然长达数日,但 Exo 的集群调度才能,使得练习任务可线性加快,大幅缩短时刻本钱。
爱范儿在现场后台调查拓扑图发现:即便 4 台机器一起处于高负载状况,整套体系功耗一直控制在 400W 以内,运转简直无电扇噪音。
要在传统服务器计划中完结平等功能,至少需求布置 20 张 A100 显卡,服务器加网络设备本钱超 200 万人民币,功耗达数千瓦,还需独立机房与制冷体系。
<定格动漫传承在线观看strong>——就这样,苹果 M 芯片在 AI 大模型的浪潮中,意外地找到了一个新的定位。的确令人没想到。
Exo Labs 根据 M3 Ultra Mac Studio 开发的这个套组,起价格 32999 元,装备 96GB 一致内存。而 512GB 的顶配版别,更是价格不菲。
但从技能视点来看,一致内存架构带来的优势是革命性的。
在规划 M 芯片之初,苹果更多是为节能、高效的个人创造而生。但一致内存、高带宽 GPU、Thunderbolt 多路径聚合等特性,反而十分合适 AI 本地推理这件事,尽管意料之外,却又在情理之中。
传统 GPU,即便是最高端的作业站卡,显存一般也只要 96GB。而苹果的一致内存让 CPU 和 GPU 同享同一块高带宽内存,避免了数据在不同存储层级之间的频频转移,这对大模型推理来说含义严重。
当然,EXO 这套计划也有显着的定位差异。它不是为了与 H100 正面对立,不是为了练习下一代 GPT,而是为了处理实践的使用问题:运转自己的模型,维护自己的数据,进行必要的微调优化。
假如说 H100 是金字塔顶的王者,而 Mac Studio 正在成为中小团队手中的瑞士军刀。
本文来自微信大众号“爱范儿”(ID:ifanr),作者:乔纳森何,36氪经授权发布。