推理本钱骤降75%。gpt-oss九尾狐姐姐传在线观看用新数据类型完成4倍推理速度,80GB显卡能跑1200亿参数大模型

来源:荆州市融媒体中心 发布时间: 2025-08-15 05:30:59

OpenAI在最新的开源模型gpt-oss上选用的MXFP4数据类型,直接让推理本钱暴降75%!

更惊人的是,MXFP4在把内存占用降为同规划BF16模型的四分之一的一起,还把生成token的速度进步了整整4倍。

换句话说,这一操作直接把1200亿参数的大模型塞进80GB显存的显卡,哪怕是只要16GB显存的显卡也能跑200亿参数的版别。

(注:显存容量通常会大于Checkpoint Size)

比较以往的数据类型,MXFP4供给了极高的性价比,模型运转所需的硬件资源仅为之前的四分之一。

MXFP4有什么法力?

在gpt-oss中,OpenAI将MXFP4量化使用于大约90%的权重,这一操作的直接动机(收益)便是让模型运转本钱变得愈加廉价。

将gpt-oss模型量化为MXFP4 后,大言语模型的占用内存仅为等规划BF16模型的1/4,并且生成token的速度最高可进步4倍。

怎样经过改动数据类型下降模型运转本钱?这儿的逻辑是这样的:

模型的运转本钱主要由权重存储内存带宽两个部分组成。

前者是模型参数寄存和占用的空间,也便是存储它们所需求的字节数。

后者则是模型在推理时,数据读写速度和容量的约束。

数据类型的改动将直接影响权重存储和内存带宽的占用。

例如,传统模型权重通常用FP32(32位浮点数)存储,每个参数占用4字节内存。

假如用MXFP4,那么每个权重只要半字节权重存储巨细是FP32的1/8,这就极大地紧缩了权重数据量的巨细。

这一紧缩不只下降了模型的存储空间,还能让模型在相同的带宽下完结更快地数据读取和写入,然后进步推理速度。

由此,经过改动数据类型就能完成推理本钱的降本增效。

那么,MXFP4是怎样完成这一点的?

MXFP4

MXFP4的全称是微缩放4位浮点数(Micro-scaling Floating Point 4-bit),是由Open Compute Project (OCP) 界说的4位浮点数据类型。

(注:OCP是Facebook于2011年建议的超大规划数据中心协作安排,旨在下降数据中心组件本钱并进步可获取性。)

在深度学习范畴中,数据类型的精度和功率一直是研讨者取舍的要点。

例如,传统的FP4只要四位,1位符九尾狐姐姐传在线观看号位(标明正负),2位指数位(决议数值的量级),1位尾数位(标明小数部分)。

这种标明办法尽管紧缩了数据量,但也导致了十分有限的可标明的数值规模,它只能标明8个正数和8个负数。

相较之下,BF16(1位符号位,8位指数位和7 位尾数位)则能标明 65,536个数值,不过标明规模的添加也带来了核算本钱的上升。

假如为了进步核算功率,直接把这4个BF16数值:0.0625、0.375、0.078125、0.25直接转换成FP4,那么它们会变成 0、0.5、0、0.5。

不难看出,这样的差错显然是无法承受的。

所以,为了在削减数据量的一起保证必定的精度,MXFP4经过将一组高精度数值(默许32个)乘以一个公共缩放因子(这个缩放因子是一个8位二进制指数)。这样,咱们前面那4个BF16数值就会变成 1、6、1.5、4。

这样就既完成了极致的数据巨细,又保持了数值间巨细联系的精度。

此外,这一进程的完成还与核算硬件相关

一般规则是,每将浮点精度折半,芯片的浮点吞吐量就能翻倍。

比方,一个B200SXM模块的稠密BF16运算功能约为2.2 petaFLOPS,降到FP4(Nvidia Blackwell 芯片供给硬件加速)后,就能进步到9petaFLOPS

尽管这会在吞吐量上带来一些进步,但在推理阶段,更多FLOPS的含义主要是削减模型开端生成答案的等待时间

值得注意的是,运转MXFP4模型并不要求硬九尾狐姐姐传在线观看件有必要原生支撑FP4

用于练习gpt-oss的Nvidia H100就不支撑原生FP4,不过它仍然能够运转,仅仅无法享用该数据类型的悉数优势。

低精度与核算量的取舍

事实上,MXFP4并不是新概念。早在2023年的陈述中,OCP就在陈述《OCP Microscaling Formats (MX) Specification Version 1.0》中详细介绍过这一数据类型。

但是,这种低精度的数据类型通常被以为是对性价比的退让,由于精度下降会导致质量丢失。丢失的程度取决于详细的量化办法。

不过,现已有满足多的研讨标明,将数据精度从16位降到8位,在大言语模型场景下简直没有质量丢失,这种精度现已满足支撑模型的正常作业。

事实上,一些模型开发者,例如DeepSeek现已开端直接用FP8进行练习。

此外,尽管MXFP4比规范FP4好得多,但它也有缺点

例如,英伟达就以为这种数据类型比较FP8仍或许呈现质量下降,部分原因是其缩放块巨细(Scaling Block Size)为32,不行细粒化。

为此,英伟达推出了自己的微缩放数据类型NVFP4,经过将缩放块巨细降至16和运用FP8缩放因子来进步质量。

这简直等同于FP8的作业方式。只不过MXFP4是在张量内部的小块上使用缩放因子,而不是作用于整个张量,然后在数值之间完成更细的粒度。

最终,在gpt-oss上,OpenAI只运用了MXFP4。

鉴于OpenAI在AI范畴上的影响力,这基本上就等于在说:

假如MXFP4对咱们够用,那对你也应该够用。

参阅链接

[1]https://www.theregister.com/2025/08/10/openai_mxfp4/

[2]https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

[3]https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf

本文来自微信大众号“量子位”,36氪经授权发布。

相关附件

扫一扫在手机上查看当前页面