马斯克的公司xAI囤积了大量GPU,但实际利用率却很低。据The Information和Business Insider报道,xAI拥有约50万张英伟达GPU,但实际有效训练算力仅为11%。这一数字来自xAI总裁Michael Nicolls的一份内部备忘录,他形容这个数字“低得尴尬”。

尽管xAI官网宣称Colossus集群已扩展到20万张GPU,并计划最终达到100万张,但实际利用率远低于预期。Nicolls设定了一个目标,希望在未来几个月内将利用率提升至50%。

11%的有效训练算力并不意味着89%的GPU处于闲置状态。实际上,这11%对应的是MFU(模型浮点运算利用率),它衡量的是实际观测到的FLOPS与理论峰值FLOPS之间的比率。换句话说,它关注的是硬件在训练过程中真正转化为有效训练吞吐的部分。

从工程角度来看,低MFU意味着大量电力和硬件时间被浪费在通信、等待、数据搬运和重计算等环节上。相比之下,生产级LLM训练的MFU通常在35%到45%之间。谷歌PaLM论文中也提到,英伟达的Megatron-LM在H100集群上的MFU最高可达47%,即使在强扩展到4608张H100时,MFU也能保持在42%左右。