中华网 china.com

军事

专家观点

  • 中国禁止美光芯片?中方雷霆出击以其人之道还治其身,外媒炸锅了
  • 中俄好消息不断,一架俄罗斯专机抵达中国,7成俄民众对华有好感
  • 果然乱套了,英国大罢工将瘫痪80%的救护车,上万台手术被搁置
  • 局势正在失控,梅德韦杰夫再次警告:已扩大生产强大的杀 伤性武器

DeepSeek让英伟达H20都被疯抢,但AI推理爆发不只靠囤卡 需求激增推动变革

2025-03-19 16:37:51 来源:量子位

DeepSeek让英伟达H20都被疯抢,但AI推理爆发不只靠囤卡 需求激增推动变革!最近有消息称,原本不太受欢迎的英伟达H20咨询量暴涨几十倍,8卡H20机器的价格也较年前涨价十万(单价约110万左右)。业内人士预测,价格可能不会回落。H20是中国特供版,显存带宽等方面受限,性能及性价比远不如H100。但市场风向发生变化,某互联网大厂已经下单10-20万卡,整体市场H20订单量大幅增加。

背后的原因主要是AI推理需求激增。尽管H20性能只有H100的十分之一,但它在做推理任务时绰绰有余,显存足够且适合运行大规模参数模型,价格也更便宜。AI Infra厂商PPIO派欧云联合创始人兼CEO姚欣透露,去年年底H20还没有这么抢手,春节后情况大变,AI算力供需极速变化。英伟达CEO黄仁勋也在最新财报中表示,当前AI模型所需的算力是此前模型的100倍,主要推动力是AI推理。

DeepSeek以算法创新重构AI算力逻辑,推动AI计算从“训练为主”转向“推理为主”,AI推理需求因此迎来全面爆发。今年开源的两款模型,在架构和算法上提升了训练推理效率。DeepSeek-V3采用MoE架构,提出大规模跨节点专家并行,提高GPU矩阵乘法效率,降低延迟。DeepSeek-R1-Zero则通过纯强化学习过程进行自我进化,获得推理能力,并将训练成本降至560万美元,远低于OpenAI。这种低成本模式使得模型能够更广泛应用于AI推理场景。

从大模型发展进程来看,预训练Scaling Law放缓,推理Scaling Law成为新方向。推理Scaling Law的核心是通过增加推理时的计算资源提升模型性能。o1等推理模型通过多步骤思维链和强化学习显著提升了推理能力,导致推理计算需求大幅增加。DeepSeek提供了一个性能优秀的开源替代方案,迅速改变整体局面。凭借低成本、高性能的特点,DeepSeek引发全社会热潮,不仅普通人可以免费使用,大中小企业也能将其与自身业务融合。

尤其是在ToB领域,优质开源模型解决了企业在数据维度的顾虑,没有人愿意将自己或用户的数据免费贡献给闭源模型做训练。DeepSeek暂时没有将模型商业化的考虑,更接近真正意义上的开源,点燃了企业拥抱AI的热情,加速了AI落地进程,推理需求空前爆发。

由此,AI计算的需求以及底层逻辑发生变化。相较于预训练,推理计算在硬件门槛、集群建设等方面要求更低。超大规模集群不再是必需,小集群甚至单机将是未来AI Infra的主要特性。PPIO姚欣结合行业现状分析,DeepSeek提出的跨节点专家并行系统体现了分布式思想,把不常用的专家模型集中到一台机器上,常用的专家模型分配更多算力,形成调度平衡。这进一步扭转了算力行业的深层逻辑,原本大家都在期待英伟达如何从硬件层面带来更好的推理性能,如今通过EP的方式,可以用H800跑出H100的性能。

这也解释了为何DeepSeek可以影响英伟达的股价,因为通过系统优化,底层硬件的护城河没有那么深了。H20这样原本不被推崇的推理计算卡开始抢手,甚至更进一步,英伟达的地位也会受到影响。姚欣判断,未来英伟达一家独大的情况会有所改变,推理时代推理芯片将百花齐放。根据测试结果,昇腾910C在推理任务中的性能可达H100的60%。

这进一步影响算力供给侧的结构和逻辑,具体来说就是AI Infra架构的转变。即将爆发的AI应用落地浪潮已经给出指引——优化与降本。相较于预训练时代,推理时代对云计算、AI Infra有着全新需求。预训练时代,云厂商提供的服务更倾向于裸金属训练环境,而推理时代,每个企业更倾向于选择公有云服务部署模型。这意味着云厂商接下来的竞争点应该是从不同卡型到模型层的全栈优化。

从技术角度出发,并不是所有AI厂商都具备处理高并发、高流量、高弹性的互联网服务经验。比如前不久DeepSeek突然公布成本利润率理论值可达545%,引发诸多争议。PPIO姚欣表示,真实情况下,所有互联网用户请求都有波峰、波谷,一天的用户请求变化是一条曲线。如果在最高峰时变成直线,意味着用户请求进不来。春节期间DeepSeek的服务崩溃,无法满足用户和企业需求。换言之,DeepSeek的服务和技术架构需要“弹性”算力来解决这些问题。PPIO派欧云在春节期间第一时间接入DeepSeek,利用分布式推理和大规模算力调度,实现了更大弹性的负载均衡,保证客户服务质量、稳定性。

在基础设施建设上,AI Infra厂商有先天优势。一部分玩家通过自建IDC提供多种算力服务,代表如阿里云;另一部分玩家选择通过分布式网络提供算力服务,代表如PPIO派欧云。二者比较,前者能提供的综合性服务更多,后者在性价比和资源调度上更有优势。PPIO的分布式架构打破了传统集中式架构的瓶颈,不仅为企业大幅降低了运维压力,还将系统的处理效率提升到了一个全新的高度。通过PPIO提供的AI推理平台,企业可以直接调用API服务,不再需要自行运维,成本直接减少了40%。速度方面,得益于PPIO遍布全球的分布式云服务网络,无论用户身处何地,都能找到近距离的算力节点,获得20毫秒级的低延迟体验。PPIO在整个春节期间ToB方向的DeepSeek服务可用性做到了99.9%,无TPM限制。现阶段,PPIO平台的日均tokens消耗量已经突破了1300亿,与“六小龙”日均tokens消耗量不相上下。

此外,在算法层面,PPIO还提出KV Cache稀疏化压缩算法、Hydra Sampling投机采样技术以及端到端FP8推理三大核心技术,进一步突破显存、算力和带宽对大模型推理性能的限制。PPIO能够迅速适配和优化各种开源大模型,例如已为百川智能提供大规模AI推理服务。姚欣表示,只有当AI Infra公司能提供足够高性能和低成本的基础建设,让大量AI应用的收入足以覆盖所有的推理成本,才会迎来AI应用落地的大爆发,用户也会迎来AI应用的免费时代。随着越来越多产业伙伴加入,更庞大的需求和市场还在酝酿之中。趋势转变之后,又是一个新的开始。DeepSeek让英伟达H20都被疯抢,但AI推理爆发不只靠囤卡 需求激增推动变革!(责任编辑卢其龙 CM0882)

(责任编辑卢其龙 CM0882)
关闭

精选推荐

下一页
×