中华网 china.com

军事

专家观点

  • 中国禁止美光芯片?中方雷霆出击以其人之道还治其身,外媒炸锅了
  • 中俄好消息不断,一架俄罗斯专机抵达中国,7成俄民众对华有好感
  • 果然乱套了,英国大罢工将瘫痪80%的救护车,上万台手术被搁置
  • 局势正在失控,梅德韦杰夫再次警告:已扩大生产强大的杀 伤性武器

DeepSeek离“中国版安卓”还有多远 重塑全球AI格局(2)

2025-02-14 11:25:48 来源:网易新闻

成本大幅下降的原因在于DeepSeek在算法和硬件利用率方面的革新。传统大模型遵循“预训练-监督微调(SFT)-强化学习(RL)”的三段式训练流程,其中SFT阶段需标注海量数据,成本占比超过40%。DeepSeek-R1跳过了SFT阶段,直接用纯强化学习模式实现推理能力。此外,DeepSeek将单GPU算力利用率从行业平均的15%提升至23%,通过FP8混合精度训练、动态序列长度调整和DualPipe并行架构优化,极大程度上榨干了硬件潜能。

除了低成本,DeepSeek还采取了开源路线。创始人梁文锋认为,先建立一个强大的技术生态更为重要。开源可以吸引更多大厂和技术人才参与,共建共创更强大的人工智能大模型生态。“低成本+开源路线”的组合拳大大降低了AI应用的门槛,打破了传统AI巨头的垄断地位,使更多中小企业也能入局训练自己的AI,提供了更多发展可能性。

不到一个月时间,各大厂商纷纷接入DeepSeek。在国内市场,华为云、腾讯云、阿里云等头部云服务厂商率先行动。华为云基于昇腾云服务推出了DeepSeek - R1/V3推理服务;腾讯云则支持DeepSeek-R1的快速一键部署,并提供限时免费体验;阿里云也在PAI Model Gallery中加入了对DeepSeek-V3和R1模型的一键部署支持,简化了从模型训练到推理的全过程,并采用按需计费模式降低企业使用AI技术的成本。

海外科技大厂如微软Azure平台、亚马逊AWS、英伟达也相继跟进,实现了对DeepSeek-R1模型的支持。这种短时间内集体接入的现象充分说明了DeepSeek的价值。不过,DeepSeek也面临诸多质疑。马斯克质疑中国公司是否从美国获得了高端芯片,特朗普则称DeepSeek在“给美国产业敲响警钟”,呼吁集中精力赢得竞争。在美国参议院外交关系委员会听证会上,智库代表提议“偷走中国最好的工程师”。

(责任编辑)
关闭

精选推荐

下一页
×