中华网 china.com

军事

24小时热点

    专家观点

    • 中国禁止美光芯片?中方雷霆出击以其人之道还治其身,外媒炸锅了
    • 中俄好消息不断,一架俄罗斯专机抵达中国,7成俄民众对华有好感
    • 果然乱套了,英国大罢工将瘫痪80%的救护车,上万台手术被搁置
    • 局势正在失控,梅德韦杰夫再次警告:已扩大生产强大的杀 伤性武器

    台名嘴:DeepSeek展现惊人推理能力 打破AI市场格局(2)

    2025-02-08 08:12:55 来源:澎湃新闻

    DeepSeek的成功在于其三大技术拐点:通专融合、逻辑推理和轻量化。这些技术打乱了全球既有的AI市场牌局,动摇了英伟达的“算力信仰”。

    过去两年,大模型在智能涌现能力上不断提升,但也带来了算力、数据和能耗的挑战。OpenAI首席执行官Sam Altman曾表示,GPT-4的专业能力相当于10%-15%的专业人士,即使迭代到GPT-5,专业能力提升也有限。因此,沿着通用大模型路线继续发展可能不是最优选择。

    “通专融合”被视为更适合未来大模型的发展之路,即构建一个既具有泛化性又具备专业能力的人工智能系统。DeepSeek-V3采用混合专家架构(MoE),每个token仅激活370亿参数,降低了计算成本,提升了资源利用效率。这种设计展示了资源优化与算法创新的结合。

    此外,大模型的发展也走到了思考“快”与“慢”的十字路口。依赖大量数据和算力形成的“快思考”正出现边际递减效应,而依靠逻辑能力沉淀而成的“慢思考”将成为新的增长点。OpenAI的o1模型标志着从预训练向基于强化学习的“慢速思考”转变,这一演变将解锁更多新的AI代理应用。

    当前,中国人工智能公司通过剪枝、量化和知识蒸馏等技术降低大模型的实际运算负担,开启了大模型“瘦身”之路。DeepSeek的成功证明,大模型创新不一定要依赖最先进的硬件,而是可以通过聪明的工程设计和高效的训练方法实现。例如,知识蒸馏技术使用大型“教师模型”指导小型“学生模型”,使模型更适合在消费级显卡上部署。

    大模型的架构正从大型单体系统演变为轻量化、专业化的模型组成的分布式网络。Meta的研究表明,平行使用多个较小的模型可以持续超越单一的大型模型。DeepSeek事件标志着中美科技战进入“深水区”,这场博弈将决定未来数十年全球科技权力的格局。

    DeepSeek的抗争打破了技术垄断,重建了数字秩序,重塑了科技自信。然而,要弥合国产大模型与国际先进水平之间的技术代差,仍需长期努力。只有突破“拿来主义”的惯性束缚,摒弃“先模仿再创新”的心态,将技术原创奉为圭臬,才是中国人工智能企业需要走好的路。

    (责任编辑卢其龙 CM0882)
    关闭

    精选推荐

    下一页