权威解析

24小时热点

关税大战，特朗普第一个严重后果来了
2025-04-30 09:25:11
美军航母的神话，被胡塞第二次戳穿
2025-04-30 09:26:18
印媒称中国霹雳-15空空导弹非常强大南亚局势紧张升级
2025-05-01 09:26:37
“印巴开战中国将按协定出兵”靠谱吗真相并非如此！
2025-04-30 17:10:09
多国对美关税霸凌说不联合国会议创纪录
2025-05-01 10:26:26
巴军歼10与印军阵风之间发生了什么空中对决引热议
2025-05-01 19:16:59

专家观点

精选军图

反击梁文锋，马斯克的Grok 3“半成品”够格吗？(2)

2025-02-19 10:15:55 来源：百家号小大

强大的计算资源使得Grok 3的能力较前代提升了10倍。据xAI透露，Grok 3在多个关键AI基准测试中超越GPT-4o，例如AIME（衡量模型在数学问题上的表现）和GPQA（通过博士级物理、生物、化学问题进行评估）。此外，Grok 3的早期版本在Chatbot Arena测试中表现优异，成为历史上首个突破1400分的模型。这一平台通过众包方式，让不同AI模型进行对决，并由用户投票选出最佳回答。

Grok 3并非单一模型，而是一个系列。其中，Grok 3 mini版本具备更快的响应速度，但准确性略有牺牲。此外，Grok 3 Reasoning和Grok 3 mini Reasoning两个版本专注于“推理能力”，在回答问题前会进行更深入的思考，从而减少错误。这种设计类似于OpenAI的o3-mini和DeepSeek R1。

推理能力的增强使得Grok 3在多个基准测试中取得了优异表现。例如，在AIME 2025数学测试中，Grok 3 Reasoning超越了OpenAI o3-mini的最高版本o3-mini-high。推理模式可在Grok应用内启用，用户可以选择“思考（Think）”或使用“大脑（Big Brain）”模式，后者会额外消耗计算资源，但适用于复杂数学、科学和编程问题。

Grok 3的另一项重要功能是“DeepSearch”——一个由推理模型驱动的智能搜索代理，能够在互联网上及X平台上进行深度信息分析。演示显示，DeepSearch具备研究、头脑风暴、数据分析等能力，并可展示完整的“思考”过程。

这一命名显然是对OpenAI和DeepSeek的直接回应。就在两周前，OpenAI推出了AI代理“DeepResearch”，DeepSeek则在早前发布了推理模型R1。面对竞争对手的步步紧逼，xAI迅速跟进，力求在这一领域占据一席之地。

为了防止知识被竞品“蒸馏”学习，xAI对Grok 3的推理过程进行了部分模糊化处理。这种“防蒸馏”措施无疑是针对DeepSeek而设，后者此前被指控利用OpenAI的模型进行训练。