强大的计算资源使得Grok 3的能力较前代提升了10倍。据xAI透露,Grok 3在多个关键AI基准测试中超越GPT-4o,例如AIME(衡量模型在数学问题上的表现)和GPQA(通过博士级物理、生物、化学问题进行评估)。此外,Grok 3的早期版本在Chatbot Arena测试中表现优异,成为历史上首个突破1400分的模型。这一平台通过众包方式,让不同AI模型进行对决,并由用户投票选出最佳回答。
Grok 3并非单一模型,而是一个系列。其中,Grok 3 mini版本具备更快的响应速度,但准确性略有牺牲。此外,Grok 3 Reasoning和Grok 3 mini Reasoning两个版本专注于“推理能力”,在回答问题前会进行更深入的思考,从而减少错误。这种设计类似于OpenAI的o3-mini和DeepSeek R1。
推理能力的增强使得Grok 3在多个基准测试中取得了优异表现。例如,在AIME 2025数学测试中,Grok 3 Reasoning超越了OpenAI o3-mini的最高版本o3-mini-high。推理模式可在Grok应用内启用,用户可以选择“思考(Think)”或使用“大脑(Big Brain)”模式,后者会额外消耗计算资源,但适用于复杂数学、科学和编程问题。
Grok 3的另一项重要功能是“DeepSearch”——一个由推理模型驱动的智能搜索代理,能够在互联网上及X平台上进行深度信息分析。演示显示,DeepSearch具备研究、头脑风暴、数据分析等能力,并可展示完整的“思考”过程。
这一命名显然是对OpenAI和DeepSeek的直接回应。就在两周前,OpenAI推出了AI代理“DeepResearch”,DeepSeek则在早前发布了推理模型R1。面对竞争对手的步步紧逼,xAI迅速跟进,力求在这一领域占据一席之地。
为了防止知识被竞品“蒸馏”学习,xAI对Grok 3的推理过程进行了部分模糊化处理。这种“防蒸馏”措施无疑是针对DeepSeek而设,后者此前被指控利用OpenAI的模型进行训练。