权威解析

24小时热点

专家观点

精选军图

马斯克Grok 4逆天跑分泄露性能碾压对手引发热议

2025-07-08 10:22:10 来源：机器之心Pro 小大

马斯克Grok 4逆天跑分泄露性能碾压对手引发热议。马斯克熬夜开发的 Grok 4 和 Grok 4 Code 的基准测试结果疑似泄露。X 博主 @legit_api 发帖称，Grok 4 在 HLE（人类最后考试）上的标准得分是 35%，使用推理技术后提高到 45%；在 GPQA 上的得分是 87-88%；而 Grok 4 Code 在 SWE Bench 上的得分则达到 72-75%。

这个跑分结果引起了不少关注。有网友将其与 OpenAI o3 和 Claude Opus 4 等竞争模型进行了对比。Grok 4 在 HLE 上的标准得分约为 35%，使用推理技术后提升至 45%，这一成绩比 OpenAI o3 的公开得分高出一倍，是 Claude 4 Opus 的四倍多。HLE 是一个自由回答测试，随机猜测准确率仅约 5%，因此每个百分点的提升都非常困难。

在 GPQA（研究生级物理和天文学问题）上，Grok 4 得分 87-88%，与 OpenAI o3 的顶级表现相当，并明显超过 Claude 4 Opus 的 79.6%。在 AIME '25（2025 年美国数学奥赛）上，Grok 4 得分 95%，远超 Claude 4 Opus 的 75.5%，并略优于 OpenAI o3 的 80-90%（取决于思维模式）。Grok 4 Code 在 SWEBench 的得分与 Claude 4 Opus 的 72.5% 相差不大，略高于 OpenAI o3。而在 Terminal-Bench 上，Claude 4 Opus 领先，得分为 43.2%，xAI 尚未发布 Grok-4 的相关数据。

网友讨论最多的是 Grok 4 在 HLE 上达到了惊人的 45%，几乎是 Gemini 2.5 Pro 成绩的两倍。如果泄露的测试结果属实，那么意味着 Grok 4 通过了 AI 基准测试中最艰难的一关。还有网友建议关注「标准」得分，认为这是公开模型的基准，推理得分可能涉及实验性配置。不过，也有网友质疑 Grok 4 的 HLE 分数是否真的这么高，怀疑其中存在问题。@legit_api 回复称，这些数字是真实的，但不清楚具体配置。

12 3 全文共 3 页下一页

(责任编辑：)

关闭

中华网 china.com

权威解析

让B-52H轰炸机这个“老爷爷”上阵，美军实在是没辙了

中国第三种六代机亮相，美媒都蒙了：航母舰载机？高端无人战斗机？

24小时热点

专家观点

精选军图

中国空军15000米闪电出击，30秒击落间谍气球

美媒：东海舰队055首次演习就针对日本！

央视曝光东风-17新构型亮相成本更低更适合量产

东海舰队喜提两艘055！中国神盾舰突破50艘

美军拿下时隔16年首杀核潜艇偷袭击沉伊朗护卫舰

马斯克Grok 4逆天跑分泄露性能碾压对手引发热议

精选推荐

中华网 china.com

权威解析

让B-52H轰炸机这个“老爷爷”上阵，美军实在是没辙了

中国第三种六代机亮相，美媒都蒙了：航母舰载机？高端无人战斗机？

24小时热点

专家观点

精选军图

中国空军15000米闪电出击，30秒击落间谍气球

美媒：东海舰队055首次演习就针对日本！

央视曝光东风-17新构型亮相 成本更低更适合量产

东海舰队喜提两艘055！中国神盾舰突破50艘

美军拿下时隔16年首杀 核潜艇偷袭击沉伊朗护卫舰

马斯克Grok 4逆天跑分泄露 性能碾压对手引发热议

精选推荐

央视曝光东风-17新构型亮相成本更低更适合量产

美军拿下时隔16年首杀核潜艇偷袭击沉伊朗护卫舰

马斯克Grok 4逆天跑分泄露性能碾压对手引发热议