中华网 china.com

军事

24小时热点

    专家观点

    • 中国禁止美光芯片?中方雷霆出击以其人之道还治其身,外媒炸锅了
    • 中俄好消息不断,一架俄罗斯专机抵达中国,7成俄民众对华有好感
    • 果然乱套了,英国大罢工将瘫痪80%的救护车,上万台手术被搁置
    • 局势正在失控,梅德韦杰夫再次警告:已扩大生产强大的杀 伤性武器

    马斯克Grok 4逆天跑分泄露 性能碾压对手引发热议

    2025-07-08 10:22:10 来源:机器之心Pro

    马斯克Grok 4逆天跑分泄露 性能碾压对手引发热议。马斯克熬夜开发的 Grok 4 和 Grok 4 Code 的基准测试结果疑似泄露。X 博主 @legit_api 发帖称,Grok 4 在 HLE(人类最后考试)上的标准得分是 35%,使用推理技术后提高到 45%;在 GPQA 上的得分是 87-88%;而 Grok 4 Code 在 SWE Bench 上的得分则达到 72-75%。

    这个跑分结果引起了不少关注。有网友将其与 OpenAI o3 和 Claude Opus 4 等竞争模型进行了对比。Grok 4 在 HLE 上的标准得分约为 35%,使用推理技术后提升至 45%,这一成绩比 OpenAI o3 的公开得分高出一倍,是 Claude 4 Opus 的四倍多。HLE 是一个自由回答测试,随机猜测准确率仅约 5%,因此每个百分点的提升都非常困难。

    在 GPQA(研究生级物理和天文学问题)上,Grok 4 得分 87-88%,与 OpenAI o3 的顶级表现相当,并明显超过 Claude 4 Opus 的 79.6%。在 AIME '25(2025 年美国数学奥赛)上,Grok 4 得分 95%,远超 Claude 4 Opus 的 75.5%,并略优于 OpenAI o3 的 80-90%(取决于思维模式)。Grok 4 Code 在 SWEBench 的得分与 Claude 4 Opus 的 72.5% 相差不大,略高于 OpenAI o3。而在 Terminal-Bench 上,Claude 4 Opus 领先,得分为 43.2%,xAI 尚未发布 Grok-4 的相关数据。

    网友讨论最多的是 Grok 4 在 HLE 上达到了惊人的 45%,几乎是 Gemini 2.5 Pro 成绩的两倍。如果泄露的测试结果属实,那么意味着 Grok 4 通过了 AI 基准测试中最艰难的一关。还有网友建议关注「标准」得分,认为这是公开模型的基准,推理得分可能涉及实验性配置。不过,也有网友质疑 Grok 4 的 HLE 分数是否真的这么高,怀疑其中存在问题。@legit_api 回复称,这些数字是真实的,但不清楚具体配置。

    (责任编辑)
    关闭

    精选推荐

    下一页