权威解析

24小时热点

专家观点

精选军图

基本物理任务，全球顶级AI均失败，普通零件加工，o3不如老师傅 AI白领替代蓝领难

2025-05-21 16:57:43 来源：凤凰科技小大

基本物理任务，全球顶级AI均失败，普通零件加工，o3不如老师傅 AI白领替代蓝领难！在基本物理任务上，前沿AI模型仍然存在失败的情况。ML研究院的测试案例显示，白领工作可能被AI替代，而制造业等蓝领工作则不受影响。未来已来，只是分布得不均匀。

Adam Karvonen基于过往经验，在零件制造任务上测评了顶尖模型的表现。包括OpenAI o3、Gemini 2.5 Pro等顶尖LLM，全部未能达到预期。尽管o3的智商高达136，超越了90%的人类，但在这次测试中表现不如Gemini 2.5 Pro，更不用说经验丰富的工人老师傅了。

他认为在未来一段时间内，AI将自动化大量白领工作，而蓝领工作相对不受影响。这意味着自动化在全行业里并不会均匀发生。尽管还不知道这种不均衡会持续多久，但他认为局部自动化几乎已成定局。

这与Anthropic首席执行官Dario Amodei的预测不同。Dario曾公开表示几乎所有工作会同时被自动化，从而把每个人都“放在同一条船上”。然而，Adam Karvonen做过机械师，还从事过机器人相关工作，并且从事过软件开发，现在是MATS学者项目的机器学习研究人员。他是研究AI对蓝领工人影响的理想人选。

评估过程简单：制定一个详细的计划，使用3轴CNC铣床和2轴CNC车床来加工一个零件。尽管这并不简单，但在典型的原型制造或工作车间环境中，大多数技师会将执行这一任务视为常规工作，涉及标准的车削和铣削技术，但需要多个加工步骤。

尽管这个零件很简单，即使是像o1-Pro或Gemini 2.5 Pro这样的前沿模型也经常犯下重大错误。这些错误可以分为两类：视觉能力和物理推理能力。

12 3 4 全文共 4 页下一页

(责任编辑：)

关闭

中华网 china.com

权威解析

让B-52H轰炸机这个“老爷爷”上阵，美军实在是没辙了

中国第三种六代机亮相，美媒都蒙了：航母舰载机？高端无人战斗机？

24小时热点

专家观点

精选军图

美媒：东海舰队055首次演习就针对日本！

央视曝光东风-17新构型亮相成本更低更适合量产

东海舰队喜提两艘055！中国神盾舰突破50艘

美军拿下时隔16年首杀核潜艇偷袭击沉伊朗护卫舰

抢先打捞中国坠海歼-35？美媒竟公开支招

基本物理任务，全球顶级AI均失败，普通零件加工，o3不如老师傅 AI白领替代蓝领难

精选推荐

中华网 china.com

权威解析

让B-52H轰炸机这个“老爷爷”上阵，美军实在是没辙了

中国第三种六代机亮相，美媒都蒙了：航母舰载机？高端无人战斗机？

24小时热点

专家观点

精选军图

美媒：东海舰队055首次演习就针对日本！

央视曝光东风-17新构型亮相 成本更低更适合量产

东海舰队喜提两艘055！中国神盾舰突破50艘

美军拿下时隔16年首杀 核潜艇偷袭击沉伊朗护卫舰

抢先打捞中国坠海歼-35？美媒竟公开支招

基本物理任务，全球顶级AI均失败，普通零件加工，o3不如老师傅 AI白领替代蓝领难

精选推荐

央视曝光东风-17新构型亮相成本更低更适合量产

美军拿下时隔16年首杀核潜艇偷袭击沉伊朗护卫舰