基本物理任务,全球顶级AI均失败,普通零件加工,o3不如老师傅 AI白领替代蓝领难!在基本物理任务上,前沿AI模型仍然存在失败的情况。ML研究院的测试案例显示,白领工作可能被AI替代,而制造业等蓝领工作则不受影响。未来已来,只是分布得不均匀。
Adam Karvonen基于过往经验,在零件制造任务上测评了顶尖模型的表现。包括OpenAI o3、Gemini 2.5 Pro等顶尖LLM,全部未能达到预期。尽管o3的智商高达136,超越了90%的人类,但在这次测试中表现不如Gemini 2.5 Pro,更不用说经验丰富的工人老师傅了。
他认为在未来一段时间内,AI将自动化大量白领工作,而蓝领工作相对不受影响。这意味着自动化在全行业里并不会均匀发生。尽管还不知道这种不均衡会持续多久,但他认为局部自动化几乎已成定局。
这与Anthropic首席执行官Dario Amodei的预测不同。Dario曾公开表示几乎所有工作会同时被自动化,从而把每个人都“放在同一条船上”。然而,Adam Karvonen做过机械师,还从事过机器人相关工作,并且从事过软件开发,现在是MATS学者项目的机器学习研究人员。他是研究AI对蓝领工人影响的理想人选。
评估过程简单:制定一个详细的计划,使用3轴CNC铣床和2轴CNC车床来加工一个零件。尽管这并不简单,但在典型的原型制造或工作车间环境中,大多数技师会将执行这一任务视为常规工作,涉及标准的车削和铣削技术,但需要多个加工步骤。
尽管这个零件很简单,即使是像o1-Pro或Gemini 2.5 Pro这样的前沿模型也经常犯下重大错误。这些错误可以分为两类:视觉能力和物理推理能力。