2024年,Google试图在AI领域重振雄风,但OpenAI总是抢先一步。每当Google宣布即将召开发布会时,OpenAI都会提前推出更强大的产品,使得Google的发布会显得尴尬。
到了2025年,Google改变了策略,不再高调宣传,而是悄悄上线新产品。这一次,Google没有进行任何预热,直接推出了Gemini 2.5 Pro模型。这款模型具有推理能力,超越了GPT-4.5和Grok 3,能够模仿人类的快慢思考模式,这似乎预示着GPT-5的到来。
就在人们以为Google会赢得赞誉时,OpenAI在推特上宣布太平洋时间上午11点直播发布GPT-4o图像生成技术模型。该模型具备媲美人类摄影的出图质量,随心所欲的构图以及细节处理,超乎寻常的图文理解,以及任意的图中文字和LOGO生成能力,在X平台上引起一片欢呼。
深夜两点,有人在朋友圈提到北京地震的消息,但更多人关注的是Google和OpenAI的竞争。在这场激烈的竞争中,人类在通往AGI的路上又迈进了一大步。
Gemini 2.5 Pro实验版非常出色,可以处理更复杂的编程、科学和数学问题,并支持更具有情境感知能力的智能体。这个新的“思考模型”在LMArena上以显著优势领先,在多个基准测试中击败了其他竞争对手。它配备了100万token的上下文(即将推出200万),能够处理多模态数据,并通过vibe coding认证,只需一个提示就能构建整个游戏。更重要的是,Gemini 2.5在回答问题前会进行推理,模仿人类处理思想的方式,逐步接近问题,细化潜在解决方案,并选择最佳方案。
鲸哥测试了Gemini 2.5 Pro生成“近3年国内直播带货KOL的动态演示页面”,结果迅速生成了相关代码,并且可以直接调用Colab进行演示。此外,还测试了其深度推理能力,要求生成一份具身智能报告,这份报告具有一定的可读性。