
瀕臨 Claude Opus 4.6 和 GPT Codex 5.3 的是非攻勢,谷歌反手即是一個Gemini 3 Deep Think的重要升級。

在 Codeforces(一個包含多樣競技編程挑戰的基準測試平臺)上,它獲取了驚東說念主的3455? Elo 分數,額外于宇宙第 8 名。

這下子,公共唯一 7 東說念主的編程水平能排在它前邊了。而此前最高分是一年前 o3 拿下的 2727 Elo。

Gemini 3 Deep Think 的實力不啻于此,它還平直把ARC-AGI-2——這個公認測試 AI 推理才能的前沿基準,給刷到了史無先例的84.6%。
要知說念,之前最強模子的得分在 60%-70% 之間耽擱,Claude Opus 4.6 的收獲也唯一 68.8%。
在東說念主類終末執行(HLE)上,Gemini 3 Deep Think 也刷新 SOTA,拿下了48.4%的收獲。

官方暗示,新版 Deep Think 是谷歌挑升開采的推理花式,旨在鼓吹智能前沿發展,并處治科學、扣問和工程邊界的當代挑戰。
另一位"堯舜禹"——清華物理系神話特獎得主姚順宇(Shunyu Yao),客歲 9 月加入谷歌 DeepMind,亦然這次 Deep Think 新模子的參與者。

新版 DeepThink 仍是走進了實驗室
升級后的 Gemini 3 Deep Think 實力究竟有多強?
它的貪心不啻于贏得基準測試,而是要走進科研和工程邊界,匡助工程師處理復雜任務。
新版 Deep Think 不錯分析草圖,對復雜形勢進行建模,并平直生成用于 3D 打印的實體文獻。這是它打印的一個條記本電腦支架:

谷歌 VP Josh Woodward 在 X 上曬出了打印的后果,看起來對草圖額外復原:

羅格斯大學的數學家 Lisa Carbone,運用 Gemini 3 Deep Think 審閱了一篇高度專科的數學論文。
為止 Gemini 3 Deep Think 奏效地識別出了一個輕飄的邏輯劣勢,而這個劣勢在此前的東說念主工同業評審中均未被發現。

杜克大學的王安實驗室,運用 Gemini 3 Deep Think 本領優化了復雜晶體孕育的制備措施,以期發現新的半導體材料。
為止 Gemini 3 Deep Think 奏效聯想了一種大致孕育厚度大于 100 微米薄膜的工藝,達到了以往措施難以企及的精準主張。

在 X 上,DeepSeek 多模態團隊扣問員 XiaoKang Chen 也暗示:Gemini 3 Deep Think 至極擅所長理科學邊界中的長尾任務。
他給 Deep Think 輸入了一張復雜分子結構的圖片,隨后模子便準確地打算出了分子式。

勇奪三項新 SOTA,推理資本裁汰 82%
客歲 Deep Think 挑升版仍是 IMO 等海外競賽中奪下金牌。目下,全新升級后的 Deep Think 又在多項高難度的基準測試中全面刷新 SOTA:
不使用任何器用,在 HLE 中獲取新 SOTA ——48.4%;
在 ARC-AGI-2 測試中獲取前所未有的84.6%的收獲,并經 ARC Prize 基金會考據;
在 Codeforces 上獲取了驚東說念主的3455? Elo 分數;
在 2025 年海外數學奧林匹克競賽中達到金牌水平。

其中,ARC-AGI-2 被譽為 AI 界的"圖靈測試",旨在估量模子處理從未見過的新穎推理任務的才能。
要知說念,客歲 12 月剛發布的初代 Deep Think 得分照舊 45.1%,不到三個月時間仍是飆升到 84.6%,比 Opus 4.6 還要強出一截。
而在 ARC-AGI-1 上,Gemini 3 Deep Think 獲取了 96% 的收獲,平直頂到天花板了。

性能普及的同期,推理資本也在大幅著落。初代 Deep Think 實行每項任務的資本為 77.16 好意思元。這次升級讓資本裁汰了 82%,金沙電玩城app下載每項任務僅需13.62 好意思元。

由于 1 和 2 都被 Gemini 刷爆了,目下 ARC Prize 仍是在構建 ARC-AGI-3 了……
除了數學和編程,升級后的 Deep Think 在化學和物理等泛泛的科學邊界相似發達出色。
在 2025 年海外物理奧林匹克競賽和化學奧林匹克競賽中,Gemini 3 Deep Think 在筆試部分獲取了金牌級別的收獲。
{jz:field.toptypename/}此外,它還展現了在高等表面物理方面的才能,在 CMT-Benchmark 測試中獲取了 50.5% 的分數。

華東說念主帶隊,打造最強推理模子
Gemini 3 Deep Think 的研發團隊中,有不少華東說念主身影。
中樞成員包括 95 后華東說念主科學家Yi Tay,他在 Gemini 團隊中從事強化學習和推理標的的扣問使命。

此前,他曾在 Google Brain 共同指引早期大言語模子神志,包括 PaLM-2、UL2 和 Flan-2。
在 Google Brain 使命 3 年多之后,2023 – 2024 年間,Yi Tay 曾旋即離開谷歌,動作王人集首創東說念主創辦了一家獨角獸 AI 初創公司—— Reka。
Reka AI 由 DeepMind、谷歌和 Meta 的扣問東說念主員創立,其創辦初志是打造功能龐雜且高效的基礎模子,目下也開采界面聯想、應用邏輯以至極他應用方面的器用。
在創業一年半后,Yi Tay 便重返谷歌 DeepMind,擔任高檔資深扣問科學家,連續從事東說念主工智能和大言語模子的扣問。
客歲剛從 Anthropic 跳槽到谷歌 DeepMind 的清華學友姚順宇,也參與了 Deep think 新模子的開采。

姚順宇本科就讀于清華大學物理系,曾拿下過清華本科生非凡獎學金(清華授予在校優秀本科生的最高獎學金榮譽)。
本科時間,他就已在《Physical Review Letters》(海外物理學邊界最頂級的學術期刊之一)發表高水平論文,初度在海外上給出了對于非厄米系統的拓撲能帶表面,不僅準確預計了有關征象,還界說了兩個新的物理成見。
本科畢業后,他赴斯坦福大學連續攻讀博士,專注于量子多體暗昧、綻開量子系統能源學等前沿問題,師從 Douglas Stanford(好意思國表面物理學家,被同業視為頂尖且有后勁編削物理學發展標的的年青科學家之一)、Zhenbin Yang(楊振斌,華僑好意思國科學家,公認的 20 世紀最貧乏的物理學家之一)等著明學者。
博士畢業后,他先是去 UC 伯克利作念博士后扣問,隨后加入了 Anthropic。在 Anthropic 使命的一年時間里,他參與組建了強化學習基礎團隊,幽靜了 Claude 3.7 Sonnet 框架,以及 Claude 4 系列背后的基本強化學習表面。
離開 Anthropic 之后,姚順宇轉戰谷歌 DeepMind,連續從事 AI 方面的扣問。這次 Deep Think 新模子發布,亦然他在谷歌的首秀之作。
參考聯結:
[ 1 ] https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/
[ 2 ] https://x.com/ShunyuYao14/status/2022013770843967900
[ 3 ] https://x.com/YiTayML/status/2021988841142534287
[ 4 ] https://x.com/NoamShazeer/status/2021988459519652089
[ 5 ] https://x.com/PKUCXK/status/2022144532272623990
— ?寬容 AI 家具從業者共建 ?—
? ?「AI 家具學問庫」是量子位智庫基于恒久家具庫跟蹤和用戶行動數據推出的飛書學問庫,旨在成為 AI 行業從業者、投資者、扣問者的中樞信息要害與方案相沿平臺。
一鍵暖和 ? ? 點亮星標
科技前沿進展逐日見

備案號: