新聞速讀|Claude Opus 4.5 奪下 Anthropic 工程考試歷來最高分

兩小時效能工程測驗首度由 AI 奪冠 超越所有人類候選人

· 新聞速讀,AI 模型
InfoAI 全球AI新聞摘要與解讀

InfoAI 編輯部

當工程甄試的「最高分」第一次寫上模型名字,人類工程師真正要面對的,已經不是被取代,而是如何改寫自己和工具之間的合作規則。

這次事件的關鍵不在「AI 考贏人」,而在宣告一個新現實:標準化的工程解題,正快速從人類專業,轉變為 AI 模型與工程主管共同管理的流水線。

01|理解事件

2025 年 11 月,Anthropic 發表最新旗艦模型 Claude Opus 4.5,同時揭露一項內部實驗:這個模型在公司用來招募效能工程師的 兩小時居家工程測驗 中,拿下 歷來最高分,超過所有人類候選人。這份考試原本是用來篩選高階工程人才,如今首度由 AI 奪冠,象徵意味非常直接。

這份測驗鎖定的是「在時間壓力下解決技術問題」的能力。Anthropic 強調,考題設計用來評估候選人對系統效能、程式品質與問題拆解的掌握,卻不涵蓋團隊溝通、長期經驗與協作直覺,也沒有打算用一份考卷概括工程師的全部價值。

在技術細節上,Anthropic 採用所謂的 parallel test-time compute:讓 Opus 4.5 對同一份考題嘗試多個解法,再從中選出最佳答案。在這種「可以多次嘗試」的設定下,模型在限定兩小時內超越所有人類;如果進一步放寬時間限制並搭配專用開發工具,整體表現甚至可以追平歷來最強的人類考生

外界對題目本身所知有限,只從求職者分享得知,Anthropic 的工程測驗曾要求在數個階段中,逐步設計並擴充一個系統。可以確定的是,這並不是單純的選擇題或語法小考,而是接近真實開發情境的小型專案。

換一個角度想:一邊是花兩小時專心作答的人類,一邊是可以在雲端同時展開多條思路、最後只端出最成熟解法的模型──這場競爭的規則,本身就已經不同。

02|解讀新聞

從技術面來看,這次事件把一個趨勢具象化:只要問題可以被形式化、拆成明確步驟,並配上清楚的評分標準,頂級模型在解題上的表現已經是「考試型超人」。Anthropic 公布的數據顯示,Opus 4.5 在軟體工程標竿測試 SWE-bench Verified 拿下 80.9,這個基準是要模型在真實 GitHub 專案中修復 bug,被視為評估「代理型程式助理」實力的重要指標。

此外,Opus 4.5 在多項「agent 與電腦操作」基準上也拿到領先成績,包含終端機操作、跨應用程式工作流程等。這意味著,它不只會寫程式碼,更被設計成能長時間操作電腦、呼叫多種工具、完成一連串任務的工程代理人(engineering agent

從商業與生態角度看,這份內部考試成績,等於替 Anthropic 的產品掛上「實戰背書」。企業如果打算導入 AI 程式助理,現在看到的不只是 benchmark 分數,而是:這個模型連我們公司用來考工程師的難題都能寫到歷史最高分。搭配它已經透過 Microsoft Foundry、GitHub Copilot 付費方案、Microsoft Copilot Studio 等管道進入企業環境,以及被 Meta 用於內部 Devmate 助理的事實,Anthropic 在「AI 程式工具供應商」的位置被進一步鞏固。

更值得注意的是,Anthropic 執行長 Dario Amodei 曾透露,公司多數團隊約 90 的程式碼已由 Claude 產生,但工程師並沒有因此被減少,而是把力氣挪到最困難的 10%、系統設計、風險判斷與對模型輸出的審核。這次工程測驗紀錄,某種程度上只是為這種新分工模式「公開蓋章」:模型負責大量重複與可形式化的工作,人類則升級為架構師與總監。

03|延伸思考

我們可以從這篇新聞清楚看到 AI 在工程領域的核心邏輯:當問題被定義得足夠清楚、可以大量嘗試、結果又容易打分,模型就有條件在「狹義解題能力」上超車多數人類。Anthropic 的兩小時考試就是典型例子,題目明確、時間固定、評分標準清楚,再加上允許模型多次嘗試、選出最佳解。

但現實世界的工程工作,遠不只是一份考卷。需求常常模糊,利害關係人意見會衝突,技術債與風險必須在時間與成本中拉扯,還牽涉到使用者體驗與商業策略的權衡。這些情境,很難被壓縮進一份標準化測驗,也正是人類工程師仍然不可被輕易取代的地方。

對讀者而言,更重要的是學會閱讀這類「AI 贏了人類」新聞的方式。每次看到類似標題,可以先自問幾個問題:

  • 測驗到底在考什麼?是實作系統、演算法設計,還是只在整理輸入輸出?

  • 模型是否可以多次嘗試、挑出最好的一份,而人類只有一次交卷機會?

  • 評分標準是只看「能不能跑起來」,還是也考慮安全性、維護成本與可解釋性?

當你把這些問題變成習慣,就不容易被「AI 已經比工程師強」這種說法帶著走,而是能拆解:在哪些子任務上,AI 已經客觀較強;在哪些環節,仍需要人類來定義、整合與負責

對讀者來說,這代表:在 AI 時代要提升自己的工程素養,關鍵不在跟模型比誰寫得快,而是在於成為那個定義題目、設計評分標準、決定何時採用或否決模型輸出的人。考卷上的滿分不會立刻把人排除在外,但如果連出題與評分都交給模型,我們才是真的把主導權讓出去。

04|重點提煉

  • Anthropic 最新旗艦模型 Claude Opus 4.5 在公司用來招募效能工程師的 兩小時居家工程測驗 中,透過平行多次作答並選出最佳解,拿下 歷來最高分,超越所有人類候選人;在軟體工程基準 SWE-bench Verified上也寫下 80.9 的成績,成為目前公認最強的程式代理模型之一。

  • 這份成績不只是一個漂亮的 benchmark,而是強化了 Anthropic 在 AI 程式助理與工程代理工具 市場的地位,透過 Microsoft、GitHub、Meta 等生態系進入企業開發流程。搭配「模型寫 90% 程式碼、人類專注最難 10%」的實務運作,工程工作的日常正在被重新切割與分工。

  • 對企業來說,傳統「靠寫題目來篩選工程師」的招募方式,合理性正在下降。當模型可以在標準化考題上拿到歷史新高,未來更需要被評估的,會是候選人對系統思維、跨部門協作、風險意識與 AI 工具運用能力,而不是單次手寫程式的速度。

這則新聞提醒我們,面對任何「AI 打敗人類」敘事,關鍵不是驚訝,而是練習追問:在什麼題目、什麼測法、以誰設計的評分標準下勝出? 只有這樣拆解,才能真正判斷一項 AI 技術的實際價值與侷限,同時找到自己在新分工裡的位置。

05|後續觀察

接下來,第一個值得觀察的方向是工程招募與考核方式會怎麼改變。當頂級模型可以穩定在標準化測驗中拿高分,企業是否會減少依賴「演算法題」「居家考試」,改而增加情境式面談、跨部門協作模擬,甚至直接看候選人如何設計與管理一支「AI 工程隊」?

第二個觀察點是組織內部工程角色如何重組。Anthropic 已經示範一種方向:模型大量承接日常開發,人類工程師轉向架構設計、風險管理與對模型的審核與調教。未來幾年,其他大型科技公司與傳統企業是否會跟進,將決定工程教育、職涯規劃與團隊編制要如何全面調整。

參考資料:

  • Anthropic has a 2-hour engineering take-home test. It says its new Claude 4.5 model outscored every human who took it.

  • Introducing Claude Opus 4.5--Anthropic 官方部落格

  • Anthropic announces Claude Opus 4.5, the new AI coding frontrunner

  • Introducing Claude Opus 4.5 in Microsoft Foundry--Microsoft Azure Blog

AI 時代的思考力革命|AI 素養,不是學技術,而是拿回主導權的能力升級。與 AI 一起思考,成為能定義方向的人

版權聲明與授權須知

本內容由 InfoAI 擁有著作權。如有引用、轉載或任何商業用途的需求,請來信聯絡: contentpower688@gmail.com

用內容建立信任
用洞察塑造品牌

在 AI 時代,真正有力量的行銷不是廣告聲量,而是持續輸出的深度思考。InfoAI 把全球 AI 趨勢與報告,轉譯成清楚、精準、有觀點的內容,讓企業不只是跟上變化,而是成為洞察的提供者,讓品牌變成被信任的決策夥伴。如果你不想只是「談 AI」,而是想「透過 AI 影響市場與客戶」,那就從內容開始。歡迎來信: contentpower688@gmail.com

如果你覺得這篇解讀對你有幫助,歡迎訂閱 InfoAI 電子報,我們將持續為你精選 全球 AI 新聞與趨勢洞察,幫助你看懂新聞背後的真正意義。也別忘了加入透過[QRCode]/[按鈕]加入 Line 社群 ,隨時掌握值得關注的 AI 發展與專業觀點。

Section image

AI 協作聲明

本篇文章由 InfoAI 團隊策劃,並透過人工智慧工具協助資料整理與內容撰寫,最終內容由編輯進行人工審閱與優化。

Section image

InfoAI|讀懂 AI 如何改變世界

在 AI 改變世界之前
助你先讀懂 AI 世界

每日精選全球 AI 新聞
AI 趨勢 + 新聞 + 深度解讀

Section image

Content Power |賦能你在 AI 時代的專業能力
專注於「AI × 專業 × 工作方法」的知識平台
透過框架、流程與方法
協助你在 AI 時代重建專業能力