AI知識|FACTS 基準揭露真實度缺口:頂尖 AI 仍只有七成可靠,企業導入必須改走驗證治理

從 Google DeepMind FACTS 到 OpenAI GPT-5.2,為什麼 RAG、引用與人類審核成為企業風險控管標配

· AI知識,AI 模型,政策與倫理
InfoAI 全球AI新聞摘要與解讀

InfoAI 編輯部

AI知識 |導入 AI 的重點不只是把工具接上去,而是把「真實性驗證」工程化。

當最強的 AI 也只有七成「能被信賴」,企業該如何面對 AI 的真實度風險?過去兩年,我們習慣用「驚豔度」來評價一個模型:它的文筆流暢嗎?它能寫出 Python 的貪食蛇遊戲嗎?它的笑話好笑嗎?但在企業世界,真正要命的從來不是「會不會寫」,而是「可不可以信」。

谷歌 DeepMind 發佈 FACTS Benchmark Suite,試著把「模型有多誠實」變成可被工程化衡量的指標。它把事實性拆成四個基準(內建知識/搜尋/有所本/多模態),總計 3,513 題,並採用公開集加私有保留集的做法,由 Kaggle 維運排行榜。更刺眼的是結論:在這套基準下,榜首 Gemini 3 Pro 的整體 FACTS Score 是 68.8%,而且官方明說「所有模型整體都未達 70%」,多模態普遍是最低分的一塊。

同一時間軸的另一端,OpenAI 發佈 GPT-5.2,並宣稱 GPT-5.2 Thinking 在一組去識別化的 ChatGPT 查詢中,「含錯誤的回覆」在特定測法下相對減少 30%(當時有開啟搜尋工具,且由其他模型協助偵錯)。外媒 WIRED 也用自己的語句轉述成「幻覺降低 38%」的說法,但兩者很可能是不同指標或不同統計口徑,不宜混為同一個數字。

這意味著,企業此刻面對的不只是「模型很強但仍會出錯」,而是兩個更現實的問題:第一,頂尖模型在嚴格的事實性題組上仍有明顯缺口;第二,各家開始用不同基準、不同口徑去定義「可靠」,讓採購與治理的難度更高。

把話說得更精準一點:FACTS 的 68.8%並不等於「你每問三句就錯一句」,它指的是在這套以可核實事實為核心、且被設計用來抓出模型弱點的題組下,模型仍有大量情境沒辦法穩定做到「正確且完整」。但對企業來說,這已經足夠構成風險等級的提醒。

拆解四種「胡說八道」的模式

過去企業在評估模型時,常只有一個模糊感覺:「這個模型好像比較少出現幻覺。」FACTS 的價值在於,它把「事實性」拆成四個可對應到企業場景的維度,讓你終於能看懂,AI 到底是在哪個環節開始「加戲」。

內建知識(Parametric):
考的是模型能不能從參數內的既有知識穩定答對。DeepMind 的說法是以「trivia style」問題為主,且多可由維基百科等常見預訓練來源支撐。這一塊出錯,代表它的「底子」不夠扎實,或知識已過時、混雜。

搜尋(Search):
考的是模型能不能把「我不知道」轉成「我會去找」,再把找到的多段事實拼成正確結論。值得注意的是,FACTS Search 強調所有模型使用同一套網路搜尋工具,目的是讓比較更接近「模型能力本身」,避免被不同檢索設定干擾。如果你的商業事實高度動態(股價、法規、庫存、匯率),這一塊不是加分題,是生命線。

有根據回覆(Grounding v2):
考的是「貼著你給的文件」回答,不憑想像補完。DeepMind 也把舊的 grounding 基準更新到 v2,明確要測模型在給定內容情境下的接地能力。這正好對應企業最常見的內部應用:財報、合約、SOP、客訴紀錄、產品規格,任何一條都需要「只對文件負責」。

多模態(Multimodal):
考的是看圖、讀圖表、從影像問題生成「可核實」的文字答案。DeepMind 明說多模態需要把視覺接地與內建世界知識整合起來,而他們的結果也指出多模態整體最低分,是目前最脆弱的一段。

這四個面向一拆開,企業採購邏輯就會變得非常務實:你不需要一個「樣樣會」的模型,你需要的是在你那個任務上「少犯致命錯」的模型。客服或知識庫問答重的是 Grounding;即時商業決策重的是 Search;看圖表、審影像的流程,多模態就會是高風險區。

「七成天花板」與多模態的軟肋

回到那個不舒服的數字:68.8%。DeepMind 自己把話說得很直白:所有模型整體都未達 70%,仍有很大進步空間,且多模態普遍最低。

這對企業的含義是:現階段的大型語言模型仍是一種「機率型生成系統」,擅長用很像人類的方式把話說得通順,卻不天然具備「對真實性的敬畏」與「自動查證」這種制度性約束。換句話說,任何宣稱可以把高風險決策做到「全自動、無人介入」的導入計畫,都應該先被當成風險文件來讀,而不是當成願景簡報。

尤其多模態的低分,會直接撞上很多企業正在想像的流程:拍一張設備儀表板照片自動填 ERP、丟一份掃描 PDF 合約自動抓漏洞、看一張理賠照片自動判定。FACTS 的訊號很清楚:當需要讀圖、辨識影像細節時,錯誤風險會顯著上升。值得注意:這不是說多模態不能用,而是要把它放在正確的位置,用「驗證機制」包起來,而不是把它當作單點真相來源。

RAG 不是外掛,是生存必需品

在企業場景裡,「事實」是會變的:庫存會跳、條款會改、價格會更新。你不可能要求模型靠「腦內記憶」永遠答對。DeepMind 在 FACTS Search 的設計裡,刻意把同一套搜尋工具開放給所有模型,目的就是把「會不會找、找回來能不能組對」拉成核心分水嶺。

因此,檢索增強生成 RAG(Retrieval-Augmented Generation)在企業不再是選配,而是基本配備。你要最佳化的,不只是提示詞,而是整個「檢索到引用」的鏈路:資料源可信度、文件切分方式、索引品質、引用回傳格式、以及最關鍵的「模型是否被約束只能依據來源回答」。這不是讓模型更會說話,而是使其更像「可被稽核的系統」。

未來的企業語言:採購與稽核的新標準

FACTS 這類基準一旦被社群與供應鏈廣泛採用,AI 治理就會從「感覺不錯」走向「指標可對齊」。

過去法務長問技術長:「我們導入的 AI 客服會不會亂回答?」技術長只能說:「測試起來好像還可以。」未來更成熟的對話會是:「在我們的文件與案例集上,Grounding v2 的錯誤型態是什麼?Search 在動態資訊題會不會把舊資料當新資料?多模態在圖表判讀的誤差範圍是多少?這些是否落在我們的風險容忍度內?」而且,這些問題最後都應該回到可重複、可追蹤、可稽核的測試報告。

同時也要提醒一個現實:不同公司會用不同基準宣告「我更可靠」。例如 OpenAI 的 GDPval 主打「定義明確的知識工作任務」,並在官方頁面列出 GPT-5.2 Thinking 的 GDPval 70.9%。但 GDPval 與 FACTS 的設計目標不同,數字不能互換解讀;若再加上媒體轉述的跨模型對照(例如 Fortune 提到 Gemini 3 Pro 在 GDPval 為 53.3%),就更需要在文章裡清楚標明「來源與口徑」。

延伸思考:在「不確定」的時代重塑人類價值

如果連最強的模型在嚴格事實性題組上都還不到七成,那人類在 AI 時代的核心價值可能會從「生成」轉向兩件事:驗證(verification)與當責(accountability)。

AI 可以一秒給你十種方案、把一萬字濃縮成三段,但它不天然知道「哪個方案真的可行」「哪一段摘要漏掉了關鍵限制」「哪個法條已經改版」。而企業真正要背書的,是決策、合約、對外承諾與風險承擔。這些都不能外包給一個會把話說得很像真的、卻未必真的系統。

比較健康的心態是:把 AI 當成一位才華很夠、但偶爾會自信過頭的實習生。你不該崇拜它,也不該否定它;你該做的是建立制度,讓它的產出能被查證、能被追溯、能被你簽名背書之前先經過關卡。

結語:信任很昂貴,別輕易交給機器

FACTS Benchmark Suite 給了我們一把尺,量出模型與「可被信賴的正確」之間的距離,也提醒我們:導入 AI 的重點不只是把工具接上去,而是把「真實性驗證」工程化。

對 InfoAI 的讀者來說,技術可以外包,模型可以租用,但「確認事實」的責任永遠在你自己手上。接下來真正拉開差距的,不是誰用到最新模型,而是誰先建立一套有效的 AI 真實性驗證機制,讓速度與可靠不再互相拖累。

FAQ|

Q1:FACTS Benchmark Suite 到底是什麼?為什麼突然變得重要?

FACTS Benchmark Suite 是一套專門用來衡量「大型語言模型回答是否符合事實」的評測基準。它跟大家熟悉的「模型有多會寫、有多會解題」那種綜合能力榜不一樣,核心是把模型拉回一個更現實的問題:當模型像顧問一樣講得頭頭是道時,它到底有沒有根據、會不會把不存在的事講得很像真的。

它之所以重要,是因為企業導入生成式 AI 的風險,本質上不是「效率不夠」,而是「錯得很像對」。只要 AI 的輸出會被拿去影響合約、財務敘述、客服承諾、稽核文件、醫療或法規解釋,錯誤就會從單純的「品質瑕疵」,升級成「責任與風險」。FACTS 讓這件事可以被量化,企業就能把「可靠」從感覺題變成工程題。

Q2:Gemini 3 Pro 在 FACTS 拿到 68.8%,代表它有 31.2% 機率在亂講嗎?

不等於。68.8% 是在 FACTS 這套特定題組與評測設計下的平均表現,不能直接換算成「你每問三次就錯一次」那種直覺式機率。原因有三個:

第一,FACTS 題目是設計來抓模型的事實性弱點,題型與分布不等於你每天聊天的內容。
二,模型在不同任務的表現差異非常大,例如照文件回答、用搜尋更新事實、看圖表判讀,錯誤型態完全不同。
三,企業真正需要關心的不是「平均正確率」,而是「在關鍵任務上會不會出現不可接受的錯」。如果你用 AI 寫行銷文案,錯一點可能只是尷尬;但如果它解讀合約條款或產出對外承諾,錯一次就可能是重大事件。

比較精準的解讀是:在一套專門考驗「可核實事實」的測試中,頂尖模型仍無法穩定達到「可直接信賴」的程度,所以企業不能把它當作天生可靠的資料來源,而必須設計驗證流程與責任邊界。

Q3:文章提到的四種「胡說八道」模式是什麼?各自對應哪些企業情境?

你文中拆解的四個面向,其實就是企業最常踩雷的四個環節:

1)內建知識(Parametric)
直接用「腦袋裡記得的」回答,不查任何外部資料。適合常識或相對穩定的背景知識,但對「更新很快」的事(法規、價格、政策、產品版本)風險高。

2)搜尋能力(Search)
知道自己不知道,會去找最新資料,再整合成答案。企業情境像是查最新法規、競品資訊、即時價格、新聞事件。這裡的風險常見於「模型過度自信不去查」或「查了但引用錯」。

3)有根據回覆(Grounding v2)
必須「只依你提供的文件與資料」回答,例如財報、合約、SOP、客服知識庫、內部公告。這是企業導入最常見的主戰場。風險是模型喜歡補完、推測、加上看似合理但文件沒有寫的內容。

4)多模態(Multimodal)
要看圖、讀圖表、辨識影像細節,再回答可核實的內容。企業情境像是讀儀表板照片、審理賠照片、讀掃描 PDF 圖表、看品檢影像。風險是它可能「看錯、想像、把雜訊當線索」,而且錯得很像真的。

這樣拆開後,企業就能更務實地問:我們這個任務最重要的是哪一種能力?再去挑選模型、資料流程與控管方式,而不是用一個總分決定一切。

Q4為什麼多模態特別容易出事?我該怎麼調整期待與做法?

多模態容易出事,原因通常不是「模型不聰明」,而是視覺輸入的世界充滿不確定性。文字的錯誤常來自知識或推理;影像的錯誤常來自「辨識本身」就有噪音:角度、光線、解析度、遮擋、圖表排版、掃描品質、甚至灰塵與壓縮痕跡,都可能讓模型把不存在的細節當成線索。

實務上,你可以用三個層次調整做法:

第一層,先把多模態改成「輔助判讀」而非「單點裁決」。例如先讓模型提出候選判讀與不確定區,再交由人或其他規則系統確認。
第二
,把輸入標準化。能用結構化資料就不要只給照片;能給原始圖表資料就不要只給截圖;能用數據匯入就不要用 OCR 取字。
第三
,設計雙重驗證。重要數字要交叉比對,例如「模型讀到的值」要再跟「原始資料欄位」或「第二模型」比對,且保留來源截圖與引用位置,讓稽核可追溯。

總之,多模態能用,但不適合在高風險場景裡做「完全自動、直接背書」的最後一哩。

Q5:RAG 是什麼?為什麼你說它不是外掛,而是企業導入的基本配備?

RAG(檢索增強生成)的核心概念是:模型不要只靠「腦袋裡的記憶」回答,而是先去你的資料庫或文件庫把相關段落找出來,然後「依據那些內容」產出答案。它把生成式 AI 從「會說話的機率機器」拉回「可被查證的資訊系統」。

之所以說它是基本配備,是因為企業需要的事實幾乎都會變:庫存、價格、條款、流程、合規要求、產品版本、內規公告。單靠模型的預訓練知識,必然會過時,甚至在不同版本間混淆。

更重要的是,RAG 的目的不是讓答案變得更長,而是讓答案變得「可追溯」。企業真正要的是:每個關鍵結論都能指出依據,必要時能回到原文核對,並且能被稽核。沒有這套機制,模型就算偶爾答對,也很難被納入正式流程,因為你無法清楚交代責任與來源。

Q6:企要怎麼把「驗證」做成流程?有沒有一套可落地的作法?

可以把驗證流程想成三個關卡:輸入、產出、責任。

第一關,輸入關卡
把問題分
:是內建知識?需要搜尋?必須依文件回答?需要看圖?不同分類走不同管線。高風險問題必須強制走「有來源」路徑,例如一定要檢索、一定要引用。

第二關,產出關卡
要求模型
出必須包含:引用來源、引用片段位置(文件段落或頁碼)、以及不確定性聲明(哪些是文件明示、哪些是推論)。並且設計「禁止無來源結論」的規則,例如沒有引用就不允許給最終答案。

第三關,責任關卡
把每個場
定義清楚:誰是最後簽名者?誰負責抽查?抽查比例多少?錯誤怎麼回報與修正?要留存哪些紀錄以便稽核?
企業最常
的錯,是把 AI 當成工具接上去,卻沒有把「錯了怎麼辦」設計好。驗證流程的本質就是讓錯誤可被發現、可被回溯、可被修正,而不是祈禱不會出錯。

Q7:我們用哪些指標或測試方法,來挑選模型與評估導入成效?

建議不要只看單一排行榜分數,而是建立「你的任務專屬測試集」,再用四個面向去測:

1)依文件作答的正確性(有根據回覆)
用你的合約SOP、知識庫 Q&A 做測試,最重要的是「引用是否精準」與「是否有加戲」。

2)動態資訊的更新能力(搜尋)
挑選會變的題:最新法規、近期公告、最新產品版本、即時市場資訊。測的不只是答對,還要看「能不能清楚說明來源」。

3)高風險錯誤的容忍度
不是平均分,而是「一旦錯會很嚴重」的題型,例如合規、對外承諾、金流計算。這些題型要單獨拉出來看錯誤率。

4)多模態的關鍵場景
如果你真的用影像判讀,就拿你的真實圖片、真實圖表來測,並且建立「錯誤樣態庫」,看它常錯在哪一類,再決定是否要加第二道機制。

這樣做的好處是:你不會被行銷式分數牽著走,而是用「你的風險、你的資料、你的場景」做採購與治理。

Q8:既然模還不夠可靠,我們是不是乾脆不要用?什麼情況可以用,什麼情況一定要保留人工審核?

不是不用,而是要分級使用。你可以用「風險與可逆性」來判斷:

比較適合先用、而且可放大效益的情境:

內容草稿、提案大綱、腦力激盪、會議摘要初稿

  • 低風險客服:先提供「可能答案」與引用,再由客服確認後送出

  • 內部知識檢索:把「找資料」變快,但不把「下結論」外包

  • 一定要保留人工審核或多重驗證的情境:

合約條款解讀、法規遵循、醫療建議、財務報表敘述、對外承諾

  • 任何會影響金流、責任歸屬、法務風險的決策

  • 多模態判讀直接導致理賠、品檢判定或安全風險的流程

  • 一句話總結:能不能用,不是看模型有多神,而是看你能不能把「驗證與當責」設計成制度。企業真正的成熟,不是導入速度,而是把可靠做成流程。

參考資料:

  • FACTS Benchmark Suite: Systematically evaluating the factuality of large language models

  • Introducing GPT-5.2

  • OpenAI Launches GPT-5.2 as It Navigates 'Code Red’

全球AI新聞精選解讀

版權聲明與授權須知

本內容由 InfoAI 擁有著作權。如有引用、轉載或任何商業用途的需求,請來信聯絡: contentpower688@gmail.com

用內容建立信任
用洞察塑造品牌

在 AI 時代,真正有力量的行銷不是廣告聲量,而是持續輸出的深度思考。InfoAI 把全球 AI 趨勢與報告,轉譯成清楚、精準、有觀點的內容,讓企業不只是跟上變化,而是成為洞察的提供者,讓品牌變成被信任的決策夥伴。如果你不想只是「談 AI」,而是想「透過 AI 影響市場與客戶」,那就從內容開始。歡迎來信: contentpower688@gmail.com

如果你覺得這篇解讀對你有幫助,歡迎訂閱 InfoAI 電子報,我們將持續為你精選 全球 AI 新聞與趨勢洞察,幫助你看懂新聞背後的真正意義。也別忘了加入透過[QRCode]/[按鈕]加入 Line 社群 ,隨時掌握值得關注的 AI 發展與專業觀點。

Section image

AI 協作聲明

本篇文章由 InfoAI 團隊策劃,並透過人工智慧工具協助資料整理與內容撰寫,最終內容由編輯進行人工審閱與優化。

Section image

每日精選全球 AI 新聞

解讀趨勢脈絡與機遇

不追新聞只掌握方向

InfoAI

讀懂 AI 如何改變世界

Section image

Content Power 重構並流動知識

重新提煉知識轉化價值