人物觀點｜楊立昆 Yann LeCun 為什麼說，醫療 AI 不能只會預測下一個 Token？

Business Review

email聯絡

Business Review

email聯絡

人物觀點｜楊立昆 Yann LeCun 為什麼說，醫療 AI 不能只會預測下一個 Token？

楊立昆對大型語言模型的質疑，不只是技術路線之爭，而是提醒當 AI 從病歷摘要、醫療問答、文書整理，走向診斷輔助、治療建議與風險推演時，「回答得像專家」和「理解病患狀態與治療後果」是兩種不同能力。

· AI 模型,人物觀點,AI 醫療

InfoAI | 楊立昆近期主張，AI 下一步不該只追求更大的 LLM，而要走向能理解現實、預測後果與支援規劃的世界模型。

當 AI 開始碰到醫療決策，楊立昆要問的是：它真的理解後果嗎？

楊立昆長期質疑一件事：只靠文字預測，能不能走向真正可靠的智慧？

這個問題放在一般聊天機器人裡，也許只是技術爭論；但是放到醫療場景裡，意義就完全不同。

如果 AI 只是幫醫師整理病歷、摘要檢查結果、草擬衛教文字，它主要處理的是語言與文件。這些任務有價值，也可能很快減輕醫療人員的負擔。

但如果 AI 被期待參與診斷、治療排序、風險判斷，問題就不只是「它說得對不對」。更關鍵的是，它是否理解病患現在處於什麼狀態？這個狀態會如何變化？某個建議如果被採納，可能帶來什麼後果？

Offcall Podcast 在 2026 年 2 月 12 日刊出一集訪談，由楊立昆與 Alex LeBrun 討論 AMI Labs（Advanced Machine Intelligence Labs）與醫療世界模型（world models）的構想。這場訪談的核心張力很清楚：LLM 擅長預測下一個字詞或 Token，但這不等於理解生理狀態、因果關係與治療後果。

這個觀點不是要否定 LLM 在醫療裡的用途，而是在提醒讀者：醫療不是文字接龍，病患也不是一段等待補完的文本。當 AI 開始接近高風險決策，它需要的能力不只是會生成答案，而是能表徵狀態、推演變化、理解限制，並預測行動可能帶來的結果。

這也是楊立昆離開 Meta 後值得觀察的原因。美聯社在 2025 年 11 月報導指出，楊立昆表示將於 2025 年底離開 Meta 首席 AI 科學家職位，成立新創公司，研究能理解物理世界、具備持續記憶、能推理並規劃複雜行動序列的 AI 系統。

換句話說，他真正提出的不是「LLM 沒用」，而是一個更嚴格的判斷基準：高風險 AI 不能只會說出合理答案，它還要能理解答案進入現實世界之後，會把事情帶往哪裡。

觀點快讀

楊立昆認為，現有 LLM 的核心能力仍是從文字脈絡中預測下一個字詞或 Token。這種能力可以支撐許多語言任務，但不足以等同於對病患、生理狀態與治療後果的理解。醫療 AI 若要走向更高風險的決策層級，需要能建立世界模型，也就是能表徵狀態、預測變化、推演行動結果的模型。

生成式 AI 正從「協助整理醫療資訊」被推向「輔助醫療決策」。一旦 AI 開始影響診斷、照護建議、用藥判斷或風險評估，可靠性問題就不再只是回答是否正確，而是模型是否理解某個建議在真實世界中可能造成什麼後果。

楊立昆的觀點不代表 LLM 不能用在醫療，也不代表世界模型已經成熟到可大規模商用。較合適的理解是：LLM 適合處理語言、文件、溝通與知識整理；但高風險決策若涉及狀態變化、因果關係與後果推演，就需要更嚴格的模型能力、驗證機制與責任設計。

LeCun 是從「AI 不該只學語言」的位置看問題

楊立昆是 2018 年 ACM A.M. Turing Award 得主之一，也是深度學習發展過程中的關鍵人物。ACM 當年將獎項頒給 Yoshua Bengio、Geoffrey Hinton 與楊立昆，表彰他們對深度神經網路的概念與工程突破。

他的觀點正代表著在 AI 研究社群中，有一條長期存在的問題意識：智慧不應只建立在語言統計之上。

對楊立昆來說，文字只是世界留下的痕跡。人類理解世界，不只是讀文字，而是透過感知、行動、記憶、回饋與試錯，逐步建立對環境變化的預測能力。

他特別敏感於 LLM 的限制。當許多人因為 LLM 能寫出漂亮答案，而把它理解成「已經懂了」，楊立昆會反過來追問：它真的知道自己在說什麼嗎？它知道這個建議會讓病患狀態如何改變嗎？它能處理現實世界中的限制、延遲與不確定性嗎？

也因為如此，他對醫療 AI 的判斷不是從「醫院現在最需要什麼產品」出發，而是從「什麼樣的 AI 才有資格承擔高風險推理」出發。

這是他的洞察，但也構成他的邊界。

他能把生成式 AI 熱潮拉回更底層的智慧模型問題；但世界模型要真正進入醫療場景，還要面對資料取得、臨床驗證、醫療責任、法規審查、醫師工作流程與商業採用等問題。這些問題不是技術主張本身可以直接解決的。

01｜醫療 AI 的問題，不只是「答得準不準」

很多人談醫療 AI，第一個問題通常是：AI 回答醫療問題準不準？能不能通過醫師考試？能不能整理病歷？能不能幫醫師節省時間？

楊立昆的問題設定更深一層。他真正問的是：AI 是否理解自己提出的建議，會如何改變病患狀態？

這個差異很關鍵。

如果 AI 被用來摘要病歷，它主要處理的是文字壓縮與資訊重組。這類任務即使出錯，也可以透過醫師審閱、資料回查與流程控管降低風險。

但如果 AI 被用來判斷治療路徑，問題就變了。它不只是在回答「病患可能得了什麼病」，更在暗示「下一步該做什麼」。這一步牽涉用藥、檢查、風險排序、患者身體條件、時間變化與不確定性。

在這裡，語言模型最擅長的「生成合理答案」反而可能帶來危險。因為一段看起來專業、語氣穩定、邏輯完整的回答，未必代表模型理解了病患正在變化的生理狀態。

楊立昆的提醒，可以濃縮成一句話：醫療 AI 的關鍵，不是它能不能像醫師說話，而是它能不能理解一個決策會讓病患走向哪一種後果。

02｜LLM 的成功，讓人容易高估語言能力

楊立昆的觀點之所以在此刻重要，是因為 LLM 的成功讓許多組織開始把「語言能力」誤認為「理解能力」。

這並不難理解。當一個系統可以回答醫學問題、解釋檢驗數值、生成病歷摘要、模擬醫病溝通時，人們自然會感覺它「懂醫療」。

但楊立昆要拆開的是這個直覺。

LLM 的能力來自大量文字訓練與上下文預測。它可以學到醫療語言中常見的關聯、模式與敘事結構，也可以生成高度可信的回答。但在楊立昆的判斷裡，這仍不足以代表模型真正掌握了病患身體如何運作、疾病如何演變、治療如何改變未來狀態。

醫療是一個動態系統。病患不是固定文本，而是會隨著時間、藥物、環境、年齡、共病、生活習慣與照護條件改變的複雜個體。

因此，楊立昆批評 LLM 的重點，不是它沒有用，而是它的主要能力並不是為了模擬這種動態世界而設計。

這也是世界模型概念的核心價值。它試圖讓 AI 不只從語言中學習「人們如何描述世界」，而是建立對世界狀態與變化的內在表徵。放在醫療裡，就是讓 AI 不只會讀病歷，而是能理解某個病患在特定條件下可能如何變化。

03｜觀點成立的四個前提

楊立昆的觀點有說服力，但它不是在所有情境下都同樣適用，這需要有四個前提。

第一個前提是醫療 AI 的目標必須超過文書與溝通層級。

如果 AI 只是用來整理病歷、生成衛教初稿、協助醫師查找資料，LLM 本身已經有明確價值。這些任務的核心是語言處理，不必一開始就要求完整世界模型。

但如果 AI 被期待參與診斷、治療排序、用藥建議、風險預測或照護決策，楊立昆的批評就變得重要。因為這些任務不只是文字處理，而是在處理狀態與後果。

第二個前提是世界模型必須能被驗證。

「能模擬世界」聽起來很強，但醫療不能只靠概念吸引人。世界模型要進入醫療，必須證明它在特定病種、特定族群、特定資料條件與特定臨床流程中，確實能改善判斷品質，並且錯誤率、偏誤與責任邊界可以被管理。

第三個前提是世界模型不能只是一個更漂亮的產品敘事。

AMI Labs 的方向仍在早期階段。公開資料可以支持的，是楊立昆正投入一條以世界理解、持續記憶、推理與規劃為核心的研究與創業路線；目前還不能把它寫成已經經過廣泛臨床驗證的成熟醫療方案。

第四個前提是醫療場景本身必須提供足夠高品質的資料。

世界模型要理解病患狀態，不能只靠模型架構。它需要資料品質、資料連續性、標註方式、臨床流程、病患族群代表性，以及可被追蹤的結果指標。沒有這些條件，世界模型也可能只是以更高階的語言包裝，重複舊有資料偏誤。

04｜他可能低估或忽略什麼

楊立昆的觀點有技術洞察，但不能被直接當成醫療 AI 的完整答案。

首先，他可能低估了 LLM 在醫療現場的實用價值。

醫療系統裡有大量工作不是診斷本身，而是記錄、摘要、溝通、查詢、轉介、保險文件、行政流程與衛教說明。這些任務對醫師與護理人員的時間壓力很大，也正是 LLM 最容易先產生價值的地方。

如果把「醫療 AI 必須能模擬世界」理解成「LLM 在醫療沒有價值」，那就是誤讀。

其次，世界模型不一定會比 LLM 更容易落地。

醫療場景對可信度、可解釋性、合規、責任歸屬與臨床驗證的要求很高。即使世界模型在概念上更接近人類對狀態與後果的理解，它仍要通過實際醫療體系的檢驗。

第三，醫療決策並不只是一個模型問題。

即使 AI 能推演治療後果，最後仍要回到醫師、病患、醫院制度、保險支付、法規環境與倫理判斷。醫療決策不是單純追求模型最優解，而是在不確定性下，協調多方價值與責任。

這也是讀者需要保留的地方：楊立昆提出的，是高風險 AI 能力判斷的方向，不是醫療 AI 採購清單，也不是短期導入公式。

觀點邊界｜如何不誤讀 LeCun 的觀點

楊立昆的觀點最容易被誤讀成三件事。

第一，誤讀成「LLM 不適合醫療」。

這不準確。LLM 在醫療行政、病歷摘要、臨床文件、醫病溝通、知識查詢與教育訓練上仍有價值。LeCun 真正質疑的是，把 LLM 直接推向高風險決策時，是否具備足夠的世界理解與後果推演能力。

第二，誤讀成「世界模型已經可以取代醫師判斷」。

目前不足以這樣說。AMI Labs 與世界模型方向仍屬研究與創業早期，公開來源可以支持「楊立昆正朝此方向發展」，但不能支持「這類系統已經能成熟取代臨床決策」。

第三，誤讀成「只要不是 LLM，就一定更可靠」。

模型類型本身不保證可靠。醫療 AI 的可靠性來自清楚的任務界定、資料品質、臨床驗證、錯誤監測、醫師審查、責任設計與長期追蹤。世界模型只是可能補上 LLM 的一部分缺口，不是自動解決醫療風險的萬能答案。

觀點運用｜把「會回答」和「會推演」分開看

對醫療、製造、金融風控與公共服務主管來說，楊立昆的觀點最有用之處，不是告訴你現在該買哪一種 AI，而是提供一種判斷方法。

你可以先問：這個 AI 任務到底是在處理語言，還是在承擔後果？

如果任務是摘要、分類、草擬、查詢、翻譯、客服回覆，LLM 很可能已經足以成為有效工具。這類任務的風險通常可以透過人工審閱、版本控管與資料回查來管理。

但如果任務會影響醫療處置、設備調度、信用核准、交易風險、製程安全或人員派遣，就不能只看 AI 回答是否流暢。更重要的是，它是否理解狀態變化、限制條件與行動後果。

這不是一張 AI 導入清單，而是借用楊立昆的觀點，重新校準對 AI 能力的期待。

低風險語言任務，可以先看 LLM 的效率與可控性。
中風險判斷任務，必須加入資料驗證、專家審查與錯誤回報。
高風險行動任務，則要追問模型是否能處理狀態、後果與責任。

楊立昆的觀點真正能幫讀者做的，是把 AI 應用從「模型很強，所以可以試」，改成「任務牽涉哪一種風險，所以需要哪一種能力」。

行動框架｜採用這個觀點前，先問三個問題

1. 他的觀察場景，和我的決策場景是否相同？

楊立昆談的是高風險醫療 AI 與下一代世界模型。如果你的場景只是文件整理、知識查詢或內部助理，不需要把他的批評擴大成「LLM 不值得導入」。

但如果你的場景會影響病患、產線、資金、信用、法規責任或人身安全，他的提醒就很重要。

2. 他的立場讓他看見什麼，也可能忽略什麼？

楊立昆是 AI 研究者，長期關注智慧系統的底層能力。他看見的是 LLM 在世界理解、因果推理與規劃能力上的限制。

但他的位置也可能讓他較少處理醫療院所短期最迫切的營運壓力，例如文書負擔、醫師時間不足、流程碎片化與資訊系統難以整合。這些場景裡，LLM 仍可能先帶來價值。

3. 這個觀點未來可以如何被驗證？

未來要觀察的不是「世界模型」這個詞是否變熱門，而是它是否能在具體醫療任務中被驗證。

可觀察指標包括：是否有臨床研究結果、是否能降低錯誤率、是否能提升醫師判斷品質、是否能處理跨時間病程資料、是否能在不同族群中維持穩定表現，以及是否能清楚交代錯誤責任與使用邊界。

總結｜醫療 AI 的價值在於模型是否理解狀態與後果

楊立昆的觀點最有價值之處，是把醫療 AI 的討論從「模型會不會回答問題」，推進到「模型是否理解狀態與後果」。

這個提醒對所有高風險 AI 場景都有參考價值。當 AI 只是整理資訊，語言能力可能已經足夠；當 AI 開始影響現實世界，組織就必須重新檢查模型是否具備狀態理解、因果推理、後果模擬與責任控管。

但這個觀點也不能被過度放大。世界模型仍在早期發展階段，AMI Labs 也不能被寫成已經證明可改造醫療決策的成熟方案。

對讀者來說，更穩健的做法不是追逐新名詞，而是用楊立昆的觀點檢查自己的 AI 任務：這個系統是在處理文字，還是在改變世界？

文/ 睿客

點此訂閱電子報

點此加入Line 群

FAQ:

Q1｜楊立昆的核心觀點是什麼？

楊立昆認為，醫療 AI 不能只依靠 LLM 的文字預測能力，而需要能理解病患狀態、限制條件與治療後果的世界模型。

依據 Offcall Podcast 對訪談的整理指出，楊立昆認為下一代醫療 AI 必須超越大型語言模型，具備推理、規劃與理解病患的能力。

這不代表 LLM 在醫療場景沒有價值，而是指 LLM 不宜被直接等同於高風險醫療決策能力。

讀者可以用這個觀點檢查 AI 任務的風險層級，判斷它是在處理文字，還是在承擔後果。

Q2｜為什麼他的身分會影響這個判斷？

楊立昆是深度學習重要研究者，也長期批評只靠文字預測的 AI 路線，因此他看醫療 AI 時，會特別重視模型是否具備世界理解與後果推演能力。

依據 ACM 將 2018 年 A.M. Turing Award 頒給 Yoshua Bengio、Geoffrey Hinton 與楊立昆，表彰他們對深度神經網路的關鍵貢獻；美聯社也報導，楊立昆離開 Meta 後的新創方向聚焦於理解物理世界、持續記憶、推理與規劃。

他的專長是 AI 研究，不代表他能完整代表醫療院所、臨床醫師或醫療法規的全部需求。

採納他的觀點時，應把它視為高風險 AI 能力判斷框架，而不是醫療產品採購建議。

Q3｜LeCun 為什麼認為 LLM 不足以支撐高風險醫療決策？

因為 LLM 主要擅長從文字脈絡生成合理回答，但醫療決策需要理解病患身體狀態如何隨時間與行動改變。

依據 Offcall 對楊立昆觀點的整理提到，這集討論把世界模型放在醫療 AI 的核心位置，主軸是 AI 不只要處理文字，也要能理解、推理與規劃。

這是對 LLM 架構與任務邊界的批評，不代表每一個醫療 AI 任務都需要世界模型。

凡是牽涉診斷、治療、風險與後果的任務，都應比照高風險決策設計驗證與人工監督。

Q4｜什麼是世界模型，放在醫療裡代表什麼？

世界模型是讓 AI 建立對現實狀態與變化的內在表徵，放在醫療裡，就是讓 AI 不只讀懂病歷文字，也能推演病患狀態可能如何變化。

依據 Offcall 關於 AMI Labs 的介紹，將世界模型描述為醫療 AI 從語言處理走向理解、推理與規劃的重要方向。

目前公開資訊仍主要支持「研究與創業方向」，不能直接推論為已成熟臨床產品。

台灣讀者可把世界模型視為未來高風險 AI 的能力方向，而不是現在立即可替代 LLM 的標準方案。

Q5｜這個觀點最容易被誤讀成什麼？

最容易被誤讀成「LLM 不適合醫療」或「世界模型已經可以取代醫師」。

依據楊立昆批評的是 LLM 只靠文字預測時在世界理解上的限制，而不是否定所有醫療語言任務；Offcall 對 AMI Labs 的介紹也較適合理解為下一代醫療 AI 方向，而非已完成臨床替代。

世界模型是否能在臨床場景中穩定運作，仍需要實證研究、法規審查與醫療流程驗證。

讀者應避免用新名詞替代風險管理；無論模型類型為何，都需要任務界定、資料驗證、人工審查與責任設計。

Q6｜台灣醫療、製造與金融業可以如何使用這個觀點？

可以借用楊立昆的觀點，區分「語言任務」與「後果任務」，避免把回答流暢度誤認為決策可靠性。

依據美聯社報導指出，楊立昆新創公司的研究方向包括理解物理世界、持續記憶、推理與規劃複雜行動序列；這些能力正是高風險場景中常被要求的能力。

不同產業的風險條件不同，醫療場景的判斷不能直接套用到製造或金融，但可以作為能力分層的參考。

讀者可以先檢查某個 AI 任務是否會改變現實狀態；若會，就不能只用一般聊天機器人或文件助理的標準來評估。

Q7｜未來可以用哪些指標驗證 LeCun 的觀點？

可以觀察世界模型是否在具體醫療任務中證明能降低錯誤、改善判斷、處理跨時間病程資料，並且清楚交代使用邊界。

依據楊立昆所描述的新方向包括理解世界、記憶、推理與規劃；若這些能力要成為醫療價值，就必須在臨床任務中被驗證。

單一展示、產品宣稱或媒體報導不足以證明臨床可靠性。

讀者應追蹤臨床研究、實際部署案例、錯誤分析、不同病患族群的表現，以及醫療責任如何設計。

參考資料：

Move Over LLMs! AI Legends Yann LeCun and Alex LeBrun Debut AMI Labs' Bold Ambitions for World Models in Healthcare
Meta's chief AI scientist Yann LeCun to leave Meta and start new AI research company
What Is a World Model in AI? AMI Labs' Yann LeCun and CEO Alex LeBrun Explain
2018 ACM A.M. Turing Award

閱讀推薦： 

人物觀點｜Nathan Lambert 為什麼認為，中國開放模型生態可能正在降低 AI 研發試錯成本？
人物觀點｜黃仁勳為何反對 AI 失業恐慌？真正的斷點是職涯入口被重寫
人物觀點｜李飛飛押注空間智慧：AI 下一步不能只靠更會說話
精選解讀｜Alex Karp 為何說只剩兩種人更不怕 AI：白領工作的價值，正在被重新定價
精選解讀｜馬斯克把「富足未來」講成算式，但真正的瓶頸在電力、監理與交付責任
新聞速讀｜輝達黃仁勳：美中脫鉤「不符合常識」，世界需要兩國把關係處理好
精選解讀｜當楊立昆把「世界模型」搬出 Meta，AI 的下一場賭注不再只是把語言做得更像人
新聞速讀｜馬克．安德森談 Meta Prompt，教你把 AI 用成世界級教練
新聞速讀｜Hugging Face 執行長示警：大型語言模型過熱，AI 生態正重新洗牌
新聞速讀｜Elon Musk 勾勒 AI 社會願景：工作可選、金錢重要性下降
新聞速讀｜Nvidia 黃仁勳指出 AI 將重塑所有職務內容，全球進入工作再定義周期
精選解讀｜Sam Altman 預測：AGI 有望於 2030 年前超越人類智慧

閱讀更多的「全球 AI 新聞摘要解讀」

Business Review

Business Review

人物觀點｜楊立昆 Yann LeCun 為什麼說，醫療 AI 不能只會預測下一個 Token？

當 AI 開始碰到醫療決策，楊立昆要問的是：它真的理解後果嗎？

楊立昆長期質疑一件事：只靠文字預測，能不能走向真正可靠的智慧？

這個問題放在一般聊天機器人裡，也許只是技術爭論；但是放到醫療場景裡，意義就完全不同。

如果 AI 只是幫醫師整理病歷、摘要檢查結果、草擬衛教文字，它主要處理的是語言與文件。這些任務有價值，也可能很快減輕醫療人員的負擔。

但如果 AI 被期待參與診斷、治療排序、風險判斷，問題就不只是「它說得對不對」。更關鍵的是，它是否理解病患現在處於什麼狀態？這個狀態會如何變化？某個建議如果被採納，可能帶來什麼後果？

這也是楊立昆離開 Meta 後值得觀察的原因。美聯社在 2025 年 11 月報導指出，楊立昆表示將於 2025 年底離開 Meta 首席 AI 科學家職位，成立新創公司，研究能理解物理世界、具備持續記憶、能推理並規劃複雜行動序列的 AI 系統。

換句話說，他真正提出的不是「LLM 沒用」，而是一個更嚴格的判斷基準：高風險 AI 不能只會說出合理答案，它還要能理解答案進入現實世界之後，會把事情帶往哪裡。

觀點快讀

生成式 AI 正從「協助整理醫療資訊」被推向「輔助醫療決策」。一旦 AI 開始影響診斷、照護建議、用藥判斷或風險評估，可靠性問題就不再只是回答是否正確，而是模型是否理解某個建議在真實世界中可能造成什麼後果。

LeCun 是從「AI 不該只學語言」的位置看問題

楊立昆是 2018 年 ACM A.M. Turing Award 得主之一，也是深度學習發展過程中的關鍵人物。ACM 當年將獎項頒給 Yoshua Bengio、Geoffrey Hinton 與楊立昆，表彰他們對深度神經網路的概念與工程突破。

他的觀點正代表著在 AI 研究社群中，有一條長期存在的問題意識：智慧不應只建立在語言統計之上。

對楊立昆來說，文字只是世界留下的痕跡。人類理解世界，不只是讀文字，而是透過感知、行動、記憶、回饋與試錯，逐步建立對環境變化的預測能力。

也因為如此，他對醫療 AI 的判斷不是從「醫院現在最需要什麼產品」出發，而是從「什麼樣的 AI 才有資格承擔高風險推理」出發。

這是他的洞察，但也構成他的邊界。

他能把生成式 AI 熱潮拉回更底層的智慧模型問題；但世界模型要真正進入醫療場景，還要面對資料取得、臨床驗證、醫療責任、法規審查、醫師工作流程與商業採用等問題。這些問題不是技術主張本身可以直接解決的。

01｜醫療 AI 的問題，不只是「答得準不準」

很多人談醫療 AI，第一個問題通常是：AI 回答醫療問題準不準？能不能通過醫師考試？能不能整理病歷？能不能幫醫師節省時間？

楊立昆的問題設定更深一層。他真正問的是：AI 是否理解自己提出的建議，會如何改變病患狀態？

這個差異很關鍵。

如果 AI 被用來摘要病歷，它主要處理的是文字壓縮與資訊重組。這類任務即使出錯，也可以透過醫師審閱、資料回查與流程控管降低風險。

但如果 AI 被用來判斷治療路徑，問題就變了。它不只是在回答「病患可能得了什麼病」，更在暗示「下一步該做什麼」。這一步牽涉用藥、檢查、風險排序、患者身體條件、時間變化與不確定性。

在這裡，語言模型最擅長的「生成合理答案」反而可能帶來危險。因為一段看起來專業、語氣穩定、邏輯完整的回答，未必代表模型理解了病患正在變化的生理狀態。

楊立昆的提醒，可以濃縮成一句話：醫療 AI 的關鍵，不是它能不能像醫師說話，而是它能不能理解一個決策會讓病患走向哪一種後果。

02｜LLM 的成功，讓人容易高估語言能力

楊立昆的觀點之所以在此刻重要，是因為 LLM 的成功讓許多組織開始把「語言能力」誤認為「理解能力」。

這並不難理解。當一個系統可以回答醫學問題、解釋檢驗數值、生成病歷摘要、模擬醫病溝通時，人們自然會感覺它「懂醫療」。

但楊立昆要拆開的是這個直覺。

醫療是一個動態系統。病患不是固定文本，而是會隨著時間、藥物、環境、年齡、共病、生活習慣與照護條件改變的複雜個體。

因此，楊立昆批評 LLM 的重點，不是它沒有用，而是它的主要能力並不是為了模擬這種動態世界而設計。

這也是世界模型概念的核心價值。它試圖讓 AI 不只從語言中學習「人們如何描述世界」，而是建立對世界狀態與變化的內在表徵。放在醫療裡，就是讓 AI 不只會讀病歷，而是能理解某個病患在特定條件下可能如何變化。

03｜觀點成立的四個前提

楊立昆的觀點有說服力，但它不是在所有情境下都同樣適用，這需要有四個前提。

第一個前提是醫療 AI 的目標必須超過文書與溝通層級。

如果 AI 只是用來整理病歷、生成衛教初稿、協助醫師查找資料，LLM 本身已經有明確價值。這些任務的核心是語言處理，不必一開始就要求完整世界模型。

但如果 AI 被期待參與診斷、治療排序、用藥建議、風險預測或照護決策，楊立昆的批評就變得重要。因為這些任務不只是文字處理，而是在處理狀態與後果。

第二個前提是世界模型必須能被驗證。

「能模擬世界」聽起來很強，但醫療不能只靠概念吸引人。世界模型要進入醫療，必須證明它在特定病種、特定族群、特定資料條件與特定臨床流程中，確實能改善判斷品質，並且錯誤率、偏誤與責任邊界可以被管理。

第三個前提是世界模型不能只是一個更漂亮的產品敘事。

AMI Labs 的方向仍在早期階段。公開資料可以支持的，是楊立昆正投入一條以世界理解、持續記憶、推理與規劃為核心的研究與創業路線；目前還不能把它寫成已經經過廣泛臨床驗證的成熟醫療方案。

第四個前提是醫療場景本身必須提供足夠高品質的資料。

04｜他可能低估或忽略什麼

楊立昆的觀點有技術洞察，但不能被直接當成醫療 AI 的完整答案。

首先，他可能低估了 LLM 在醫療現場的實用價值。

醫療系統裡有大量工作不是診斷本身，而是記錄、摘要、溝通、查詢、轉介、保險文件、行政流程與衛教說明。這些任務對醫師與護理人員的時間壓力很大，也正是 LLM 最容易先產生價值的地方。

如果把「醫療 AI 必須能模擬世界」理解成「LLM 在醫療沒有價值」，那就是誤讀。

其次，世界模型不一定會比 LLM 更容易落地。

醫療場景對可信度、可解釋性、合規、責任歸屬與臨床驗證的要求很高。即使世界模型在概念上更接近人類對狀態與後果的理解，它仍要通過實際醫療體系的檢驗。

第三，醫療決策並不只是一個模型問題。

即使 AI 能推演治療後果，最後仍要回到醫師、病患、醫院制度、保險支付、法規環境與倫理判斷。醫療決策不是單純追求模型最優解，而是在不確定性下，協調多方價值與責任。

這也是讀者需要保留的地方：楊立昆提出的，是高風險 AI 能力判斷的方向，不是醫療 AI 採購清單，也不是短期導入公式。

觀點邊界｜如何不誤讀 LeCun 的觀點

楊立昆的觀點最容易被誤讀成三件事。

第一，誤讀成「LLM 不適合醫療」。

這不準確。LLM 在醫療行政、病歷摘要、臨床文件、醫病溝通、知識查詢與教育訓練上仍有價值。LeCun 真正質疑的是，把 LLM 直接推向高風險決策時，是否具備足夠的世界理解與後果推演能力。

第二，誤讀成「世界模型已經可以取代醫師判斷」。

目前不足以這樣說。AMI Labs 與世界模型方向仍屬研究與創業早期，公開來源可以支持「楊立昆正朝此方向發展」，但不能支持「這類系統已經能成熟取代臨床決策」。

第三，誤讀成「只要不是 LLM，就一定更可靠」。

模型類型本身不保證可靠。醫療 AI 的可靠性來自清楚的任務界定、資料品質、臨床驗證、錯誤監測、醫師審查、責任設計與長期追蹤。世界模型只是可能補上 LLM 的一部分缺口，不是自動解決醫療風險的萬能答案。

觀點運用｜把「會回答」和「會推演」分開看

對醫療、製造、金融風控與公共服務主管來說，楊立昆的觀點最有用之處，不是告訴你現在該買哪一種 AI，而是提供一種判斷方法。

你可以先問：這個 AI 任務到底是在處理語言，還是在承擔後果？

如果任務是摘要、分類、草擬、查詢、翻譯、客服回覆，LLM 很可能已經足以成為有效工具。這類任務的風險通常可以透過人工審閱、版本控管與資料回查來管理。

但如果任務會影響醫療處置、設備調度、信用核准、交易風險、製程安全或人員派遣，就不能只看 AI 回答是否流暢。更重要的是，它是否理解狀態變化、限制條件與行動後果。

這不是一張 AI 導入清單，而是借用楊立昆的觀點，重新校準對 AI 能力的期待。

低風險語言任務，可以先看 LLM 的效率與可控性。中風險判斷任務，必須加入資料驗證、專家審查與錯誤回報。高風險行動任務，則要追問模型是否能處理狀態、後果與責任。

楊立昆的觀點真正能幫讀者做的，是把 AI 應用從「模型很強，所以可以試」，改成「任務牽涉哪一種風險，所以需要哪一種能力」。

行動框架｜採用這個觀點前，先問三個問題

1. 他的觀察場景，和我的決策場景是否相同？

楊立昆談的是高風險醫療 AI 與下一代世界模型。如果你的場景只是文件整理、知識查詢或內部助理，不需要把他的批評擴大成「LLM 不值得導入」。

但如果你的場景會影響病患、產線、資金、信用、法規責任或人身安全，他的提醒就很重要。

2. 他的立場讓他看見什麼，也可能忽略什麼？

楊立昆是 AI 研究者，長期關注智慧系統的底層能力。他看見的是 LLM 在世界理解、因果推理與規劃能力上的限制。

但他的位置也可能讓他較少處理醫療院所短期最迫切的營運壓力，例如文書負擔、醫師時間不足、流程碎片化與資訊系統難以整合。這些場景裡，LLM 仍可能先帶來價值。

3. 這個觀點未來可以如何被驗證？

未來要觀察的不是「世界模型」這個詞是否變熱門，而是它是否能在具體醫療任務中被驗證。

可觀察指標包括：是否有臨床研究結果、是否能降低錯誤率、是否能提升醫師判斷品質、是否能處理跨時間病程資料、是否能在不同族群中維持穩定表現，以及是否能清楚交代錯誤責任與使用邊界。

低風險語言任務，可以先看 LLM 的效率與可控性。
中風險判斷任務，必須加入資料驗證、專家審查與錯誤回報。
高風險行動任務，則要追問模型是否能處理狀態、後果與責任。