新聞速讀|中國晶片堆疊在出口封鎖下挑戰 Nvidia AI 規則

用成熟製程與系統設計補上高階 GPU 製程差距

· 新聞速讀,公司戰略
InfoAI 全球AI新聞摘要與解讀

InfoAI 編輯部

當製程升級被出口管制鎖住,真正的競爭就從「幾奈米」轉向「怎麼用手上零件組出夠聰明的系統」。

這不是一場單純的效能比拚,而是誰能在受限條件下,用成熟製程+封裝+軟體生態,組出可長期運作的 AI 算力系統。

01|理解事件

這則新聞的主角是中國半導體圈在美國出口管制壓力下,提出的一條新路線:改打「晶片堆疊+近記憶體運算」,試圖在不用先進製程的前提下,縮小與 Nvidia 高階 AI GPU 的差距。提出這個構想的是中國半導體行業協會副會長、清華大學教授魏少軍,他在產業會議上拋出一種新架構:用 14 奈米邏輯晶片疊合 18 奈米 DRAM,經由三維混合鍵合(3D hybrid bonding 垂直堆疊,把運算單元搬到記憶體附近,形成「軟體定義近記憶體運算」 的 AI 加速器。

美國自 2022 年起收緊出口管制,把製造設備與相關技術的門檻,鎖在 16/14 奈米 FinFET 邏輯、18 奈米 DRAM 半節距,再加上 EUV 等關鍵設備無法取得,等於大幅拉高中國往 5 奈米、4 奈米 前進的難度。魏少軍的設計刻意「貼著紅線邊緣」,選擇理論上仍可在本土供應鏈完成的 14nm18nm 組合,希望藉由堆疊與封裝,把原本要靠更細製程才能改善的效能與頻寬問題,改用「往上蓋樓」來彌補。

這種 3D 混合鍵合,關鍵在於把邏輯與記憶體之間的連結縮短到 10 微米級的銅對銅接點,減少資料在處理器與記憶體之間來回奔波的距離與延遲,對於高度依賴資料搬運的 AI 工作負載特別重要。魏少軍宣稱,這樣的設計理論上可以做到 120 TFLOPS 的峰值效能、每瓦約 2 TFLOPS,並主張有機會接近 4 奈米級 Nvidia GPU,甚至在部分條件下超越 A100

值得注意的是,目前公開資訊顯示,這比較像是一套被詳細勾勒的概念架構與目標數字,尚無清楚證據顯示實體晶片已經完成並經過大規模測試。換句話說,現在討論的,是一條被中國官方學界視為「可嘗試的技術路線」,而不是今天就能直接下單,替代 H100B200 的現成產品。

02|解讀新聞

從技術面來看,這項「晶片堆疊策略」代表中國在做一個明確轉向:從「比製程」轉為「比系統設計」。在無法取得 3 奈米、2 奈米量產能力與相關設備的前提下,工程資源被迫集中在封裝、架構與資料搬運方式,例如 3D 混合鍵合、近記憶體運算、運算與儲存協同設計等。這種做法的精神,與目前全球廣泛採用的 HBM 高頻寬記憶體堆疊 有相似之處,但中國試圖把它擴展成一整套 本土 AI 運算平台,而不只是單一零組件。

然而,一旦把這個構想放進實務場景,就會看到幾道不容易跨過的關卡。

第一是熱管理與功耗:14 奈米邏輯本身功耗就不低,把多層邏輯與記憶體堆在一起,要有效導熱非常困難;再加上 3D 堆疊一旦某一層出現瑕疵,整疊報廢,良率風險與成本壓力都會放大。

第二是 能效差距:魏少軍提出的目標是約 2 TFLOPS/W,相較之下,Nvidia 新一代 Blackwell 架構 GPU(如 B300 的能效被估計可達 每瓦 10 TFLOPS 以上,也就是一個量級的差距。即便總體效能「在同一量級內」,在大型資料中心環境裡,能效差距會直接轉成電力與機房成本。

第三道牆則是軟體生態與開發成本。Nvidia 靠的是 CUDA+完整工具鏈與生態系,讓開發者可以在相對穩定的抽象層上工作;中國若採用與現有 GPU 顯著不同的架構,一方面可以避開 CUDA 壟斷,另一方面卻必須自己扛起編譯器、程式庫、開發工具、社群支持 等長期投資。對雲端服務供應商與企業 IT 主管來說,是否願意承擔這個轉換成本,會是這條路線能不能真正「商用落地」的關鍵。

03|延伸思考

AI 時代有一個很關鍵的底層邏輯:算力不是只有「單顆晶片規格」的競賽,而是整個系統怎麼協調資料搬運、記憶體頻寬與能耗。當先進製程與關鍵設備都被鎖在門外,中國試圖用成熟製程堆出「夠用的算力」,本質是在思考:在資源受限的世界裡,怎麼用比較笨、但可取得的零件,拼出足夠聰明的系統

對讀者來說,這提供了一套更精準的觀察框架。第一,遇到任何「XX 晶片可追平 Nvidia」的說法時,不能只看數字,還要追問:這個數字是在什麼運算型態、什麼功耗條件下得到?是單一場景峰值,還是能在實際訓練、推論工作負載中穩定維持?是否需要為它改寫大量軟體與模型框架?數字可以相近,但總擁有成本可能完全不同。

二,要學會把目光放在「可量產性與生態成本」:3D 堆疊的良率、散熱、封裝供應鏈是否穩定?有沒有足夠的工具與開發者能支援?這些都會直接決定,它是成為大規模採用的主流方案,還是停留在少數示範專案。這也提醒我們,在閱讀任何 AI 硬體新聞時,不要只停留在「技術好厲害」的感嘆,而是要問:在真實世界的限制條件下,它能否被大量複製、維運、升級?

這代表:面對 AI 基礎建設的投資與導入決策,關鍵不再是單純追問「幾奈米、跑多快」,而是要進一步追問,「在我的工作場景與預算限制之下,這套系統能不能以合理成本、長期穩定地跑起來?」這會是接下來十年,評估 AI 技術真實價值時最重要的思考素養之一。

04|重點提煉

  • 中國在美國出口管制與無法取得先進製程設備的壓力下,提出一條 「14 奈米邏輯+18 奈米 DRAM、3D 混合鍵合堆疊」 的新路線,由魏少軍主張透過 軟體定義近記憶體運算,打造 AI 專用加速器,理論目標約 120 TFLOPS、2 TFLOPS/W,對標 4 奈米級 Nvidia GPU 與 A100 等產品。

  • 這條路線在技術上,試圖將原本靠製程縮小才能改善的效能與頻寬問題,轉化為 封裝與系統設計問題,但現階段仍面臨熱管理困難、3D 堆疊良率風險高、能效顯著落後 Nvidia 新一代 Blackwell GPU、軟體與開發者生態尚未成熟 等現實挑戰,因此更像是一個中長期的技術賭注,而非可立即量產替代 H100/B200 的成熟方案。

  • 從產業與戰略角度看,中國正在從「追逐製程節點」轉向「用成熟製程+創新封裝+本土可控供應鏈 組出可用算力」,在地緣政治與出口管制之下尋找「不被掐喉」的路線;這可能無法短期撼動 Nvidia 在高階訓練市場的優勢,但有機會在特定推論與資料分析場景,提供一種本土、成本可控的選項。

  • 這則新聞提醒我們:評估 AI 晶片與算力基礎建設時,不能只看製程與 TFLOPS,還要一起考量能效、適用工作負載、量產良率、散熱設計,以及軟體生態與導入成本;真正重要的,是培養能在各種限制條件下,判斷「這套系統在我的情境裡能不能穩定又可負擔地運作」的思考能力。

05|後續觀察

這條「晶片堆疊+近記憶體運算」路線,接下來有幾個值得持續觀察的指標。

第一,是否會出現實際量產的晶片與公開基準測試數據:包含在大型語言模型訓練、推論、資料分析等不同負載下的效能與能效,是否能與 A100、H100 或 Blackwell 同代產品放在同一張表上比較。沒有可驗證的量測數據,再漂亮的理論架構都很難說服採購與技術決策者。

第二,出口管制是否會進一步延伸到先進封裝與 3D 鍵合設備與材料,一旦相關工具也被納入限制,中國「用成熟製程堆出高效能」的空間就會被壓縮,整體戰略又得重新調整。第三,還要看中大型雲端服務供應商與國內 AI 項目,是否願意在生產環境導入這類架構,而不只是在實驗室做概念驗證。這些後續發展,將決定晶片堆疊究竟是過渡時期的權宜之計,還是真正重塑 AI 晶片版圖的新主角。

InfoAI 近期活動預告

InfoAI Salon 2025

參考資料:

  • Can China's chip stacking strategy really challenge Nvidia’s AI dominance?

AI 時代的思考力革命|AI 素養,不是學技術,而是拿回主導權的能力升級。與 AI 一起思考,成為能定義方向的人

版權聲明與授權須知

本內容由 InfoAI 擁有著作權。如有引用、轉載或任何商業用途的需求,請來信聯絡: contentpower688@gmail.com

用內容建立信任
用洞察塑造品牌

在 AI 時代,真正有力量的行銷不是廣告聲量,而是持續輸出的深度思考。InfoAI 把全球 AI 趨勢與報告,轉譯成清楚、精準、有觀點的內容,讓企業不只是跟上變化,而是成為洞察的提供者,讓品牌變成被信任的決策夥伴。如果你不想只是「談 AI」,而是想「透過 AI 影響市場與客戶」,那就從內容開始。歡迎來信: contentpower688@gmail.com

如果你覺得這篇解讀對你有幫助,歡迎訂閱 InfoAI 電子報,我們將持續為你精選 全球 AI 新聞與趨勢洞察,幫助你看懂新聞背後的真正意義。也別忘了加入透過[QRCode]/[按鈕]加入 Line 社群 ,隨時掌握值得關注的 AI 發展與專業觀點。

Section image

AI 協作聲明

本篇文章由 InfoAI 團隊策劃,並透過人工智慧工具協助資料整理與內容撰寫,最終內容由編輯進行人工審閱與優化。

Section image

InfoAI|讀懂 AI 如何改變世界

在 AI 改變世界之前
助你先讀懂 AI 世界

每日精選全球 AI 新聞
AI 趨勢 + 新聞 + 深度解讀

Section image

Content Power |賦能你在 AI 時代的專業能力
專注於「AI × 專業 × 工作方法」的知識平台
透過框架、流程與方法
協助你在 AI 時代重建專業能力