AI 新聞速報|DeepSeek R1 年初已發佈,但訓練成本直到 Nature 論文公開才曝光:29.4 萬美元信息震撼全球

Nature 論文首次披露 GPU 與訓練時間細節,延後公開讓新聞價值在 9 月再度引爆

· AI新聞速報,前瞻技術
InfoAI 全球AI新聞摘要與解讀

InfoAI 編輯部

中國 AI 新創 DeepSeek 於 2025 年初推出了大型語言模型 R1,當時就被視為挑戰 OpenAI 與 Google 的新勢力。然而,真正引爆全球媒體與產業震動的,不是年初的發佈,而是 2025 年 9 月中旬隨著 Nature 論文正式公開的訓練細節:R1 僅以 29.4 萬美元完成訓練,硬體使用 512 顆 Nvidia H800 GPU,訓練時間約 80 小時。這些資訊在年初並未揭露,直到獲得學術論文佐證後,才讓《路透社》等國際媒體選擇在此刻再度聚焦 DeepSeek。

年初發佈 vs 9 月公開:新聞價值為何延後爆發?

當 R1 在年初首次亮相時,DeepSeek 展示了模型在推理與中文任務上的潛力,但並未披露 GPU 規模、訓練時間與完整成本。外界對其低成本說法充滿猜測,缺乏可信依據。

到了 9 月 17 日,Nature 正式刊登 DeepSeek R1 的論文《DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning》,首次以同行評審形式完整揭露:

  • 512 顆 H800 GPU 為主力

  • 約 80 小時訓練時間

  • 早期階段使用 A100 GPU 處理小型模型

  • 訓練直接成本為 294,000 美元

這是第一次 DeepSeek 以科學論文佐證自身的低成本路線,讓數據具備可比性與可信度。也因此,《路透社》、《Nature News》與 Scientific American 等媒體選擇在此時再度報導,新聞熱度比年初更高。

Nature 論文的意義:透明度與可信度

多數大型 AI 模型只透過技術部落格或公司公告釋出資訊,缺乏經過審查的成本與方法細節。Nature 在同一期社論中更強調:「同行評審有助於提升 AI 模型透明度與可信度」。DeepSeek R1 成為少數在頂尖期刊完整公開 GPU 用量、成本與方法的案例,這也是它在 9 月再次成為全球焦點的重要原因。

DeepSeek 如何以有限算力完成低成本訓練?

DeepSeek 團隊指出,能大幅降低訓練成本的關鍵包括:

  • 硬體優化:在 H800 GPU 的限制下,透過演算法與任務分配提升效能。

  • 自動化數據處理:減少冗餘的清理與標註作業。

  • 強化學習策略:R1 並非單純模仿其他模型,而是透過 reinforcement learning 引導推理能力。

  • 工程極致化:透過跨團隊協作與流程最佳化,縮短訓練時間,降低資源浪費。

這種「極致工程」讓 DeepSeek 即使在 GPU 受限的情況下,仍能打造具競爭力的模型。

國際巨頭的成本對比:億級 vs 萬級的衝擊

OpenAI GPT-4 的訓練成本估計超過 1 億美元,Anthropic Claude 與 Google Gemini 也在數千萬美元規模。高昂費用來自:

  • 大量 H100/A100 GPU 集群

  • 海量高品質語料收集與清理

  • 多階段測試與人類回饋

  • 安全性與合規成本

與這些數字相比,DeepSeek 的 29.4 萬美元幾乎是「不可能的低價」。雖然模型的泛用性與跨語言表現仍有差距,但其「高性價比」路線為產業提供了另一種可行模式。

品質與成本的平衡問題

DeepSeek R1 在中文與程式碼生成上表現突出,並在 Hugging Face 與 Open LLM Leaderboard 上排名不錯。然而,與 GPT-4o、Gemini、Claude 3 等全面型商用模型相比,仍存在泛用性不足與安全性挑戰。

這也提醒產業:低成本並不必然意味著全方位競爭力,而是適合特定應用場景。DeepSeek 的強項是「在地化、性價比高的任務」,而非全面取代國際巨頭。

中國的算力挑戰與出口限制背景

美國對中國祭出 GPU 出口管制,使 H100 與 A100 難以合法進口,H800 成為中國市場的主要替代品。DeepSeek 選擇在 H800 上完成訓練,正好展現了中國新創如何在受限算力下尋找軟體與工程突破。這同時也說明,即便硬體被限制,透過演算法與流程優化,仍可能達到具產業價值的成果。

台灣觀點:新創應借鏡「性價比」思維

台灣新創團隊雖難以與國際巨頭比拚算力規模,但在醫療、製造、金融等領域擁有深厚 know-how。DeepSeek 的做法對台灣的啟示是:

  • 不必追求極致規模,而應專注精準應用

  • 建立共享算力與資料平台,降低進入門檻

  • 透過工程效率與跨界合作,提升模型性價比

這樣的策略更符合台灣新創的現實條件,也能創造具差異化的競爭力。

全球 AI 市場趨勢:多元化與雙軌並行

R1 的低成本新聞引爆後,國際市場開始重新審視投資路線。未來 AI 生態可能形成雙軌:

  • 巨頭模型:全能型、高成本,維持主流地位。

  • 新創模型:小而精,針對特定產業與市場,快速迭代。

DeepSeek 的案例象徵產業不再只有單一路線,而是走向多元化。

編輯觀點|新聞價值在於透明,而非單純發佈

DeepSeek R1 的案例提醒我們:科技新聞的價值不在於「誰先發佈」,而在於「何時能被驗證」。年初的 R1 雖然引人注目,但缺乏可比數據,直到 9 月 Nature 論文公開,這些資訊才真正具有新聞價值。

對台灣新創而言,除了專注技術研發,更應思考如何在透明度、數據公開與性價比策略上建立信任,這才是打開國際市場的關鍵。

參考資料:

DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning
https://www.nature.com/articles/s41586-025-09422-z

Secrets of DeepSeek AI model revealed in landmark paper
https://www.nature.com/articles/d41586-025-03015-6

Bring us your LLMs: why peer review is good for AI models
https://www.nature.com/articles/d41586-025-02979-9

FAQ|關鍵問答

Q1:為什麼 DeepSeek R1 的新聞要等到 9 月才爆發?
因為年初雖然發佈了 R1,但並未公開訓練成本與 GPU 細節。直到 9 月 Nature 論文正式披露,資訊才具備可信度,新聞價值因此放大。

Q2:R1 的硬體與時間配置是什麼?
R1 在 512 顆 H800 GPU 上訓練約 80 小時,並在早期用 A100 GPU 處理小型模型。這些細節首次出現在 Nature 論文中。

Q3:29.4 萬美元是否包含所有開發支出?
並非如此。這個數字僅涵蓋 GPU 運算等直接訓練成本,不包含資料收集、人力、合規與部署等完整開發費用。

Q4:R1 的品質如何?能與 GPT-4o、Gemini 相比嗎?
R1 在中文與程式碼任務表現不錯,但在跨語言與泛用性上仍有差距,適合特定場景,而非全面挑戰國際巨頭。

Q5:Nature 論文的重要性在哪裡?
Nature 是首度經同行評審完整公開 DeepSeek 訓練細節的學術文件,使其數據更可信,也讓新聞在 9 月再度成為全球焦點。

Q6:台灣新創可以得到什麼啟示?
啟示在於「高性價比思維」:利用有限資源做到精準應用,透過共享算力與跨界合作降低門檻,建立差異化生態。

Q7:低成本 AI 模型會成為主流嗎?
短期內仍難取代頂級商用模型,但它能推動 AI 普及與多元化,對新創與中小企業而言是重要機會。

版權聲明與授權須知

本內容由 InfoAI 擁有著作權。若您有引用、轉載或任何商業用途的需求,請先來信 contentpower688@gmail.com 申請授權。

AI 內容合作/供稿服務

InfoAI 也為企業與組織提供專屬主題的內容策劃與供稿服務,若有合作需求,歡迎聯繫: contentpower688@gmail.com

如果你覺得這篇文章對你有幫助,歡迎訂閱 InfoAI 電子報,我們將持續為你精選 全球 AI 新聞與趨勢洞察,幫助你看懂新聞背後的真正意義。也別忘了加入透過[QRCode]/[按鈕]加入 Line 社群 ,隨時掌握值得關注的 AI 發展與專業觀點。

Section image

AI 協作聲明

本篇文章由 InfoAI 團隊策劃,並透過人工智慧進行編輯輔助,最終內容由編輯進行人工審閱與優化。

Section image

InfoAI 是針 AI 產業新聞進行精選與解讀的媒體

我們每日追蹤全球技術與商業動態

透過收集、比對驗證與分析

將複雜訊息轉為能落地的決策建議

幫助讀者在最短時間看懂趨勢、做出更好的選擇

Section image

內容原力 ContentPower|化繁為簡的知識出版商

ContentPower 專注於將龐雜知識化繁為簡

轉化為實用的電子書、工具與行動手冊

打造陪伴你持續成長的學習工具箱

幫助你在職場與生活中走得更遠