新聞速讀｜AI 生成長影片：CraftStory 以五分鐘模型挑戰 OpenAI 與 Google

新聞速讀｜AI 生成長影片：CraftStory 以五分鐘模型挑戰 OpenAI 與 Google

以並行擴散架構突破長片段生成限制，把 AI 影片技術推進企業級應用

· 新聞速讀,前瞻技術,AI 影音

InfoAI 編輯部

當影片生成的限制從「只能做幾秒」推進到「能做幾分鐘」時，AI 內容創作的天花板也開始被重新定義。

真正的競爭不在能不能生成影片，而在能不能生成企業願意採用、具有商業價值的長片段內容。

01｜理解事件

這起事件由開源電腦視覺函式庫 OpenCV.org 的共同創辦人 Victor Erukhimov 主導，他成立的新創公司 CraftStory 於 2025 年 11 月正式走出隱藏階段，推出自家影片生成模型 Model 2.0。這款模型的最大亮點，是能生成最長五分鐘的人像為主影片，明顯突破目前市場上常見模型普遍限制在 10 至 30 秒的狀態。

這套模型採用名為「並行擴散架構（parallelised diffusion architecture）」的技術。傳統影片生成通常沿著時間軸逐段運算，前段若產生瑕疵就會一路延伸影響後段。CraftStory 改以「全片同時」處理方式，並加入前後段互相校正的機制，使長片段的穩定度與連續性提升。

值得注意的是，CraftStory 並未依賴網路影片資料庫，而是自行拍攝由演員演出的高幀率影片作為訓練素材。這讓人物動作、肢體連貫性與臉部細節相較一般模型更自然，也降低過往常見的動態模糊和臉部變形等問題。

目前產品的生成方式仍属「影片驅動」（video-to-video），使用者需提供一張靜態影像，以及一段驅動影片，再由系統轉換成新內容。CraftStory 也坦言，要做到完全文字生成影片（text-to-video）仍需時間。

在商業策略上，CraftStory 鎖定 B2B 市場，包含企業訓練影片、標準作業流程示範、產品解說等情境。這些內容原本需動用拍攝團隊、演員與後製，製作時間常以週計算，成本也高。若能以 AI 製作長度達數分鐘、品質足以替代真人拍攝的內容，企業將有明顯降本與加速效益。

CraftStory 目前取得約 200 萬美元初期資金，由 Wrike 創辦人 Andrew Filev 領投。相較於 OpenAI 或 Google 的大型模型投入動輒數十億美元，CraftStory 採取「小而專」策略，以特定應用場景切入競爭。

02｜解讀新聞

CraftStory 的技術突破相當明確：它不是把短片段延長，而是從底層架構直接處理「長時間影片生成」這個難題。並行擴散讓模型能同時觀察整支影片的時間軸，這對人物動作連貫、場景一致性與口型同步都有實質影響。這也是長片段生成一直難以突破的核心瓶頸。

商業策略也具備差異化思維。當市場上多數模型仍專注打造酷炫的短秒影片，用於社群或娛樂場景時，CraftStory 選擇面向企業需求。企業真正願意付費的內容，多半與生產力、標準流程與內部訓練有關，而這些內容通常需要超過一分鐘的連續敘事能力。這也是為何五分鐘長度會被視為一個具體門檻：它足以涵蓋一段完整的指示影片或示範流程。

以生態系視角來看，這類專攻特定影片格式的公司有可能成為未來 AI 內容供應鏈中的新角色。大型模型提供底層能力，而 CraftStory 或許能成為企業規模化影片製作的「應用層」。此模式將使影片產業出現新的分工結構。

對使用者體驗而言，從「自己拍」到「交給 AI 生」是重大轉變。一個 HR 部門、產品團隊或行銷單位有可能不再依賴實際拍攝，而是快速生成一段指示影片。例如 SOP 教學、保險理賠流程、產品組裝解說等，都可能從數週製作縮短到數小時內完成。

不過限制仍存在。Model 2.0 需要依賴驅動影片，且目前尚未支援自由的鏡頭運動或複雜場景轉換。對於娛樂或電影等追求高創意自由度的產業來說，這仍屬早期階段。但對需要「穩定、可控、人像為主、敘事固定」影片的企業，CraftStory 已具備初步商用能力。

03｜延伸思考

我們可以從這篇新聞理解到，AI 影片生成技術正在出現「品質門檻」的變化：從追求畫面逼真，過渡到追求長時間敘事能力。這也揭示 AI 技術的一個核心邏輯：真正重要的不是功能總量，而是能否在特定應用中支撐完整流程。

對讀者而言，提升 AI 理解力的方式，是辨識技術突破的本質。例如：CraftStory 的創新不在於分辨率提升或畫風變化，而在於架構層面的時間序列處理方式變革。能看懂這層差異，就能更準確判斷一項技術是否具備商業價值。

同時，理解 AI 的限制也很關鍵。影片生成能否可信、能否重現細節、能否維持角色一致性，都會直接影響企業是否願意採用。即使能生成五分鐘影片，是否能支援更多場景？是否在不同語言或不同文化設定中保持品質？這些都是技術落地的現實門檻。

總之，這代表長片段 AI 影片生成已從概念研究走向可評估的商用階段。掌握這項趨勢，未來在訓練、行銷、產品設計與內容製作的策略布局中，將能保留更多彈性與速度。

04｜重點提煉

CraftStory 由 OpenCV 創辦人之一建立，推出 Model 2.0，可生成最長五分鐘的人像為主影片，突破目前市場常見只有數秒至十數秒的限制。
技術核心在於並行擴散架構，改善長片段生成的穩定度、臉部自然度與動作連貫性，並以自家拍攝的高幀率影像訓練模型。
企業訓練、產品操作、流程示範等場景需求龐大，長片段能力比短片更能帶來實際價值，使 CraftStory 與 OpenAI、Google 形成不同定位。
理解 AI 技術時，需同時評估突破點與侷限性，並判斷其在實際工作流程中的可規模化程度。

05｜後續發展

未來值得觀察兩項指標：第一，CraftStory 是否能在技術上從「影片驅動」進一步發展至真正的文字生成影片，並支援更複雜的鏡頭運動；第二，企業採用率是否提升，特別是在內部訓練、流程影片與大型組織的內容生產鏈中，若能形成穩定需求，將可能引發 AI 影片製作工具的新一波普及。

加點此加入 Line 群自動收新聞

點此訂閱電子報

參考資料：

OpenCV founders launch AI video startup to take on OpenAI and Google

閱讀更多的「全球 AI 新聞摘要解讀」

推薦閱讀｜AI 素養專欄

AI 時代的思考力革命｜AI 素養，不是學技術，而是拿回主導權的能力升級。與 AI 一起思考，成為能定義方向的人

AI 素養｜AI 為什麼會亂講話？揭開大型語言模型的「黑盒子」運作邏輯
理解 AI 為何能回答、也會胡說八道的真正原因

AI 時代的思考力革命｜AI 素養，不是學技術，而是拿回主導權的能力升級
與 AI 一起思考，成為能定義方向的人

AI 時代的知識遷徙策略｜從「學會掌握」到「洞察驗證」
聞道不必有先後，高下立判見深用；術業專攻仍需要，深廣變通顯智慧。

版權聲明與授權須知

本內容由 InfoAI 擁有著作權。如有引用、轉載或任何商業用途的需求，請來信聯絡： contentpower688@gmail.com。

用內容建立信任
用洞察塑造品牌

在 AI 時代，真正有力量的行銷不是廣告聲量，而是持續輸出的深度思考。InfoAI 把全球 AI 趨勢與報告，轉譯成清楚、精準、有觀點的內容，讓企業不只是跟上變化，而是成為洞察的提供者，讓品牌變成被信任的決策夥伴。如果你不想只是「談 AI」，而是想「透過 AI 影響市場與客戶」，那就從內容開始。歡迎來信： contentpower688@gmail.com

如果你覺得這篇解讀對你有幫助，歡迎訂閱 InfoAI 電子報，我們將持續為你精選 全球 AI 新聞與趨勢洞察，幫助你看懂新聞背後的真正意義。也別忘了加入透過［QRCode］／［按鈕］加入 Line 社群 ，隨時掌握值得關注的 AI 發展與專業觀點。

加點此加入 Line 群自動收新聞

點此訂閱電子報

AI 協作聲明：

本篇文章由 InfoAI 團隊策劃，並透過人工智慧工具協助資料整理與內容撰寫，最終內容由編輯進行人工審閱與優化。

在 AI 改變世界之前
助你先讀懂 AI 世界

每日精選全球 AI 新聞

解讀趨勢脈絡與機遇

不是追著熱門新聞跑

而是掌握方向與脈動

InfoAI｜讀懂 AI 如何改變世界

Content Power 重構並流動知識

重新提煉知識轉化價值

新聞速讀｜AI 生成長影片：CraftStory 以五分鐘模型挑戰 OpenAI 與 Google

InfoAI 編輯部

當影片生成的限制從「只能做幾秒」推進到「能做幾分鐘」時，AI 內容創作的天花板也開始被重新定義。

真正的競爭不在能不能生成影片，而在能不能生成企業願意採用、具有商業價值的長片段內容。

01｜理解事件

值得注意的是，CraftStory 並未依賴網路影片資料庫，而是自行拍攝由演員演出的高幀率影片作為訓練素材。這讓人物動作、肢體連貫性與臉部細節相較一般模型更自然，也降低過往常見的動態模糊和臉部變形等問題。

目前產品的生成方式仍属「影片驅動」（video-to-video），使用者需提供一張靜態影像，以及一段驅動影片，再由系統轉換成新內容。CraftStory 也坦言，要做到完全文字生成影片（text-to-video）仍需時間。

CraftStory 目前取得約 200 萬美元初期資金，由 Wrike 創辦人 Andrew Filev 領投。相較於 OpenAI 或 Google 的大型模型投入動輒數十億美元，CraftStory 採取「小而專」策略，以特定應用場景切入競爭。

02｜解讀新聞

以生態系視角來看，這類專攻特定影片格式的公司有可能成為未來 AI 內容供應鏈中的新角色。大型模型提供底層能力，而 CraftStory 或許能成為企業規模化影片製作的「應用層」。此模式將使影片產業出現新的分工結構。

03｜延伸思考

我們可以從這篇新聞理解到，AI 影片生成技術正在出現「品質門檻」的變化：從追求畫面逼真，過渡到追求長時間敘事能力。這也揭示 AI 技術的一個核心邏輯：真正重要的不是功能總量，而是能否在特定應用中支撐完整流程。

對讀者而言，提升 AI 理解力的方式，是辨識技術突破的本質。例如：CraftStory 的創新不在於分辨率提升或畫風變化，而在於架構層面的時間序列處理方式變革。能看懂這層差異，就能更準確判斷一項技術是否具備商業價值。

總之，這代表長片段 AI 影片生成已從概念研究走向可評估的商用階段。掌握這項趨勢，未來在訓練、行銷、產品設計與內容製作的策略布局中，將能保留更多彈性與速度。

04｜重點提煉

CraftStory 由 OpenCV 創辦人之一建立，推出 Model 2.0，可生成最長五分鐘的人像為主影片，突破目前市場常見只有數秒至十數秒的限制。

技術核心在於並行擴散架構，改善長片段生成的穩定度、臉部自然度與動作連貫性，並以自家拍攝的高幀率影像訓練模型。

企業訓練、產品操作、流程示範等場景需求龐大，長片段能力比短片更能帶來實際價值，使 CraftStory 與 OpenAI、Google 形成不同定位。

理解 AI 技術時，需同時評估突破點與侷限性，並判斷其在實際工作流程中的可規模化程度。

05｜後續發展

參考資料：

OpenCV founders launch AI video startup to take on OpenAI and Google

AI 素養｜AI 為什麼會亂講話？揭開大型語言模型的「黑盒子」運作邏輯理解 AI 為何能回答、也會胡說八道的真正原因

AI 時代的思考力革命｜AI 素養，不是學技術，而是拿回主導權的能力升級與 AI 一起思考，成為能定義方向的人

AI 時代的知識遷徙策略｜從「學會掌握」到「洞察驗證」聞道不必有先後，高下立判見深用；術業專攻仍需要，深廣變通顯智慧。

版權聲明與授權須知

本內容由 InfoAI 擁有著作權。如有引用、轉載或任何商業用途的需求，請來信聯絡： contentpower688@gmail.com。

用內容建立信任用洞察塑造品牌

AI 協作聲明：

本篇文章由 InfoAI 團隊策劃，並透過人工智慧工具協助資料整理與內容撰寫，最終內容由編輯進行人工審閱與優化。

在 AI 改變世界之前助你先讀懂 AI 世界

每日精選全球 AI 新聞

解讀趨勢脈絡與機遇

不是追著熱門新聞跑

而是掌握方向與脈動

InfoAI｜讀懂 AI 如何改變世界

Content Power 重構並流動知識

重新提煉知識轉化價值

AI 素養｜AI 為什麼會亂講話？揭開大型語言模型的「黑盒子」運作邏輯
理解 AI 為何能回答、也會胡說八道的真正原因

AI 時代的思考力革命｜AI 素養，不是學技術，而是拿回主導權的能力升級
與 AI 一起思考，成為能定義方向的人

AI 時代的知識遷徙策略｜從「學會掌握」到「洞察驗證」
聞道不必有先後，高下立判見深用；術業專攻仍需要，深廣變通顯智慧。

用內容建立信任
用洞察塑造品牌

在 AI 改變世界之前
助你先讀懂 AI 世界