新聞速讀|AI 生成長影片:CraftStory 以五分鐘模型挑戰 OpenAI Google

以並行擴散架構突破長片段生成限制,把 AI 影片技術推進企業級應用

· 新聞速讀,前瞻技術,AI 影音
InfoAI 全球AI新聞摘要與解讀

InfoAI 編輯部

當影片生成的限制從「只能做幾秒」推進到「能做幾分鐘」時,AI 內容創作的天花板也開始被重新定義。

真正的競爭不在能不能生成影片,而在能不能生成企業願意採用、具有商業價值的長片段內容。

01|理解事件

這起事件由開源電腦視覺函式庫 OpenCV.org 的共同創辦人 Victor Erukhimov 主導,他成立的新創公司 CraftStory 於 2025 年 11 月正式走出隱藏階段,推出自家影片生成模型 Model 2.0。這款模型的最大亮點,是能生成最長五分鐘的人像為主影片,明顯突破目前市場上常見模型普遍限制在 10 至 30 秒的狀態。

這套模型採用名為「並行擴散架構(parallelised diffusion architecture)」的技術。傳統影片生成通常沿著時間軸逐段運算,前段若產生瑕疵就會一路延伸影響後段。CraftStory 改以「全片同時」處理方式,並加入前後段互相校正的機制,使長片段的穩定度與連續性提升。

值得注意的是,CraftStory 並未依賴網路影片資料庫,而是自行拍攝由演員演出的高幀率影片作為訓練素材。這讓人物動作、肢體連貫性與臉部細節相較一般模型更自然,也降低過往常見的動態模糊和臉部變形等問題。

目前產品的生成方式仍属「影片驅動」(video-to-video),使用者需提供一張靜態影像,以及一段驅動影片,再由系統轉換成新內容。CraftStory 也坦言,要做到完全文字生成影片(text-to-video)仍需時間。

在商業策略上,CraftStory 鎖定 B2B 市場,包含企業訓練影片、標準作業流程示範、產品解說等情境。這些內容原本需動用拍攝團隊、演員與後製,製作時間常以週計算,成本也高。若能以 AI 製作長度達數分鐘、品質足以替代真人拍攝的內容,企業將有明顯降本與加速效益。

CraftStory 目前取得約 200 萬美元初期資金,由 Wrike 創辦人 Andrew Filev 領投。相較於 OpenAI 或 Google 的大型模型投入動輒數十億美元,CraftStory 採取「小而專」策略,以特定應用場景切入競爭。

02|解讀新聞

CraftStory 的技術突破相當明確:它不是把短片段延長,而是從底層架構直接處理「長時間影片生成」這個難題。並行擴散讓模型能同時觀察整支影片的時間軸,這對人物動作連貫、場景一致性與口型同步都有實質影響。這也是長片段生成一直難以突破的核心瓶頸。

商業策略也具備差異化思維。當市場上多數模型仍專注打造酷炫的短秒影片,用於社群或娛樂場景時,CraftStory 選擇面向企業需求。企業真正願意付費的內容,多半與生產力、標準流程與內部訓練有關,而這些內容通常需要超過一分鐘的連續敘事能力。這也是為何五分鐘長度會被視為一個具體門檻:它足以涵蓋一段完整的指示影片或示範流程。

以生態系視角來看,這類專攻特定影片格式的公司有可能成為未來 AI 內容供應鏈中的新角色。大型模型提供底層能力,而 CraftStory 或許能成為企業規模化影片製作的「應用層」。此模式將使影片產業出現新的分工結構。

對使用者體驗而言,從「自己拍」到「交給 AI 生」是重大轉變。一個 HR 部門、產品團隊或行銷單位有可能不再依賴實際拍攝,而是快速生成一段指示影片。例如 SOP 教學、保險理賠流程、產品組裝解說等,都可能從數週製作縮短到數小時內完成。

不過限制仍存在。Model 2.0 需要依賴驅動影片,且目前尚未支援自由的鏡頭運動或複雜場景轉換。對於娛樂或電影等追求高創意自由度的產業來說,這仍屬早期階段。但對需要「穩定、可控、人像為主、敘事固定」影片的企業,CraftStory 已具備初步商用能力。

03|延伸思考

我們可以從這篇新聞理解到,AI 影片生成技術正在出現「品質門檻」的變化:從追求畫面逼真,過渡到追求長時間敘事能力。這也揭示 AI 技術的一個核心邏輯:真正重要的不是功能總量,而是能否在特定應用中支撐完整流程。

對讀者而言,提升 AI 理解力的方式,是辨識技術突破的本質。例如:CraftStory 的創新不在於分辨率提升或畫風變化,而在於架構層面的時間序列處理方式變革。能看懂這層差異,就能更準確判斷一項技術是否具備商業價值。

同時,理解 AI 的限制也很關鍵。影片生成能否可信、能否重現細節、能否維持角色一致性,都會直接影響企業是否願意採用。即使能生成五分鐘影片,是否能支援更多場景?是否在不同語言或不同文化設定中保持品質?這些都是技術落地的現實門檻。

總之,這代表長片段 AI 影片生成已從概念研究走向可評估的商用階段。掌握這項趨勢,未來在訓練、行銷、產品設計與內容製作的策略布局中,將能保留更多彈性與速度。

04|重點提煉

  • CraftStory 由 OpenCV 創辦人之一建立,推出 Model 2.0,可生成最長五分鐘的人像為主影片,突破目前市場常見只有數秒至十數秒的限制。

  • 技術核心在於並行擴散架構,改善長片段生成的穩定度、臉部自然度與動作連貫性,並以自家拍攝的高幀率影像訓練模型。

  • 企業訓練、產品操作、流程示範等場景需求龐大,長片段能力比短片更能帶來實際價值,使 CraftStory 與 OpenAI、Google 形成不同定位。

  • 理解 AI 技術時,需同時評估突破點與侷限性,並判斷其在實際工作流程中的可規模化程度。

05|後續發展

未來值得觀察兩項指標:第一,CraftStory 是否能在技術上從「影片驅動」進一步發展至真正的文字生成影片,並支援更複雜的鏡頭運動;第二,企業採用率是否提升,特別是在內部訓練、流程影片與大型組織的內容生產鏈中,若能形成穩定需求,將可能引發 AI 影片製作工具的新一波普及。

參考資料:

OpenCV founders launch AI video startup to take on OpenAI and Google

AI 時代的思考力革命|AI 素養,不是學技術,而是拿回主導權的能力升級。與 AI 一起思考,成為能定義方向的人

版權聲明與授權須知

本內容由 InfoAI 擁有著作權。如有引用、轉載或任何商業用途的需求,請來信聯絡: contentpower688@gmail.com

用內容建立信任
用洞察塑造品牌

在 AI 時代,真正有力量的行銷不是廣告聲量,而是持續輸出的深度思考。InfoAI 把全球 AI 趨勢與報告,轉譯成清楚、精準、有觀點的內容,讓企業不只是跟上變化,而是成為洞察的提供者,讓品牌變成被信任的決策夥伴。如果你不想只是「談 AI」,而是想「透過 AI 影響市場與客戶」,那就從內容開始。歡迎來信: contentpower688@gmail.com

如果你覺得這篇解讀對你有幫助,歡迎訂閱 InfoAI 電子報,我們將持續為你精選 全球 AI 新聞與趨勢洞察,幫助你看懂新聞背後的真正意義。也別忘了加入透過[QRCode]/[按鈕]加入 Line 社群 ,隨時掌握值得關注的 AI 發展與專業觀點。

Section image

AI 協作聲明

本篇文章由 InfoAI 團隊策劃,並透過人工智慧工具協助資料整理與內容撰寫,最終內容由編輯進行人工審閱與優化。

Section image

在 AI 改變世界之前
助你先讀懂 AI 世界

每日精選全球 AI 新聞

解讀趨勢脈絡與機遇

不是追著熱門新聞跑

而是掌握方向與脈動

InfoAI|讀懂 AI 如何改變世界

Section image

Content Power 重構並流動知識

重新提煉知識轉化價值