精選解讀｜Memories.ai 與視覺記憶層：當 AI 穿戴裝置與機器人開始記得看過什麼，競爭焦點就不再只是...

精選解讀｜Memories.ai 與視覺記憶層：當 AI 穿戴裝置與機器人開始記得看過什麼，競爭焦點就不再只是看懂畫面

企業級 AI Agent 的關鍵門檻，已從模型能力轉向隔離、權限、審計與可回復機制

· AI 基礎設施,精選解讀,AI 落地應用,AI 機器人

InfoAI | 視覺記憶層正成為穿戴式裝置與機器人的新競爭點。本文從 Memories.ai 切入，說明 Physical AI 的瓶頸為何正從看懂畫面轉向長時間召回，並拆解這個能力層對製造巡檢、物流倉儲、醫療照護等場景的含意，以及企業在採購時必須先釐清的資料留存、裝置端運算、調閱權限與刪除機制。

視覺記憶，不是看懂，而是能不能被追問。

在工廠巡檢、物流倉儲、醫療照護或零售門市裡，許多工作流程真正困難的地方，往往不是系統有沒有看到眼前畫面，而是幾小時後、幾天後，當主管回頭追問某個異常事件時，系統能不能把當時那段畫面連同前後脈絡一起找回來。Memories.ai 正是把這個問題直接命名為「visual memory layer」，也就是替穿戴式裝置與機器人建立一層可召回、可推理的視覺記憶層。依照 TechCrunch 的描述，這家公司正在打造 large visual memory model，能對影片形式的記錄進行索引與檢索，目標場景是 Physical AI。
關鍵解讀：
・Memories.ai 想做的，不只是影片分析，而是把連續影像轉成可搜尋、可召回、可進一步推理的視覺記憶層。
・對 AI 眼鏡與機器人來說，下一個能力瓶頸很可能不是辨識單張畫面的準確率，而是跨時間回想與脈絡召回。這是根據穿戴式裝置與 Physical AI 的實際使用情境所做的產業推論。
・一旦視覺記憶層成形，企業採購與治理要問的問題，就會從「能不能看懂」升級成「記多久、誰能調閱、在哪裡運算、能不能刪除」。

01｜真正的競爭不是看見畫面，而是事後能不能把脈絡找回來

視覺記憶層不是把監視器影片存下來而已。它真正要做的，是建立一個能對影片記憶進行索引與檢索的大型視覺記憶模型。Memories.ai 將 LVMM 2.0 定位為讓 AI 系統首次具備裝置端視覺記憶的能力，並強調可在高通（Qualcomm）處理器上原生執行，讓使用者能直接在裝置端快速搜尋與分析影像時刻，同時把資料留在本地端。

這代表它能處理的不是單一模型輸出，而是一整個能力鏈條：畫面如何被編碼、如何建立索引、如何在之後被重新查找，以及查找到之後如何回答新的問題。也因此，視覺記憶層比較像是一種中介層，而不只是單一功能。

過去企業在導入生成式 AI 時，通常會把嵌入、檢索與向量資料庫視為必要堆疊；現在 Memories.ai 想證明的是，連續影像世界也可能出現一套對應的記憶堆疊。差別只在於，它服務的對象不再是 PDF、文件與知識庫，而是穿戴式眼鏡、攝影機與機器人一路看過的現場。

02｜視覺記憶層要補的，不是錄影功能，而是影像世界的檢索中介層

這題值得重視，不是因為市場突然發明一個新名詞，而是因為 Physical AI 的限制確實正在浮現。輝達在 2026 年 1 月介紹 Cosmos Reason 2 時，把它定位為能幫助機器人與 AI agents 更準確地看見、理解並在實體世界互動的 reasoning VLM；到了 GTC 2026，輝達又把 Vision AI、NVIDIA Metropolis 與 Cosmos Reason 2 納入官方更新重點，並提到在影片摘要場景中可獲得更高效能。

但「看懂」與「記住」是兩個不同層次。即時辨識處理的是現在眼前有什麼，長時間記憶處理的則是未來某個時間點，系統能不能因應新的問題，把過去不同時刻的片段重新組織成答案。這件事在文字世界裡已經比較熟悉，因為聊天機器人會記住對話脈絡與使用者偏好；但在影像世界裡，資料密度更高、時序更長，而且許多關鍵資訊在當下並不會被標記成重要事件。換句話說，真正困難的地方不只是理解，而是延後召回。Memories.ai 把這件事當成產品核心，本身就說明產業已開始替瓶頸重新命名。

03｜Physical AI 的瓶頸開始換位：從即時理解走向延後召回

聊天機器人主要處理的是文件、訊息與網頁，但視覺世界不是這樣。穿戴式裝置與機器人面對的，是持續流動、尚未整理過的現場。Meta 在 2024 年 9 月替 Ray-Ban Meta 眼鏡加入的新 AI 功能，其實已經透露出這條路線的需求雛形。官方公告明確提到，這些功能包括幫使用者記住停車位置、即時翻譯，以及更多互動式 AI 能力。市場對穿戴式 AI 的期待，已經不再只是「眼前看到了什麼」，而是「之後還能不能接續這段經驗」。

若從產業結構來看，這更像是一個「終端入口尚未完全成熟，但上游能力已開始卡位」的訊號。終端入口目前仍主要掌握在大型平台與裝置商手中，例如 Meta 的眼鏡生態，或未來其他穿戴式裝置與機器人平台。至於晶片、訓練與開發工具鏈，則高度集中在輝達與處理器合作夥伴手中。Memories.ai 這類公司想佔的位置，不是通用模型本身，也不是消費型入口，而是在裝置、模型與現場資料之間，補上一層可被召回的視覺記憶。這一層未必最後一定會由獨立新創掌握，但它正在被市場明確化。

04｜穿戴裝置與機器人會先需要它，因為它們面對的是尚未整理的現場

視覺記憶會先在穿戴式裝置與機器人身上變得重要，因為它們面對的不是文件，而是不斷流動、無法事先整理的現場。

外媒提到 Memories.ai 已使用輝達工具；Memories.ai 官方則宣佈與高通合作，目標是在 2026 年起讓 LVMM 2.0 原生跑在高通處理器上，主打讓使用者與企業能在裝置端安全、快速地搜尋與分析視覺內容。

這裡透露出一個很實際的產業邏輯：如果視覺記憶一定得全數放上雲端處理，延遲、成本、頻寬與隱私問題就會一起浮現；但如果能在裝置端或邊緣端完成更多索引與召回，記憶能力才比較有機會進入日常工作流程。也因此，這個題目已不只是模型問題，而是晶片、系統架構與資料治理被一起拉進來。

輝達在 GTC 2026 強調 Vision AI 與 Cosmos Reason 2，高通則出現在裝置端落地的脈絡裡。這並不等於 Memories.ai 已被兩大平台正式定義為核心夥伴，但至少說明，它切入的問題，正好對應目前算力平台與裝置端 AI 的共同方向。

05｜輝達與高通同時入場，說明這題已從概念展示走向部署現實

到目前為止，關於 Memories.ai 的大量資訊，主要仍來自公司官方與 TechCrunch 的報導。外界確實可以確認它已有 LVMM、LVMM 2.0 與高通合作，也能確認它把自己定位成視覺記憶層；但第三方可驗證的大規模商業案例，公開資訊仍然有限。

此外，很多企業今天真正需要的，也許不是高階的視覺記憶層，而是先把現有的錄影、標記、異常偵測與搜尋流程做穩。若現場連鏡頭佈建、權限管理、事件標籤都還沒有標準化，現在就談視覺記憶層，可能仍然太早。

這也是為什麼現在不應把 Memories.ai 當成已被完全驗證的贏家，而是把它視為一個有代表性的訊號：市場正在把問題從「影像辨識」重新界定為「影像記憶」。這個命名轉變本身，就值得持續觀察。

06｜現在還不能把它當成定局，但市場已開始重命名問題

現在更合理的判斷，不是急著把它視為成熟答案，而是先把它當成產業開始重新定義問題的一個訊號。

第一種是製造、物流與巡檢。當一位維修工程師戴著 AI 眼鏡走過設備區，真正高價值的功能，不是當場辨識出零件名稱，而是下午追查異常時，系統能不能回憶起早上哪一台機器曾出現異音、當時周邊是否有其他作業干擾、操作順序又是否異常。

第二種是醫療照護、客服或門市輔助。當主管需要回頭檢視某段互動過程時，能否用權限可控的方式迅速調出畫面，會直接影響訓練、稽核與責任歸屬。這些應用還需要大量驗證，但它們已經明確對應到視覺記憶層的價值主張。

因此，企業現在就可以先用一個簡單的三個問題框架來看這類方案。

第一個問題：你的需求是即時辨識，還是事後召回？若只是當下警示，未必需要視覺記憶層；若要跨班次、跨事件追查，記憶與索引能力就會開始變得重要。

第二個問題：資料必須上雲，還是能留在裝置端或邊緣端？這會直接影響資安、頻寬與總持有成本。

第三個問題：誰能調閱、保存多久、如何刪除？若這三件事沒有事先定義，再好的展示也不適合直接進入正式流程。Memories.ai 官方把「資料留在本地端」當成主張之一，正好反映這類採購問題早已不是附屬條件，而是核心條件。

對 CIO、資安、法遵與採購部門來說，至少還要再補看四個檢核點。其一，召回準確度要如何驗證，不能只看成功展示。其二，裝置端執行時的延遲、耗電與硬體限制。其三，是否支援權限分層、稽核記錄與刪除機制。其四，是否會被單一晶片、單一模型或單一供應商格式綁住。這些問題目前不是 Memories.ai 一家公司的特例，而是所有「會記得比你更多」的 AI 系統都必須面對的治理現實。

07｜接下來真正要看的，不是故事大小，而是商用與治理指標是否成形

接下來真正決定這個類別能否成立的，不是概念有多新，而是商用條件與治理條件能不能被逐一驗證。

第一，Memories.ai 的產品定位與市場位置，目前主要仍由官方資料與外媒的報導支撐，第三方可獨立驗證的企業案例仍然有限。第二，外媒提到它瞄準穿戴式裝置與機器人場景，但還不能因此推論它已經拿下具名大型客戶。第三，視覺記憶層是否真的會變成新的必要中介層，接下來還要看兩件事：大平台會選擇自建、投資還是收購，以及裝置端部署能否在成本與耗能上進入可商用範圍。這些條件目前都還在形成中。

接下來更值得持續觀察的，是三個指標。第一，是否出現具名終端裝置、企業客戶或量產合作。第二，裝置端執行是否真的能在延遲、耗電與成本之間，達到可商用的水準。第三，企業與監管文件裡，是否開始明確出現「視覺記憶保存」「召回權限」「刪除機制」這類新條款。若這三件事一起出現，就表示這不再只是單一新創的敘事，而是整個類別開始從概念走向現實。

總結｜視覺記憶層不是新名詞包裝，而是 Physical AI 能否進入正式流程的分水嶺

AI 產業正在替 Physical AI 補上一塊過去較少被單獨命名的能力缺口，也就是長時間視覺記憶。過去大家更關心模型能不能看懂、能不能推理、能不能即時回答；現在像 Memories.ai 這樣的公司，正在提醒市場，若系統不能把過去看過的畫面轉成可召回、可追問、可重組的經驗，那很多穿戴式裝置與機器人應用都會停留在展示層，而不是工作流程層。

未來企業未必只會比較哪個裝置鏡頭更好、哪個多模態模型更強，而會開始比較誰更能處理連續影像、誰更能在裝置端保留資料、誰能在低延遲前提下完成召回、誰又能把記憶能力放進可治理的架構。

接下來值得我們關注的是：未來 12 到 18 個月內，是否會有具名終端產品把視覺記憶從展示變成標準功能。另外，當你的 AI 系統開始記得比員工更多的現場片段時，你有沒有先定義誰能看、誰能刪、誰要負責。

點此訂閱電子報

FAQ:

Q1｜Memories.ai 到底是在做新的 AI 眼鏡，還是在做底層技術？

Memories.ai 目前較準確的定位，是在做視覺記憶層相關的底層技術，而不是以消費型 AI 眼鏡品牌自居。依據 TechCrunch 與官方資料，它的核心是 Large Visual Memory Model（LVMM）與 LVMM 2.0，目標是替穿戴式裝置、機器人與其他 Physical AI 系統提供可搜尋、可召回的視覺記憶能力。

依據在於，TechCrunch 將其描述為 building the visual memory layer for wearables and robotics；官方則把產品重點放在 on-device visual memory 與 Qualcomm 處理器合作。限制在於，這不代表它未來不會推出更完整的終端產品，但就目前公開資訊來看，它更像是在卡位技術堆疊中的中介層。對企業的意義是，評估這家公司時，不該把它當成一般硬體品牌，而應該看它是否能補上你現有 AI 眼鏡、攝影機或機器人的「記憶能力缺口」。

Q2｜視覺記憶層和一般影片搜尋、監視器回放，有什麼不同？

視覺記憶層的重點，不只是把影像存起來，而是讓系統之後能依照新的問題，把過去片段重新找出來並回答。一般監視器回放通常是依時間軸回看；一般影片搜尋也常依既有標籤、事件或關鍵字查找。Memories.ai 所描繪的 visual memory layer，則更接近讓 AI 把連續影像先做結構化處理，再在後續用新的查詢條件去召回與重組內容。

這個差異的依據，來自官方對 LVMM 2.0「search and analyze visual moments」的描述，以及 TechCrunch 對 indexing 與 retrieval 的說法。限制在於，目前公開資料仍以產品敘事為主，外界還看不到大量第三方企業案例，因此不能把它直接理解成所有場景都已經成熟可用。實務上，台灣企業若在工廠巡檢、門市稽核或照護流程裡考慮這類能力，真正該問的是：你要的是單純錄影查找，還是能因為新的問題重新推理過去發生過什麼。

Q3｜為什麼視覺記憶層現在才開始被重視，而不是前幾年就已經成熟？

因為裝置端 AI、Vision AI 與 Physical AI 近一年才開始比較明確地走向可部署階段，市場才有空間把「記憶」獨立成一個能力層。輝達在 2026 年 1 月與 GTC 2026 的官方資料裡，持續把 Cosmos Reason 2、Vision AI、影片摘要與 Physical AI 放在核心敘事中；Meta 則在 2024 年已替 Ray-Ban Meta 眼鏡加入記住停車位置等功能。這些訊號都說明，市場對視覺系統的期待正從「看見」走向「持續互動與回想」。

限制在於，這仍然是形成中的方向，不代表商業模式與技術架構都已經定型。現在比較合理的理解方式是，終端裝置算力提升、裝置端部署需求升高，加上視覺資料量快速增加，讓這個題目終於有機會被單獨提出。對決策者的意義是，現在不必急著把所有場景都導入，但應開始建立判斷標準，尤其是資料留在本地端的可行性、延遲與耗電是否可接受，以及權限與刪除機制是否明確。

Q4｜Memories.ai 已經證明自己是視覺記憶賽道的領先者了嗎？

目前還不能這樣下定論。可以確認的是，TechCrunch 已報導其產品方向，官方也已發表 LVMM 2.0 並宣佈與 Qualcomm 合作；但公開可見的第三方企業落地案例仍有限，因此較安全的說法是，它是一家很早就把「視覺記憶層」講清楚、並開始往部署推進的新創，而不是已被市場完全證明的勝出者。

依據在於，目前可直接核實的多數資訊，仍來自媒體報導與公司官方。限制很清楚：尚未看到大量具名企業用戶、標準化採購條款或完整量產案例。對投資人與企業來說，這代表現在比較適合把它視為一個前瞻訊號，而不是直接當成市場標準答案。行動上，比起急著判斷誰贏，更值得看的是未來一年內有沒有具名終端產品、企業流程或治理框架開始圍繞這類能力成形。

Q5｜如果台灣企業要評估這類視覺記憶方案，第一步該看什麼？

第一步不是看 demo 多炫，而是先分清楚你的場景到底需要即時辨識，還是需要事後召回。若是工廠巡檢、醫療照護、物流稽核、門市訓練這類流程，常常會有「事後追問當時發生什麼」的需求，那麼視覺記憶能力就可能比單純辨識更重要。若只是要當場警示或辨識異常，則未必需要把系統升級到記憶層。這是最關鍵的分界。

接著要看三件事：資料是上雲還是留在裝置端、誰能調閱與保存多久、召回準確度怎麼驗證。Memories.ai 官方把 keep data local 與 on-device 執行當成主張之一，正好說明這些問題不是附帶條件，而是核心採購條件。限制在於，不同部門會有不同答案，CIO 看的會是系統整合與頻寬，法遵看的會是刪除與權限，採購看的則是供應商鎖定。實務上最好的做法，不是直接買最大方案，而是先挑一個高價值、低爭議的流程做試點，再用稽核條件驗證能否擴大。

Q6｜視覺記憶層最大的風險是什麼？是隱私，還是技術還不成熟？

兩者都是，而且彼此會互相放大。技術面最大的風險，是系統可能召回不準、誤把不同片段串在一起，或在裝置端執行時碰到延遲、耗電與成本限制。治理面最大的風險，則是企業在系統開始「記得比員工更多」之前，沒有先定義誰能看、保存多久、如何刪除。官方強調 on-device 與 keep data local，確實有助降低部分風險，但這不等於治理問題自然消失。

限制在於，目前這些風險還很難用統一數字量化，因為公開案例不夠多。對企業最務實的做法，不是等到市場完全成熟才開始想，而是在 PoC 階段就把稽核、權限、刪除機制一起放進設計。對台灣的工廠、醫療單位、連鎖門市或客服中心來說，真正該防的不是「有沒有這種技術」，而是技術先進場了，治理還沒準備好。

參考資料：

Memories AI is building the visual memory layer for wearables and robotics
Memories.ai Introduces Large Visual Memory Model 2.0 to Bring AI Visual Memory On-Device, in Collaboration with Qualcomm
NVIDIA GTC 2026: Live Updates on What's Next in AI
NVIDIA Unveils New Open Models, Data and Tools to Advance AI Across Every Industry
Ray-Ban | Meta Glasses Are Getting New AI Features and More Partner Integrations

閱讀推薦： 

新聞速讀｜匯豐（HSBC）：智慧眼鏡 2040 市場上看 2,000 億美元
新聞速讀｜穿戴裝置轉向 AI 化，智慧眼鏡與隨身助理改寫使用者日常
新聞速讀｜Meta 升級 AI 眼鏡「對話聚焦」，讓吵雜環境的交談更清楚
新聞速讀｜阿里巴巴推Quark智慧眼鏡，用Qwen AI搶攻下一代入口
精選解讀｜全球快遞新標配：Amazon宣佈AI智慧眼鏡，推動物流現場升級
AI 新聞速報｜Meta 智慧眼鏡升級！Ray-Ban Display 搭配 Neural Band：改寫人機介面的全新嘗試
精選解讀｜近視鏡片進駐智慧眼鏡的未來想像
AI 新聞速報｜哈佛輟學生引爆隱私炸彈！「全時監聽」AI眼鏡即將問世，你的所有對話都將被永久記錄
深度報導｜AI 眼鏡選購指南：Meta、Vue、XREAL 路線對決，哪條路才適合你？
Meta 聯手 Oakley，推出運動導向智慧眼鏡：從社交走入戶外的新戰略轉型
IXI 獲亞馬遜領投 3650 萬美元　開發自動對焦處方眼鏡挑戰傳統光學市場
Ray-Ban 與 Meta 聯手打造的智慧眼鏡，能拍照、播音樂、還能回你問題！
蘋果研發三款AI晶片，瞄準智慧眼鏡與伺服器運算主導權
Meta與Ray-Ban再推AI智慧眼鏡，即時影像辨識掀穿戴式新革命

文/ 睿客

閱讀更多的「全球 AI 新聞摘要解讀」

精選解讀｜Memories.ai 與視覺記憶層：當 AI 穿戴裝置與機器人開始記得看過什麼，競爭焦點就不再只是看懂畫面

視覺記憶，不是看懂，而是能不能被追問。

01｜真正的競爭不是看見畫面，而是事後能不能把脈絡找回來

這代表它能處理的不是單一模型輸出，而是一整個能力鏈條：畫面如何被編碼、如何建立索引、如何在之後被重新查找，以及查找到之後如何回答新的問題。也因此，視覺記憶層比較像是一種中介層，而不只是單一功能。

02｜視覺記憶層要補的，不是錄影功能，而是影像世界的檢索中介層

03｜Physical AI 的瓶頸開始換位：從即時理解走向延後召回

04｜穿戴裝置與機器人會先需要它，因為它們面對的是尚未整理的現場

視覺記憶會先在穿戴式裝置與機器人身上變得重要，因為它們面對的不是文件，而是不斷流動、無法事先整理的現場。

外媒提到 Memories.ai 已使用輝達工具；Memories.ai 官方則宣佈與高通合作，目標是在 2026 年起讓 LVMM 2.0 原生跑在高通處理器上，主打讓使用者與企業能在裝置端安全、快速地搜尋與分析視覺內容。

輝達在 GTC 2026 強調 Vision AI 與 Cosmos Reason 2，高通則出現在裝置端落地的脈絡裡。這並不等於 Memories.ai 已被兩大平台正式定義為核心夥伴，但至少說明，它切入的問題，正好對應目前算力平台與裝置端 AI 的共同方向。

05｜輝達與高通同時入場，說明這題已從概念展示走向部署現實

此外，很多企業今天真正需要的，也許不是高階的視覺記憶層，而是先把現有的錄影、標記、異常偵測與搜尋流程做穩。若現場連鏡頭佈建、權限管理、事件標籤都還沒有標準化，現在就談視覺記憶層，可能仍然太早。

這也是為什麼現在不應把 Memories.ai 當成已被完全驗證的贏家，而是把它視為一個有代表性的訊號：市場正在把問題從「影像辨識」重新界定為「影像記憶」。這個命名轉變本身，就值得持續觀察。

06｜現在還不能把它當成定局，但市場已開始重命名問題

現在更合理的判斷，不是急著把它視為成熟答案，而是先把它當成產業開始重新定義問題的一個訊號。

因此，企業現在就可以先用一個簡單的三個問題框架來看這類方案。

第一個問題：你的需求是即時辨識，還是事後召回？若只是當下警示，未必需要視覺記憶層；若要跨班次、跨事件追查，記憶與索引能力就會開始變得重要。

第二個問題：資料必須上雲，還是能留在裝置端或邊緣端？這會直接影響資安、頻寬與總持有成本。

07｜接下來真正要看的，不是故事大小，而是商用與治理指標是否成形

接下來真正決定這個類別能否成立的，不是概念有多新，而是商用條件與治理條件能不能被逐一驗證。

總結｜視覺記憶層不是新名詞包裝，而是 Physical AI 能否進入正式流程的分水嶺

未來企業未必只會比較哪個裝置鏡頭更好、哪個多模態模型更強，而會開始比較誰更能處理連續影像、誰更能在裝置端保留資料、誰能在低延遲前提下完成召回、誰又能把記憶能力放進可治理的架構。

接下來值得我們關注的是：未來 12 到 18 個月內，是否會有具名終端產品把視覺記憶從展示變成標準功能。另外，當你的 AI 系統開始記得比員工更多的現場片段時，你有沒有先定義誰能看、誰能刪、誰要負責。

FAQ:

Q1｜Memories.ai 到底是在做新的 AI 眼鏡，還是在做底層技術？

Q2｜視覺記憶層和一般影片搜尋、監視器回放，有什麼不同？

Q3｜為什麼視覺記憶層現在才開始被重視，而不是前幾年就已經成熟？

Q4｜Memories.ai 已經證明自己是視覺記憶賽道的領先者了嗎？

Q5｜如果台灣企業要評估這類視覺記憶方案，第一步該看什麼？

Q6｜視覺記憶層最大的風險是什麼？是隱私，還是技術還不成熟？

參考資料：

閱讀推薦：

版權聲明與授權須知

AI 協作聲明：

JUDGEMENT

We help you make better judgement about AI.

不是更快知道 AI 新聞，而是更早做出你能承擔後果的判斷。

InfoAI 存在的目的是把 AI 的變化，轉換成可被理解、可被評估、可被行動的判斷框架。

InfoAI 存在的目的
是把 AI 的變化，轉換成可被理解、可被評估、可被行動的判斷框架。