精選解讀|Memories.ai 與視覺記憶層:當 AI 穿戴裝置與機器人開始記得看過什麼,競爭焦點就不再只是看懂畫面
精選解讀|Memories.ai 與視覺記憶層:當 AI 穿戴裝置與機器人開始記得看過什麼,競爭焦點就不再只是看懂畫面
企業級 AI Agent 的關鍵門檻,已從模型能力轉向隔離、權限、審計與可回復機制
視覺記憶,不是看懂,而是能不能被追問。
在工廠巡檢、物流倉儲、醫療照護或零售門市裡,許多工作流程真正困難的地方,往往不是系統有沒有看到眼前畫面,而是幾小時後、幾天後,當主管回頭追問某個異常事件時,系統能不能把當時那段畫面連同前後脈絡一起找回來。Memories.ai 正是把這個問題直接命名為「visual memory layer」,也就是替穿戴式裝置與機器人建立一層可召回、可推理的視覺記憶層。依照 TechCrunch 的描述,這家公司正在打造 large visual memory model,能對影片形式的記錄進行索引與檢索,目標場景是 Physical AI。
關鍵解讀:
・Memories.ai 想做的,不只是影片分析,而是把連續影像轉成可搜尋、可召回、可進一步推理的視覺記憶層。
・對 AI 眼鏡與機器人來說,下一個能力瓶頸很可能不是辨識單張畫面的準確率,而是跨時間回想與脈絡召回。這是根據穿戴式裝置與 Physical AI 的實際使用情境所做的產業推論。
・一旦視覺記憶層成形,企業採購與治理要問的問題,就會從「能不能看懂」升級成「記多久、誰能調閱、在哪裡運算、能不能刪除」。
在工廠巡檢、物流倉儲、醫療照護或零售門市裡,許多工作流程真正困難的地方,往往不是系統有沒有看到眼前畫面,而是幾小時後、幾天後,當主管回頭追問某個異常事件時,系統能不能把當時那段畫面連同前後脈絡一起找回來。Memories.ai 正是把這個問題直接命名為「visual memory layer」,也就是替穿戴式裝置與機器人建立一層可召回、可推理的視覺記憶層。依照 TechCrunch 的描述,這家公司正在打造 large visual memory model,能對影片形式的記錄進行索引與檢索,目標場景是 Physical AI。
關鍵解讀:
・Memories.ai 想做的,不只是影片分析,而是把連續影像轉成可搜尋、可召回、可進一步推理的視覺記憶層。
・對 AI 眼鏡與機器人來說,下一個能力瓶頸很可能不是辨識單張畫面的準確率,而是跨時間回想與脈絡召回。這是根據穿戴式裝置與 Physical AI 的實際使用情境所做的產業推論。
・一旦視覺記憶層成形,企業採購與治理要問的問題,就會從「能不能看懂」升級成「記多久、誰能調閱、在哪裡運算、能不能刪除」。
01|真正的競爭不是看見畫面,而是事後能不能把脈絡找回來
視覺記憶層不是把監視器影片存下來而已。它真正要做的,是建立一個能對影片記憶進行索引與檢索的大型視覺記憶模型。Memories.ai 將 LVMM 2.0 定位為讓 AI 系統首次具備裝置端視覺記憶的能力,並強調可在高通(Qualcomm)處理器上原生執行,讓使用者能直接在裝置端快速搜尋與分析影像時刻,同時把資料留在本地端。
這代表它能處理的不是單一模型輸出,而是一整個能力鏈條:畫面如何被編碼、如何建立索引、如何在之後被重新查找,以及查找到之後如何回答新的問題。也因此,視覺記憶層比較像是一種中介層,而不只是單一功能。
過去企業在導入生成式 AI 時,通常會把嵌入、檢索與向量資料庫視為必要堆疊;現在 Memories.ai 想證明的是,連續影像世界也可能出現一套對應的記憶堆疊。差別只在於,它服務的對象不再是 PDF、文件與知識庫,而是穿戴式眼鏡、攝影機與機器人一路看過的現場。
02|視覺記憶層要補的,不是錄影功能,而是影像世界的檢索中介層
這題值得重視,不是因為市場突然發明一個新名詞,而是因為 Physical AI 的限制確實正在浮現。輝達在 2026 年 1 月介紹 Cosmos Reason 2 時,把它定位為能幫助機器人與 AI agents 更準確地看見、理解並在實體世界互動的 reasoning VLM;到了 GTC 2026,輝達又把 Vision AI、NVIDIA Metropolis 與 Cosmos Reason 2 納入官方更新重點,並提到在影片摘要場景中可獲得更高效能。
但「看懂」與「記住」是兩個不同層次。即時辨識處理的是現在眼前有什麼,長時間記憶處理的則是未來某個時間點,系統能不能因應新的問題,把過去不同時刻的片段重新組織成答案。這件事在文字世界裡已經比較熟悉,因為聊天機器人會記住對話脈絡與使用者偏好;但在影像世界裡,資料密度更高、時序更長,而且許多關鍵資訊在當下並不會被標記成重要事件。換句話說,真正困難的地方不只是理解,而是延後召回。Memories.ai 把這件事當成產品核心,本身就說明產業已開始替瓶頸重新命名。
03|Physical AI 的瓶頸開始換位:從即時理解走向延後召回
聊天機器人主要處理的是文件、訊息與網頁,但視覺世界不是這樣。穿戴式裝置與機器人面對的,是持續流動、尚未整理過的現場。Meta 在 2024 年 9 月替 Ray-Ban Meta 眼鏡加入的新 AI 功能,其實已經透露出這條路線的需求雛形。官方公告明確提到,這些功能包括幫使用者記住停車位置、即時翻譯,以及更多互動式 AI 能力。市場對穿戴式 AI 的期待,已經不再只是「眼前看到了什麼」,而是「之後還能不能接續這段經驗」。
若從產業結構來看,這更像是一個「終端入口尚未完全成熟,但上游能力已開始卡位」的訊號。終端入口目前仍主要掌握在大型平台與裝置商手中,例如 Meta 的眼鏡生態,或未來其他穿戴式裝置與機器人平台。至於晶片、訓練與開發工具鏈,則高度集中在輝達與處理器合作夥伴手中。Memories.ai 這類公司想佔的位置,不是通用模型本身,也不是消費型入口,而是在裝置、模型與現場資料之間,補上一層可被召回的視覺記憶。這一層未必最後一定會由獨立新創掌握,但它正在被市場明確化。
04|穿戴裝置與機器人會先需要它,因為它們面對的是尚未整理的現場
視覺記憶會先在穿戴式裝置與機器人身上變得重要,因為它們面對的不是文件,而是不斷流動、無法事先整理的現場。
外媒提到 Memories.ai 已使用輝達工具;Memories.ai 官方則宣佈與高通合作,目標是在 2026 年起讓 LVMM 2.0 原生跑在高通處理器上,主打讓使用者與企業能在裝置端安全、快速地搜尋與分析視覺內容。
這裡透露出一個很實際的產業邏輯:如果視覺記憶一定得全數放上雲端處理,延遲、成本、頻寬與隱私問題就會一起浮現;但如果能在裝置端或邊緣端完成更多索引與召回,記憶能力才比較有機會進入日常工作流程。也因此,這個題目已不只是模型問題,而是晶片、系統架構與資料治理被一起拉進來。
輝達在 GTC 2026 強調 Vision AI 與 Cosmos Reason 2,高通則出現在裝置端落地的脈絡裡。這並不等於 Memories.ai 已被兩大平台正式定義為核心夥伴,但至少說明,它切入的問題,正好對應目前算力平台與裝置端 AI 的共同方向。
05|輝達與高通同時入場,說明這題已從概念展示走向部署現實
到目前為止,關於 Memories.ai 的大量資訊,主要仍來自公司官方與 TechCrunch 的報導。外界確實可以確認它已有 LVMM、LVMM 2.0 與高通合作,也能確認它把自己定位成視覺記憶層;但第三方可驗證的大規模商業案例,公開資訊仍然有限。
此外,很多企業今天真正需要的,也許不是高階的視覺記憶層,而是先把現有的錄影、標記、異常偵測與搜尋流程做穩。若現場連鏡頭佈建、權限管理、事件標籤都還沒有標準化,現在就談視覺記憶層,可能仍然太早。
這也是為什麼現在不應把 Memories.ai 當成已被完全驗證的贏家,而是把它視為一個有代表性的訊號:市場正在把問題從「影像辨識」重新界定為「影像記憶」。這個命名轉變本身,就值得持續觀察。
06|現在還不能把它當成定局,但市場已開始重命名問題
現在更合理的判斷,不是急著把它視為成熟答案,而是先把它當成產業開始重新定義問題的一個訊號。
第一種是製造、物流與巡檢。當一位維修工程師戴著 AI 眼鏡走過設備區,真正高價值的功能,不是當場辨識出零件名稱,而是下午追查異常時,系統能不能回憶起早上哪一台機器曾出現異音、當時周邊是否有其他作業干擾、操作順序又是否異常。
第二種是醫療照護、客服或門市輔助。當主管需要回頭檢視某段互動過程時,能否用權限可控的方式迅速調出畫面,會直接影響訓練、稽核與責任歸屬。這些應用還需要大量驗證,但它們已經明確對應到視覺記憶層的價值主張。
因此,企業現在就可以先用一個簡單的三個問題框架來看這類方案。
第一個問題:你的需求是即時辨識,還是事後召回?若只是當下警示,未必需要視覺記憶層;若要跨班次、跨事件追查,記憶與索引能力就會開始變得重要。
第二個問題:資料必須上雲,還是能留在裝置端或邊緣端?這會直接影響資安、頻寬與總持有成本。
第三個問題:誰能調閱、保存多久、如何刪除?若這三件事沒有事先定義,再好的展示也不適合直接進入正式流程。Memories.ai 官方把「資料留在本地端」當成主張之一,正好反映這類採購問題早已不是附屬條件,而是核心條件。
對 CIO、資安、法遵與採購部門來說,至少還要再補看四個檢核點。其一,召回準確度要如何驗證,不能只看成功展示。其二,裝置端執行時的延遲、耗電與硬體限制。其三,是否支援權限分層、稽核記錄與刪除機制。其四,是否會被單一晶片、單一模型或單一供應商格式綁住。這些問題目前不是 Memories.ai 一家公司的特例,而是所有「會記得比你更多」的 AI 系統都必須面對的治理現實。
07|接下來真正要看的,不是故事大小,而是商用與治理指標是否成形
接下來真正決定這個類別能否成立的,不是概念有多新,而是商用條件與治理條件能不能被逐一驗證。
第一,Memories.ai 的產品定位與市場位置,目前主要仍由官方資料與外媒的報導支撐,第三方可獨立驗證的企業案例仍然有限。第二,外媒提到它瞄準穿戴式裝置與機器人場景,但還不能因此推論它已經拿下具名大型客戶。第三,視覺記憶層是否真的會變成新的必要中介層,接下來還要看兩件事:大平台會選擇自建、投資還是收購,以及裝置端部署能否在成本與耗能上進入可商用範圍。這些條件目前都還在形成中。
接下來更值得持續觀察的,是三個指標。第一,是否出現具名終端裝置、企業客戶或量產合作。第二,裝置端執行是否真的能在延遲、耗電與成本之間,達到可商用的水準。第三,企業與監管文件裡,是否開始明確出現「視覺記憶保存」「召回權限」「刪除機制」這類新條款。若這三件事一起出現,就表示這不再只是單一新創的敘事,而是整個類別開始從概念走向現實。
總結|視覺記憶層不是新名詞包裝,而是 Physical AI 能否進入正式流程的分水嶺
AI 產業正在替 Physical AI 補上一塊過去較少被單獨命名的能力缺口,也就是長時間視覺記憶。過去大家更關心模型能不能看懂、能不能推理、能不能即時回答;現在像 Memories.ai 這樣的公司,正在提醒市場,若系統不能把過去看過的畫面轉成可召回、可追問、可重組的經驗,那很多穿戴式裝置與機器人應用都會停留在展示層,而不是工作流程層。
未來企業未必只會比較哪個裝置鏡頭更好、哪個多模態模型更強,而會開始比較誰更能處理連續影像、誰更能在裝置端保留資料、誰能在低延遲前提下完成召回、誰又能把記憶能力放進可治理的架構。
接下來值得我們關注的是:未來 12 到 18 個月內,是否會有具名終端產品把視覺記憶從展示變成標準功能。另外,當你的 AI 系統開始記得比員工更多的現場片段時,你有沒有先定義誰能看、誰能刪、誰要負責。
FAQ:
Q1|Memories.ai 到底是在做新的 AI 眼鏡,還是在做底層技術?
Memories.ai 目前較準確的定位,是在做視覺記憶層相關的底層技術,而不是以消費型 AI 眼鏡品牌自居。依據 TechCrunch 與官方資料,它的核心是 Large Visual Memory Model(LVMM)與 LVMM 2.0,目標是替穿戴式裝置、機器人與其他 Physical AI 系統提供可搜尋、可召回的視覺記憶能力。
依據在於,TechCrunch 將其描述為 building the visual memory layer for wearables and robotics;官方則把產品重點放在 on-device visual memory 與 Qualcomm 處理器合作。限制在於,這不代表它未來不會推出更完整的終端產品,但就目前公開資訊來看,它更像是在卡位技術堆疊中的中介層。對企業的意義是,評估這家公司時,不該把它當成一般硬體品牌,而應該看它是否能補上你現有 AI 眼鏡、攝影機或機器人的「記憶能力缺口」。
Q2|視覺記憶層和一般影片搜尋、監視器回放,有什麼不同?
視覺記憶層的重點,不只是把影像存起來,而是讓系統之後能依照新的問題,把過去片段重新找出來並回答。一般監視器回放通常是依時間軸回看;一般影片搜尋也常依既有標籤、事件或關鍵字查找。Memories.ai 所描繪的 visual memory layer,則更接近讓 AI 把連續影像先做結構化處理,再在後續用新的查詢條件去召回與重組內容。
這個差異的依據,來自官方對 LVMM 2.0「search and analyze visual moments」的描述,以及 TechCrunch 對 indexing 與 retrieval 的說法。限制在於,目前公開資料仍以產品敘事為主,外界還看不到大量第三方企業案例,因此不能把它直接理解成所有場景都已經成熟可用。實務上,台灣企業若在工廠巡檢、門市稽核或照護流程裡考慮這類能力,真正該問的是:你要的是單純錄影查找,還是能因為新的問題重新推理過去發生過什麼。
Q3|為什麼視覺記憶層現在才開始被重視,而不是前幾年就已經成熟?
因為裝置端 AI、Vision AI 與 Physical AI 近一年才開始比較明確地走向可部署階段,市場才有空間把「記憶」獨立成一個能力層。輝達在 2026 年 1 月與 GTC 2026 的官方資料裡,持續把 Cosmos Reason 2、Vision AI、影片摘要與 Physical AI 放在核心敘事中;Meta 則在 2024 年已替 Ray-Ban Meta 眼鏡加入記住停車位置等功能。這些訊號都說明,市場對視覺系統的期待正從「看見」走向「持續互動與回想」。
限制在於,這仍然是形成中的方向,不代表商業模式與技術架構都已經定型。現在比較合理的理解方式是,終端裝置算力提升、裝置端部署需求升高,加上視覺資料量快速增加,讓這個題目終於有機會被單獨提出。對決策者的意義是,現在不必急著把所有場景都導入,但應開始建立判斷標準,尤其是資料留在本地端的可行性、延遲與耗電是否可接受,以及權限與刪除機制是否明確。
Q4|Memories.ai 已經證明自己是視覺記憶賽道的領先者了嗎?
目前還不能這樣下定論。可以確認的是,TechCrunch 已報導其產品方向,官方也已發表 LVMM 2.0 並宣佈與 Qualcomm 合作;但公開可見的第三方企業落地案例仍有限,因此較安全的說法是,它是一家很早就把「視覺記憶層」講清楚、並開始往部署推進的新創,而不是已被市場完全證明的勝出者。
依據在於,目前可直接核實的多數資訊,仍來自媒體報導與公司官方。限制很清楚:尚未看到大量具名企業用戶、標準化採購條款或完整量產案例。對投資人與企業來說,這代表現在比較適合把它視為一個前瞻訊號,而不是直接當成市場標準答案。行動上,比起急著判斷誰贏,更值得看的是未來一年內有沒有具名終端產品、企業流程或治理框架開始圍繞這類能力成形。
Q5|如果台灣企業要評估這類視覺記憶方案,第一步該看什麼?
第一步不是看 demo 多炫,而是先分清楚你的場景到底需要即時辨識,還是需要事後召回。若是工廠巡檢、醫療照護、物流稽核、門市訓練這類流程,常常會有「事後追問當時發生什麼」的需求,那麼視覺記憶能力就可能比單純辨識更重要。若只是要當場警示或辨識異常,則未必需要把系統升級到記憶層。這是最關鍵的分界。
接著要看三件事:資料是上雲還是留在裝置端、誰能調閱與保存多久、召回準確度怎麼驗證。Memories.ai 官方把 keep data local 與 on-device 執行當成主張之一,正好說明這些問題不是附帶條件,而是核心採購條件。限制在於,不同部門會有不同答案,CIO 看的會是系統整合與頻寬,法遵看的會是刪除與權限,採購看的則是供應商鎖定。實務上最好的做法,不是直接買最大方案,而是先挑一個高價值、低爭議的流程做試點,再用稽核條件驗證能否擴大。
Q6|視覺記憶層最大的風險是什麼?是隱私,還是技術還不成熟?
兩者都是,而且彼此會互相放大。技術面最大的風險,是系統可能召回不準、誤把不同片段串在一起,或在裝置端執行時碰到延遲、耗電與成本限制。治理面最大的風險,則是企業在系統開始「記得比員工更多」之前,沒有先定義誰能看、保存多久、如何刪除。官方強調 on-device 與 keep data local,確實有助降低部分風險,但這不等於治理問題自然消失。
限制在於,目前這些風險還很難用統一數字量化,因為公開案例不夠多。對企業最務實的做法,不是等到市場完全成熟才開始想,而是在 PoC 階段就把稽核、權限、刪除機制一起放進設計。對台灣的工廠、醫療單位、連鎖門市或客服中心來說,真正該防的不是「有沒有這種技術」,而是技術先進場了,治理還沒準備好。
參考資料:
Memories AI is building the visual memory layer for wearables and robotics
Memories.ai Introduces Large Visual Memory Model 2.0 to Bring AI Visual Memory On-Device, in Collaboration with Qualcomm
NVIDIA GTC 2026: Live Updates on What's Next in AI
NVIDIA Unveils New Open Models, Data and Tools to Advance AI Across Every Industry
Ray-Ban | Meta Glasses Are Getting New AI Features and More Partner Integrations
閱讀推薦:
新聞速讀|匯豐(HSBC):智慧眼鏡 2040 市場上看 2,000 億美元
新聞速讀|穿戴裝置轉向 AI 化,智慧眼鏡與隨身助理改寫使用者日常
新聞速讀|Meta 升級 AI 眼鏡「對話聚焦」,讓吵雜環境的交談更清楚
新聞速讀|阿里巴巴推Quark智慧眼鏡,用Qwen AI搶攻下一代入口
精選解讀|全球快遞新標配:Amazon宣佈AI智慧眼鏡,推動物流現場升級
AI 新聞速報|Meta 智慧眼鏡升級!Ray-Ban Display 搭配 Neural Band:改寫人機介面的全新嘗試
精選解讀|近視鏡片進駐智慧眼鏡的未來想像
AI 新聞速報|哈佛輟學生引爆隱私炸彈!「全時監聽」AI眼鏡即將問世,你的所有對話都將被永久記錄
深度報導|AI 眼鏡選購指南:Meta、Vue、XREAL 路線對決,哪條路才適合你?
Meta 聯手 Oakley,推出運動導向智慧眼鏡:從社交走入戶外的新戰略轉型
IXI 獲亞馬遜領投 3650 萬美元 開發自動對焦處方眼鏡挑戰傳統光學市場
Ray-Ban 與 Meta 聯手打造的智慧眼鏡,能拍照、播音樂、還能回你問題!
蘋果研發三款AI晶片,瞄準智慧眼鏡與伺服器運算主導權
Meta與Ray-Ban再推AI智慧眼鏡,即時影像辨識掀穿戴式新革命
文/ 睿客
版權聲明與授權須知
本內容由 InfoAI 擁有著作權。如有引用、轉載或任何商業用途的需求,請來信聯絡: contentpower688@gmail.com。
如果你覺得這篇解讀對你有幫助,歡迎訂閱 InfoAI 電子報,我們將持續為你精選 全球 AI 新聞與趨勢洞察,幫助你看懂新聞背後的真正意義。也別忘了加入透過[按鈕]加入 Line 社群 ,隨時掌握值得關注的 AI 發展與專業觀點。
AI 協作聲明:
本篇文章由 InfoAI 團隊策劃,並透過人工智慧工具協助資料整理與內容撰寫,最終內容由編輯進行人工審閱與優化。
JUDGEMENT
We help you make better judgement about AI.
不是更快知道 AI 新聞,而是更早做出你能承擔後果的判斷。
InfoAI 存在的目的
是把 AI 的變化,轉換成可被理解、可被評估、可被行動的判斷框架。


