Google推出 DolphinGemma 模型　AI首次跨足「動物語言」解析領域

Google推出 DolphinGemma 模型　AI首次跨足「動物語言」解析領域

· 精選解讀

InfoAI全球AI新聞精選與解讀｜
Google AI 助力破解海豚語言，DolphinGemma 模型開創海洋溝通研究新紀元

Google DeepMind 日前公布一項引發科學與 AI 界高度關注的新計畫：開發名為 DolphinGemma 的人工智慧模型，專門用來解析瓶鼻海豚的溝通聲音。這不僅是生成式 AI 首度應用於非人類語言領域，更可能為動物行為學與海洋生態研究帶來深遠影響。

DolphinGemma 是由 Google DeepMind 聯合夏威夷大學（University of Hawaii）與「海豚溝通計畫（Dolphin Communication Project）」共同開發，利用海量野生與半圈養環境下錄製的海豚聲音資料訓練模型，目的是讓 AI 能「聽懂」甚至「推測」海豚之間的交流內容。

DolphinGemma 是什麼？語言模型技術與海洋科學的融合

DolphinGemma 的核心架構，靈感來自自然語言處理（NLP）中的大型語言模型（LLM），但研究團隊將其應用於生物聲學資料上。模型學習分析海豚的點擊聲（clicks）、哨聲（whistles）與脈衝音（burst pulses），這些聲音組成了海豚彼此溝通的重要元素。

不同於傳統的聲紋比對或頻率分布分析，DolphinGemma 能夠處理時間序列中的模式，辨識聲音片段之間的結構、重複與變化，進而推測「語意」潛力，例如是否為呼喚特定個體、傳遞社交信號，或警示危險。

不只是聲音識別，更是理解動物社交的起點

研究人員指出，此計畫的終極目標不僅是分類海豚聲音，而是嘗試建立「聲音與行為」之間的對應關係。藉由同步記錄聲音與行為影片資料，團隊希望 AI 能逐漸辨識出「這種聲音出現在這個情境中」的規律，例如：

某段哨聲是否出現在餵食行為發生前後？
特定點擊音是否在保護幼崽時頻繁出現？
是否存在固定組合的聲音序列，對應某種社交動作？

如果能達成這樣的映射，未來就可能發展出「人類-海豚翻譯層」，讓我們不再只能「聽見」動物，而是「理解」牠們。

資料來源與模型訓練：生物學與AI界跨界合作的典範

DolphinGemma 的開發仰賴數十年來的海豚研究累積。研究資料主要來自兩個來源：

野外觀測資料：來自夏威夷海域與墨西哥灣，紀錄自由生活的瓶鼻海豚自然發聲行為。
控制環境資料：來自研究機構的半圈養設施，能標記聲音產生的個體、時間與行為場景。

透過這些資料，模型能進行無監督學習與標記強化訓練，建立「跨語系的語音解碼能力」。

為何選擇海豚？瓶鼻海豚是最佳實驗對象

瓶鼻海豚（Tursiops truncatus）長期被認為是地球上最接近人類溝通能力的非人類物種之一。牠們具備：

高度社交性與群體生活習性
明確個體辨識的哨聲「簽名音」
合作狩獵與母子互動中的聲音傳遞行為

此外，海豚的大腦與語音系統複雜程度極高，具備進化上與人類相似的「溝通動機」。因此成為語言模型應用的理想起點。

趨勢觀察：從人類語言模型到萬物理解模型

DolphinGemma 的出現，是 AI 發展歷程中一個關鍵轉折。它展現 AI 不只能理解「人話」，還能開始理解動物、自然界，甚至其他形式的訊號系統。

這代表未來可能出現以下幾項技術方向：

跨物種語言模型（Inter-species LLM）：應用至其他高智慧動物，如大象、黑猩猩、鳥類、鯨魚等；
生態監測 AI 助手：即時辨識環境中動物的叫聲，協助保育與監測；
動物互動裝置：建立能與特定動物族群雙向互動的裝置或平台；
教育平台擴展：開發虛擬動物對話系統，提升 STEM 與生物學學習趣味性。

Google DeepMind 團隊強調，這項研究仍處於早期階段，目前尚無法「翻譯」海豚語言，但已建立可持續擴展的資料基礎與模型框架。

參考資料：https://www.artificialintelligence-news.com/news/dolphingemma-google-ai-model-understands-dolphin-chatter/

點擊訂閱InfoAI電子報

閱讀更多最新的「全球 AI 新聞摘要解讀」

Google發布Gemma 3：全球最強單GPU AI模型，支援140種語言
分析簡報｜AI世界模型崛起，打造沉浸式虛擬商機新藍海
OpenAI 宣布 GPT-4 將下線，全面升級為 GPT-4o 模型：AI 競爭進入新階段
OpenAI 發表 GPT-4.1 系列模型，強化 AI 程式能力與開發效率
Google整合Gemini與Veo模型，邁向全能AI助理平台

InfoAI｜分享AI知識，賦能工作。

提案成功｜助力提案成功，創業成功。

有個好創意想說給投資人聽？來做一份投資人聽了會有興趣的募資簡報如何？

募資｜創業｜提案

Google推出 DolphinGemma 模型 AI首次跨足「動物語言」解析領域

InfoAI全球AI新聞精選與解讀｜Google AI 助力破解海豚語言，DolphinGemma 模型開創海洋溝通研究新紀元

DolphinGemma 是什麼？語言模型技術與海洋科學的融合

不同於傳統的聲紋比對或頻率分布分析，DolphinGemma 能夠處理時間序列中的模式，辨識聲音片段之間的結構、重複與變化，進而推測「語意」潛力，例如是否為呼喚特定個體、傳遞社交信號，或警示危險。

不只是聲音識別，更是理解動物社交的起點

研究人員指出，此計畫的終極目標不僅是分類海豚聲音，而是嘗試建立「聲音與行為」之間的對應關係。藉由同步記錄聲音與行為影片資料，團隊希望 AI 能逐漸辨識出「這種聲音出現在這個情境中」的規律，例如：

某段哨聲是否出現在餵食行為發生前後？

特定點擊音是否在保護幼崽時頻繁出現？

是否存在固定組合的聲音序列，對應某種社交動作？

如果能達成這樣的映射，未來就可能發展出「人類-海豚翻譯層」，讓我們不再只能「聽見」動物，而是「理解」牠們。

資料來源與模型訓練：生物學與AI界跨界合作的典範

DolphinGemma 的開發仰賴數十年來的海豚研究累積。研究資料主要來自兩個來源：

野外觀測資料：來自夏威夷海域與墨西哥灣，紀錄自由生活的瓶鼻海豚自然發聲行為。

控制環境資料：來自研究機構的半圈養設施，能標記聲音產生的個體、時間與行為場景。

透過這些資料，模型能進行無監督學習與標記強化訓練，建立「跨語系的語音解碼能力」。

為何選擇海豚？瓶鼻海豚是最佳實驗對象

瓶鼻海豚（Tursiops truncatus）長期被認為是地球上最接近人類溝通能力的非人類物種之一。牠們具備：

高度社交性與群體生活習性

明確個體辨識的哨聲「簽名音」

合作狩獵與母子互動中的聲音傳遞行為

此外，海豚的大腦與語音系統複雜程度極高，具備進化上與人類相似的「溝通動機」。因此成為語言模型應用的理想起點。

趨勢觀察：從人類語言模型到萬物理解模型

DolphinGemma 的出現，是 AI 發展歷程中一個關鍵轉折。它展現 AI 不只能理解「人話」，還能開始理解動物、自然界，甚至其他形式的訊號系統。

這代表未來可能出現以下幾項技術方向：

跨物種語言模型（Inter-species LLM）：應用至其他高智慧動物，如大象、黑猩猩、鳥類、鯨魚等；

生態監測 AI 助手：即時辨識環境中動物的叫聲，協助保育與監測；

動物互動裝置：建立能與特定動物族群雙向互動的裝置或平台；

教育平台擴展：開發虛擬動物對話系統，提升 STEM 與生物學學習趣味性。

Google DeepMind 團隊強調，這項研究仍處於早期階段，目前尚無法「翻譯」海豚語言，但已建立可持續擴展的資料基礎與模型框架。

參考資料：https://www.artificialintelligence-news.com/news/dolphingemma-google-ai-model-understands-dolphin-chatter/

InfoAI｜分享AI知識，賦能工作。

Google推出 DolphinGemma 模型　AI首次跨足「動物語言」解析領域

InfoAI全球AI新聞精選與解讀｜
Google AI 助力破解海豚語言，DolphinGemma 模型開創海洋溝通研究新紀元