OpenAI 推出 GPT-realtime:語音 AI 進入零延遲互動新時代
OpenAI 推出 GPT-realtime:語音 AI 進入零延遲互動新時代
Realtime API 全面升級,語音生成更自然、反應更即時,AI 客服與多語應用迎來新拐點

作者=InfoAI 編輯部
WOW AI知識 |ChatGPT 讓語音 AI 將從「工具」轉變為真正的「會話夥伴」
2025 年 8 月底,OpenAI 正式宣佈推出 GPT-realtime 模型,並將其整合進 Realtime API。這項更新不只是一個語音模型升級,而是語音 AI 的重大轉捩點:它能讓人類與 AI 的對話更即時、更自然,甚至能模擬語氣、情感與多語切換。這代表語音 AI 將從「工具」轉變為真正的「會話夥伴」,對客服中心、教育、醫療與金融產業的應用潛力,無疑是一場結構性變革。
01|GPT-realtime 帶來什麼突破?
過去的語音 AI 大多需要經歷「語音轉文字 → AI 處理 → 文字轉語音」的多步驟流程,雖然可行,但往往存在延遲與語氣僵硬的問題。
GPT-realtime 最大的創新,就是單一模型即可處理語音輸入並產生語音輸出。這意味著使用者不再需要等待機械化的停頓,回應幾乎能與人類自然對話的速度同步。
除了速度,這次更新還在 表達力 上大幅提升。新模型能模仿語速、情感與語調,甚至能在對話中靈活切換語言。例如,一場客服通話可能同時出現英文與中文,而 GPT-realtime 能即時切換,讓使用者感覺就像在與一位雙語人類客服交流。
02|從數據看實力:評測表現大幅進化
OpenAI 公布的數據顯示,GPT-realtime 在多個權威基準測試中超越了前代模型:
Big Bench Audio:準確率 82.8%,相比舊版模型的 65.6% 大幅提升。
MultiChallenge Audio(測試指令遵循):表現提升至 30.5%,舊版僅有 20.6%。
ComplexFuncBench(工具呼叫與非同步操作):分數從 49.7% 提升到 66.5%,顯示 GPT-realtime 在整合外部功能時更加可靠。
這些結果代表 GPT-realtime 不只聽得懂、說得自然,更能「做得到」。它能在對話過程中精準觸發功能,舉例來說:客服人員要求系統查詢訂單、教育助理需要叫出教材,模型都能即時完成。
03|新的聲音選項與表達力
OpenAI 同時發表了兩個新語音風格「Cedar」與「Marin」,並改良了原本的 8 種聲音選項。這些語音不再僅僅是「念出文字」,而是更貼近真實人類說話的方式,能展現情緒起伏與細膩的語氣。
例如,客服情境中,AI 能以安撫的口吻回應焦躁的客戶;在教育場景裡,AI 則能用耐心、鼓勵的語氣解釋難懂的概念。這種「人味」的提升,正是 GPT-realtime 與過去語音 AI 最大的差別。
04|Realtime API 的三大新功能
GPT-realtime 並非單點升級,而是整合到 Realtime API 的全方位強化,包含三大亮點:
支援 Model Context Protocol(MCP)
企業可透過 MCP 連接自己的資料庫與工具,讓 AI 即時調用。例如銀行可直接串接帳戶系統,讓語音 AI 回答客戶查詢餘額。影像輸入支援
除了語音,Realtime API 現在能接收影像輸入。這讓應用情境更加廣泛,例如醫療助理可在病患拍攝的影像上給予語音建議。SIP 電話系統整合
Realtime API 能直接與電話系統連接,讓 AI 語音 Agent 主動撥打或接聽電話。這對客服中心來說,是降低人力成本並提升服務水準的重要武器。
05|成本優勢:比前代更便宜
除了效能,GPT-realtime 在成本上也做了調整。
輸入音訊:每百萬 Token 約 32 美元(舊版 40 美元)。
輸出音訊:每百萬 Token 約 64 美元(舊版 80 美元)。
對於需要大規模使用語音 AI 的企業來說,這項降價意味著更低的導入門檻與營運成本。
06|使用情境範例
客服中心:零延遲、情感化的語音互動
AI 客服可即時接聽來電,用溫和語氣安撫客戶情緒,並透過 MCP 整合內部系統查詢訂單或帳單。
範例:客戶抱怨網路斷線,AI 以同理心回覆:「我理解網路中斷可能影響您今天的工作,我已經幫您檢查線路,工程師最快會在 2 小時內抵達。」
醫療與遠距照護:專業又有溫度的 AI 助理
AI 能正確朗讀醫囑,並用親切口吻提醒病患服藥。
範例:GPT-realtime 助理提醒長者:「王先生,您今天的降壓藥需要 1 顆,請搭配水一起服用。」
教育與語言學習:沉浸式雙語對話
學生能即時用語音練習口說,AI 提供糾正與口音示範。
範例:學生問:「Can you check my pronunciation?」AI 即時糾正並示範英式發音。
金融服務:專業資訊的精準朗讀
AI 能以自然語氣解釋基金條款或風險提示。
範例:AI 回答客戶:「這支基金屬於高風險投資,雖然近一年報酬率達 12%,但仍可能隨市場波動而下跌。」
零售與電商:24 小時語音導購
消費者可用語音詢問產品,AI 即時推薦並描述特色。
範例:顧客說:「我想找一雙 2000 元以下的跑鞋。」AI 推薦並補充:「這雙鞋的避震設計特別適合長跑。」
智慧家庭與個人助理:更像人的語音陪伴
AI 能提醒代辦事項,或用不同語氣講故事。
範例:孩子睡前對 AI 說「講一個冒險故事」,AI 會即時調整語氣,模仿緊張或幽默語調,增添臨場感。
07|為什麼值得關注?
GPT-realtime 的價值不只在於「更快、更自然」,而在於它讓 AI 真正開始具備「即時會話夥伴」的角色。
過去 AI 仍被視為一個工具,如今則更接近「共事者」或「助理」。對企業來說,這意味著:
客服中心的營運模式可能徹底重構。
教育與培訓能借助 AI 打造更沉浸的互動體驗。
在醫療、金融等高敏感度產業,AI 若能表現出專業與情感兼具的口吻,將有助於建立使用者的信任感。
08|下一步值得觀察的方向
隱私與資安挑戰:語音 AI 若能接觸電話與資料庫,如何防止濫用與資安風險?
市場競爭加劇:Google、Anthropic、Meta 也在布局語音即時 AI,未來誰能建立完整生態圈,將成為關鍵。
台灣市場應用:台灣的客服中心、教育科技業者若能快速導入,有機會在服務差異化上搶得先機。
09|總體觀察
GPT-realtime 不只是一次技術迭代,而是語音 AI 應用的全新篇章。它讓「零延遲對話」成為可能,也讓 AI 的角色從「回覆者」躍升為「夥伴」。
如果說 GPT-4 帶來的是文字生成革命,那麼 GPT-realtime 代表的,就是語音互動的真正突破。它將使未來的 AI 更像人類,甚至能在許多場景中取代人工,卻又不失去情感溫度。
FAQ|關鍵問答
Q1:GPT-realtime 與過去的語音模型有什麼差別?
傳統語音 AI 的流程通常是「語音轉文字 → AI 處理 → 文字轉語音」,這會導致延遲,且容易失去語氣與情緒的細膩度。GPT-realtime 則採用單一模型,直接處理語音輸入並輸出語音,不需要中間的文字轉換。這讓回應更即時,延遲幾乎消失,同時能保留語速、情緒與語調的變化。換句話說,使用者在與 GPT-realtime 對話時,會感覺更像在與真人交談,而不是與機械化的語音系統互動。
Q2:Realtime API 的新功能對企業有什麼幫助?
Realtime API 的升級讓企業能將 AI 真正嵌入營運核心。透過 MCP(Model Context Protocol),AI 可以安全地呼叫企業內部資料庫或工具,例如查詢客戶資料、訂單紀錄,甚至直接呼叫後端系統進行操作。再加上 影像輸入 功能,使用者能同時結合語音與圖片互動,例如電商顧客上傳照片詢問商品搭配建議。最後,SIP 電話整合 讓 AI 能直接撥打或接聽電話,等於賦予客服系統全天候運作的能力。這些新功能大幅降低了企業導入 AI 的整合門檻,也讓語音 AI 應用更加多元。
Q3:語音表現是否能應用在多語情境?
是的。GPT-realtime 支援多語言,並且能在對話過程中靈活切換。例如,使用者可以先用中文提出問題,AI 即時以英文回答,甚至能根據需求切換口音(如美式或英式)。這對跨國客服與教育場景非常有價值,因為它不僅能打破語言隔閡,還能營造更自然的學習或交流氛圍。對學習者而言,這就像擁有一位能即時糾正與示範的語言老師;對企業而言,則能讓全球不同語系的客戶獲得一致的服務體驗。
Q4:成本是否降低了?
相較於舊版本,GPT-realtime 在定價上有明顯調整。輸入音訊的費用從每百萬 Token 40 美元降至 32 美元,輸出音訊則從 80 美元降至 64 美元,降幅約 20%。這對需要大規模部署語音 AI 的企業來說,代表更低的營運成本與更高的效益。例如,一家客服中心每天處理數萬通電話,過去可能因成本壓力而無法全面導入語音 AI,如今則能以更合理的費用享有更高品質的即時互動。
Q5:有哪些產業會最先受益?
最有可能率先採用 GPT-realtime 的產業包括:
客服中心:需求量龐大,AI 能協助降低人力成本並縮短等待時間。
教育產業:語言學習與個人化教學將因 AI 即時對話能力而更具沉浸感。
醫療與長照:AI 助理可提醒服藥、解釋醫囑,並以親切語氣減輕病患焦慮。
金融服務:在必須精準朗讀合約或風險提示的場合,AI 能確保專業與清晰度。
這些產業的共通點是「需要高度互動性」與「即時回覆」,因此 GPT-realtime 的優勢能快速轉化為實際價值。
Q6:台灣市場的機會在哪裡?
台灣在 BPO(商業流程外包) 與 客服中心 產業已有成熟基礎,許多外商與金融業的後勤客服皆設立於台灣。GPT-realtime 若能導入,將有助於提升服務效率,並進一步強化台灣在全球客服產業鏈中的地位。另一方面,台灣的 教育科技(EdTech) 與 跨境電商 也將是重要應用場景。AI 助理能協助線上課程提供多語對話練習,電商平台則能打造 24 小時的語音導購服務,增加用戶黏著度與轉換率。。
Q7:未來最大的挑戰是什麼?
最大的挑戰主要有三個層面:
隱私與資安:語音 AI 若能直接接觸用戶資料與企業系統,如何避免敏感資訊外洩將是首要考驗。
誤用與濫用:語音合成的擬真程度極高,未來可能被惡意用於詐騙或假訊息傳播,需要嚴格的驗證與管控機制。
市場競爭:Google、Anthropic、Meta 都在積極發展即時語音 AI,誰能率先建立穩固的生態系與應用場景,將決定市場領導地位。
對台灣來說,挑戰同樣存在,但若能結合在晶片、光學與語言處理上的技術優勢,仍有機會在特定垂直領域打造差異化應用。
參考資料:
OpenAI Blog|Introducing GPT-realtime
https://openai.com/index/introducing-gpt-realtime
OpenAI GPT-realtime Complete Guide: Revolutionary Breakthrough in Voice AI
https://dev.to/czmilo/openai-gpt-realtime-complete-guide-revolutionary-breakthrough-in-voice-ai-2025-20m4
OpenAI Just Announced GPT-realtime, Its Cheapest Voice AI Model Yet
https://www.inc.com/ben-sherry/openai-just-announced-gpt-realtime-its-cheapest-voice-ai-model-yet/91233168
OpenAI's GPT-realtime Promises New Era for Enterprise Voice AI
https://analyticsindiamag.com/ai-features/openais-gpt-realtime-promises-new-era-for-enterprise-voice-ai
版權聲明與授權須知
本內容由 InfoAI 擁有著作權。若您有引用、轉載或任何商業用途的需求,請先來信 contentpower688@gmail.com 申請授權。
AI 內容合作/供稿服務
AI 趨勢太快,內容產能跟不上?InfoAI 專注於將市場動態與報告,轉化為專業、好讀、可信賴的內容。 contentpower688@gmail.com —— 讓我們成為你的 AI 內容合作夥伴。
如果你覺得這篇解讀對你有幫助,歡迎訂閱 InfoAI 電子報,我們將持續為你精選 全球 AI 新聞與趨勢洞察,幫助你看懂新聞背後的真正意義。
也別忘了加入透過[QRCode]/[按鈕]加入 Line 社群,隨時掌握值得關注的 AI 發展與專業觀點。

AI 協作聲明:
本篇文章由 InfoAI 團隊策劃,並透過人工智慧工具協助資料整理與內容撰寫,最終內容由編輯進行人工審閱與優化。
InfoAI 是針 AI 產業新聞進行精選與解讀的媒體
我們每日追蹤全球技術與商業動態
透過收集、比對驗證與分析
將複雜訊息轉為能落地的決策建議
幫助讀者在最短時間看懂趨勢、做出更好的選擇
AI賦能 × 出版顧問
從選題到出版,我們結合AI技術、專業顧問與知識庫,打造一條龍智慧內容創作方案
用 AI 賦能內容輸出
量身打造內容企劃與寫作策略,結合 AI 工具與知識輔助系統,協助快速產出符合讀者需求的精準內容。
用 AI 賦能出版實踐