全球AI新聞精選解讀
全球AI新聞精選解讀
email聯絡
  • 首頁
  • 關於InfoAI
  • 訂閱電子報
  • 最新文章
  • …  
    • 首頁
    • 關於InfoAI
    • 訂閱電子報
    • 最新文章
全球AI新聞精選解讀
全球AI新聞精選解讀
  • 首頁
  • 關於InfoAI
  • 訂閱電子報
  • 最新文章
  • …  
    • 首頁
    • 關於InfoAI
    • 訂閱電子報
    • 最新文章
email聯絡
全球AI新聞精選解讀

精選解讀|GPT-Realtime-2 不只是語音模型:OpenAI 正把語音 AI 推向 Agent 型服務入口

OpenAI 推出 GPT-Realtime-2、GPT-Realtime-Translate 與 GPT-Realtime-Whisper,真正值得台灣企業注意的,不是 AI 聲音更像真人,而是語音開始成為客服、跨境服務、會議紀錄與企業流程自動化的新入口。

· AI工具,AI 模型,精選解讀,AI Agent,AI 落地應用
InfoAI | OpenAI 推出 GPT-Realtime-2、GPT-Realtime-Translate 與 GPT-Realtime-Whisper,代表語音 AI 正從聊天回答走向 Agent 型任務處理。

當 AI 不只接電話,而是開始幫客戶把事情辦完

GPT-Realtime-2 是 OpenAI 在 2026 年 5 月 7 日推出的新一代即時語音模型。這次更新最重要的地方,不是語音更自然,而是語音 AI 開始從「聊天回答」走向「任務處理」。對企業來說,這代表客服、跨境溝通、會議紀錄、教育訓練與內部營運流程,都可能出現新的 AI 服務入口。OpenAI 官方同步發佈 GPT-Realtime-2、GPT-Realtime-Translate 與 GPT-Realtime-Whisper,分別對應即時語音互動與任務處理、即時語音翻譯,以及即時語音轉文字。

客服現場最麻煩的,往往不是客戶問了一個問題,而是客戶一開口就把三件事混在一起:訂單還沒到、想改收件地址,又要確認會員折扣能不能補用。

傳統語音客服很難處理這種情境。它可以辨識「物流」「改地址」「會員」幾個關鍵字,卻很難理解客戶真正想完成的是一整段流程。於是使用者被迫在選單裡反覆按鍵,最後還是轉給真人客服,重新說一次。

OpenAI 這次推出的三個模型,真正值得注意的地方,不只是 AI 聲音更自然,而是語音 AI 正從「聽一句、回一句」的互動工具,往「聽懂任務、接上工具、推進流程」的 Agent 型服務入口移動。

換句話說,語音不再只是人把指令丟給機器的方式。它開始變成企業服務流程的一部分。

關鍵解讀:

OpenAI 在 2026 年 5 月 7 日宣佈三個即時語音模型:GPT-Realtime-2、GPT-Realtime-Translate 與 GPT-Realtime-Whisper,官方定位分別是即時語音互動與任務處理、即時語音翻譯,以及低延遲語音轉文字。

這次產品更新的核心,不是語音更像真人,而是語音從「輸入層」進入「任務執行層」,讓 AI 能在對話中理解意圖、呼叫工具、處理中斷,並維持任務狀態。

台灣企業現在該問的,不是「要不要導入 AI 語音客服」,而是哪些高頻、低風險、資料來源明確、轉接規則清楚的流程,可以先讓語音 Agent 協助處理。

01|GPT-Realtime-2 是什麼?它是 OpenAI 的新一代即時語音 Agent 核心

GPT-Realtime-2 是 OpenAI 這組新語音模型中的核心模型。依 OpenAI 說法,它是 OpenAI 第一個具備 GPT-5-class reasoning 的語音模型,設計目標是處理較困難的即時語音請求,並在對話進行中呼叫工具、處理修正或中斷。

這裡要特別注意,「GPT-5-class reasoning」目前主要是 OpenAI 的產品描述,不能直接解讀成第三方已驗證的客觀能力。比較穩健的解讀是:OpenAI 正試圖把更高階的推理能力放進即時語音互動裡,讓語音 AI 不只會說話,也能在對話中維持任務狀態。

這次 OpenAI 不是只推出一個更會講話的語音模型,而是把即時語音應用拆成三個方向。

GPT-Realtime-2 是語音 Agent 核心,負責即時語音互動、任務理解、工具呼叫與流程推進。

GPT-Realtime-Translate 是即時語音翻譯模型。OpenAI 官方說,它支援 70 多種輸入語言與 13 種輸出語言,適用於客服、跨境銷售、教育、活動、媒體與創作者平台。

GPT-Realtime-Whisper 是低延遲語音轉文字模型。它的用途不是讓 AI 自己回答問題,而是把正在發生的語音更快轉成可處理、可檢索、可進入後續流程的文字。

這三個模型放在一起看,OpenAI 正在把語音 AI 拆成企業真正需要的三種能力:

第一種是會辦事的語音 Agent。使用者開口說需求,AI 不只是回話,而是理解任務、呼叫工具、查詢資料,並在必要時轉接真人。

第二種是跨語即時溝通。AI 在語音流動中進行翻譯,讓客服、銷售、教育與跨國會議不必等事後翻譯,才能進入下一步。

第三種是即時紀錄與資料化。語音轉文字不再只是會後逐字稿,而是讓通話、會議、課堂與現場服務更快變成可整理、可追蹤的企業資料。

這個分工比模型名稱更重要。它代表語音 AI 正從「好不好聽」走向「能不能進流程」。

02|語音 Agent 是什麼?真正變化是從回答問題走向「我正在幫你處理」

語音 Agent 是一種能透過語音理解使用者需求,並在必要時呼叫工具、查詢資料、推進任務的 AI 系統。它和傳統語音助理最大的差別,不在於聲音是否自然,而在於能不能把對話轉成具體流程。OpenAI 的語音 Agent 文件也把這類應用描述為低延遲語音互動,並區分直接處理即時音訊的 speech-to-speech 架構,以及由語音轉文字、文字推理、文字轉語音串接而成的 chained voice pipeline。

語音 Agent 最難的地方,不是講一句漂亮的回答,而是在任務還沒完成前,讓使用者知道事情仍在處理中。

真人客服在查資料時會說:「我幫您確認一下訂單狀態。」這句話本身不是答案,卻很重要。它讓客戶知道流程沒有中斷,也讓等待變得可以被理解。

OpenAI 在 GPT-Realtime-2 裡提到的前置語句,處理的正是這種語音服務中的空白時間。當 AI 需要查詢、呼叫工具或等待系統回傳結果時,它不能只是沉默,也不能胡亂回答。它必須像一個懂流程的服務人員,清楚告訴使用者目前正在做什麼。

放到企業現場,這個差異很大。

在旅遊服務中,客戶可能不是只問「我的班機幾點到」。他可能說:「我的班機延誤了,幫我確認旅館能不能延後入住,順便幫我看明天上午有沒有更早的交通方式。」

這不是單一問答,而是一段跨航班、住宿、交通與時間安排的任務。

在房仲場景中,OpenAI 官方舉 Zillow 為早期案例,說 Zillow 正在打造一個能聽懂房屋條件、避開繁忙街道並安排週六看屋的語音助理。這個案例能說明語音 Agent 的應用方向,但目前較穩健的解讀是「早期測試與產品開發」,不能直接寫成已大規模落地或已證明商業成效。

對台灣企業來說,這會改變客服與營運主管對 AI 的提問方式。

過去的問題是:「AI 能不能回答客戶常見問題?」

接下來的問題會變成:「AI 能不能在語音中完成一段可驗證、可轉接、可追蹤的服務流程?」

前者看的是回答能力,後者看的是流程能力。這也是語音 AI 從聊天工具走向 Agent 型服務入口的關鍵差別。

03|GPT-Realtime-Translate 與 GPT-Realtime-Whisper,會先改變跨境服務與知識工作

GPT-Realtime-Translate 很容易被理解成「更快的翻譯工具」。但企業真正要看的,不是它能不能把一句話快速翻成另一種語言,而是它能不能降低跨語服務流程中的摩擦。

OpenAI 開發者文件把 GPT-Realtime-Translate 定位為 live speech-to-speech translation model,適合直播、串流、通話與視訊對話。官方也明確區分:如果要打造能回應、推理與使用工具的語音 Agent,應使用 GPT-Realtime-2;如果目標是讓不同語言的人類彼此溝通,則使用 GPT-Realtime-Translate。

這個分工很重要。

翻譯模型的任務不是代替使用者回答問題,而是盡量保留說話者原本的意思,使雙方能繼續溝通。這和語音 Agent 的責任不同。語音 Agent 可能要判斷下一步該做什麼;語音翻譯則要避免替說話者多做判斷。

對台灣企業來說,即時翻譯會先影響幾個場景。

第一是跨境客服。台灣品牌面對日本、東南亞、歐美客戶時,語言能力常常是服務擴張的瓶頸。即時翻譯模型不一定能處理高風險客訴,但可以先進入訂單查詢、退換貨流程說明、活動資訊、基本產品諮詢等標準化場景。

第二是線上教育與活動。如果一場產品發表、線上課程或企業內訓能即時提供多語語音與文字稿,內容就不必等到事後翻譯,才能觸及海外讀者與客戶。

第三是跨國團隊協作。台灣企業的工程、製造、業務與客服團隊,常與海外團隊一起工作。即時翻譯未必能處理所有專業判斷,但能降低一般會議、客戶訪談、教育訓練與售後支援中的語言門檻。

GPT-Realtime-Whisper 的價值則更偏向知識工作流程。

它不是只把語音變成文字,更是讓語音資料在發生當下時,就能進入企業流程。客服通話可以更快形成工單摘要;會議可以邊進行邊產生待辦事項;課堂可以即時產生逐字稿;現場維修、醫療行政或門市服務,也可能把口頭描述轉成可檢索紀錄。

但這裡也要保留邊界。即時轉錄不是事實查核,也不是責任判斷。它只是讓聲音更快變成可處理資料。企業如果要把轉錄結果納入正式紀錄,仍需設計人工覆核、修正、保存與權限控管。

點此訂閱電子報

04|企業導入 GPT-Realtime-2,難點不在聲音,而在系統與責任

很多企業看到 GPT-Realtime-2,第一個反應可能是:「我們是不是可以做 AI 電話客服?」

這個問題問得太快。

比較成熟的問法是:「我們有哪些語音流程,已經有明確資料來源、明確權限、明確轉接規則與明確責任邊界?」

語音 Agent 不會因為模型變強,就自動變成可用的企業服務。它必須接到後台系統,否則最多只是更會聊天。它要能查訂單、查會員、查庫存、查行程、查工單,也要知道自己能不能改資料、能不能承諾補償、能不能進行下一步操作。

從 OpenAI 的開發文件來看,語音應用不是單一路徑。企業可以依場景選擇 Voice agents、Live translation 或 Realtime transcription 等不同架構。其中即時翻譯文件也說明,Realtime translation 使用專門的翻譯端點,而不是標準語音 Agent 端點;語音 Agent 文件則提醒,企業要先選擇適合的語音架構,再設計後續 Agent 工作流程。

這意味著企業要先想清楚應用目的,而不是看到語音模型就把所有情境都丟進同一個流程。

旅遊業可以讓語音 Agent 幫客戶查航班、查旅館訂單、提供替代方案,但是否能直接改票、退款或承諾補償,就要看公司授權規則。

金融業可以讓語音 Agent 做基本說明、身分資料收集與流程提醒,但涉及投資建議、風險揭露、貸款核准或客戶權益異動,就不能只看模型能力。

醫療院所可以用語音 AI 協助掛號、提醒檢查流程、整理行政資訊,但不應讓 AI 直接做診斷判斷或取代醫師說明。

OpenAI 的 Voice agents 文件也把 speech-to-speech 與 chained voice pipeline 分開。前者適合自然、低延遲對話;後者則把語音轉文字、文字推理與文字轉語音拆開,較適合需要中間文字控制、政策檢查、核准流程或可保存逐字稿的場景。

這段對企業很關鍵。

不是每個場景都要追求最自然的即時語音。對客服申訴、退費、合約說明、金融服務或醫療行政來說,可控、可查、可覆核,可能比自然更重要。

05|越像真人的語音 AI,越需要被清楚限制

這次發佈不能只用樂觀角度看。

反方最有力的論點是:語音 Agent 越自然,使用者越容易相信它,也越容易忘記它仍可能出錯。

文字 AI 出錯時,使用者至少還能回頭看字句。語音 AI 出錯時,問題更微妙。它會用即時、流暢、很像真人的聲音說出答案。當它開始查訂單、翻譯承諾、解釋規則、安排服務或呼叫工具,錯誤就不只是「回答不準」,而可能變成流程錯誤、商務承諾錯誤,甚至是合規風險。

另一個問題是語音資料比文字資料更敏感。

聲音不只是內容。它可能包含身分線索、情緒、口音、年齡感、健康狀態、背景環境,甚至旁邊其他人的聲音。當企業把語音接進 AI 流程,就不能只問「這段話能不能被模型處理」,還要問:

客戶是否知道自己正在與 AI 互動?

通話是否會被轉錄?

逐字稿是否會進入 CRM 或客服系統?

外包客服或第三方平台是否會接觸語音資料?

翻譯錯誤造成承諾爭議時,由誰負責?

AI 做出錯誤操作時,如何回溯、修正與通知客戶?

OpenAI 官方也提到,即時語音 API 具備多層防護與安全分類器,並提醒開發者在必要情境下讓終端使用者知道自己正在與 AI 互動。這些設計說明一件事:即時語音不是只要接上 API 就好,它進入的是企業信任界面。

企業導入語音 Agent 時,不能只用「降低客服人力」來算 ROI。更完整的成本應包含告知義務、個資處理、錄音保存、模型錯誤、轉接機制、人工覆核與責任歸屬。

語音 Agent 越像真人,治理邊界就越要清楚。

06|台灣企業真正該做的,不是先買模型,而是先找流程

這則新聞對台灣企業有用的問題不是模型名稱,而是流程選擇。

第一類適合先測試的是高頻、低風險、資料明確的語音服務。

例如客服中心的訂單查詢、物流進度、活動說明、門市資訊、會員權益、預約提醒、課程報名、售後進度查詢。這些任務通常有明確資料來源,也有清楚的轉接規則。語音 Agent 可以先協助分流、查詢、整理與轉接,而不是一開始就取代真人客服。

第二類是跨語言、跨地區、但責任風險相對可控的溝通場景。

例如跨境電商客服、海外展會接待、外籍員工教育訓練、線上課程、產品教學影片與多語內部會議。GPT-Realtime-Translate 這類模型的價值,不在於取代專業口譯,而是在大量、標準化、低風險溝通中降低語言門檻。

相反地,不適合第一波導入的場景包括重大客訴、醫療診斷、金融投資建議、法律諮詢、人資面談、貸款審核、保險理賠爭議。這些流程可以使用語音 AI 做資料收集、摘要與前置整理,但不宜讓 AI 直接給出最後判斷或正式承諾。

GPT-Realtime-2 的出現,會讓很多企業重新思考入口設計。

過去企業的 App、網站、LINE 官方帳號與客服電話是分開的;未來使用者可能只想開口說:「幫我處理這件事。」企業真正要面對的,不只是語音技術,而是自己的後台流程是否清楚到可以被 AI 安全呼叫。

這才是語音 Agent 的真正門檻。

台灣企業導入語音 Agent 前,先問四個問題:

1. 這個流程是否高頻?

一年只發生幾次的需求,不一定值得優先做語音 Agent。企業應先找每天都發生、真人客服反覆處理、規則明確的流程。

2. 這個流程是否資料明確?

AI 要能查訂單、查會員、查庫存、查行程或查工單。沒有結構化資料,語音 Agent 只會變成更會說話的前台,無法真正處理任務。

3. 這個流程是否可以安全失敗?

好的起點不是「AI 一次把事情做完」,而是「AI 做錯或無法判斷時,能清楚轉接真人,並保留前面的對話與資料」。

4. 這個流程是否有責任邊界?

AI 能不能承諾退款?能不能改訂單?能不能解釋合約條款?能不能給醫療或金融建議?這些都要先由企業定義,不能交給模型臨場判斷。

兩個台灣企業可先討論的應用場景

場景一:客服中心導入 AI 語音服務

客服主管可以先挑三種任務做小規模測試:

訂單與物流查詢

會員權益與活動說明

預約、改期與通知確認

初期目標不應設定為「取代客服」,而是觀察三個指標:

轉接真人前,AI 是否能完整收集必要資料?

客戶是否願意在語音中完成基本查詢?

通話後是否能產生可用的工單摘要?

這樣做可以避免一開始就把 AI 放到高風險客訴、退費爭議或補償談判場景。

場景二:跨境電商或教育平台做多語服務

營運主管可以先把即時翻譯放在低風險內容:

商品說明直播

線上課程即時口譯

海外客服初步問答

活動導覽與接待說明

但涉及合約、付款、退款、保固、醫療、金融或法律責任時,仍應保留人工確認。

這裡的核心不是「AI 翻譯得多快」,而是企業能不能區分:哪些話只是資訊傳遞,哪些話已經變成正式承諾。

總結|GPT-Realtime-2 代表語音 AI 從對話進入流程

GPT-Realtime-2 這次帶出的真正變化,是語音 AI 從「更自然的聲音」走向「更能接任務的服務入口」。OpenAI 這組模型把語音 Agent、即時翻譯與即時轉錄分開,也讓企業更容易依照不同流程挑選工具,而不是把所有語音需求都塞進同一個聊天機器人。

但越像真人的語音 AI,越需要清楚治理。企業不能只看模型能不能說、能不能翻、能不能查,還要看它能不能被限制、被記錄、被轉接、被覆核。語音 Agent 一旦接上訂單、會員、CRM、行事曆與支付流程,它就不只是客服工具,而是企業對外承諾的一部分。

接下來值得持續觀察的指標,不是 GPT-Realtime-2 的聲音有多自然,而是企業客戶在真實場景中的任務完成率、轉接率、錯誤率與客戶信任感。台灣企業也該回到內部問自己一個問題:我們有哪些高頻、低風險、資料來源明確、轉接規則清楚的服務流程,已經成熟到可以讓 AI 用語音協助執行,而不是只讓 AI 幫忙聊天?

文/ 睿客

點此訂閱電子報
點此加入Line 群

FAQ:

Q1|GPT-Realtime-2 是什麼?

GPT-Realtime-2 是 OpenAI 推出的新一代即時語音模型,官方定位是讓 AI 在語音對話中理解較複雜的請求、呼叫工具並推進任務。它的意義不只是讓 AI 說話更自然,而是讓語音 AI 開始具備 Agent 型服務能力。不過,目前「GPT-5-class reasoning」主要是 OpenAI 的產品說法,企業導入時仍應依實際測試結果判斷。

Q2|GPT-Realtime-2 和 GPT-Realtime-Translate 有什麼不同?

GPT-Realtime-2 的重點是語音 Agent,也就是在對話中理解任務、回應使用者、呼叫工具並處理流程;GPT-Realtime-Translate 的重點是即時語音翻譯,協助不同語言的人類彼此溝通。簡單說,前者偏向「AI 幫你辦事」,後者偏向「AI 幫人與人溝通」。企業選擇時,不應把兩者混成同一種應用。

Q3|GPT-Realtime-Whisper 適合用在哪裡?

GPT-Realtime-Whisper 適合需要低延遲語音轉文字的場景,例如即時字幕、會議紀錄、客服通話摘要、課堂逐字稿與現場服務紀錄。它的價值是把語音更快變成可整理、可搜尋、可進入企業流程的文字資料。不過,轉錄結果不等於事實查核,也不等於正式判斷,企業仍需設計覆核與修正流程。

Q4|GPT-Realtime-2 會取代客服人員嗎?

比較穩健的判斷是,GPT-Realtime-2 會先接手部分高頻、低風險、規則明確的客服流程,而不是全面取代客服人員。訂單查詢、物流進度、活動說明、預約提醒等任務,可能較適合早期導入;重大客訴、退款爭議、醫療與金融建議等高風險場景,仍需要真人判斷與承擔責任。

Q5|台灣企業應該如何評估是否導入語音 Agent?

台灣企業可以先問四個問題:這個流程是否高頻?資料來源是否明確?失敗時是否能安全轉接真人?責任邊界是否清楚?如果答案不清楚,就不應急著把語音 Agent 放到前線服務。語音 Agent 的成功關鍵不只是模型能力,而是企業流程是否已經整理到能被 AI 安全呼叫。

Q6|即時語音翻譯會取代口譯人員嗎?

即時語音翻譯會先影響標準化、低風險、大量重複的跨語溝通場景,例如客服初步問答、活動導覽、商品說明、內部教育訓練與線上課程。專業口譯涉及文化脈絡、商務立場、法律責任與現場判斷,不會因為即時翻譯模型出現就被完全取代。比較合理的趨勢是,人類口譯會更集中在高風險、高價值、高情境判斷的場景。

Q7|企業導入即時語音 AI 最大的風險是什麼?

最大風險不是聲音不自然,而是語音 AI 在使用者信任它時做出錯誤承諾或錯誤操作。語音資料也比文字資料更敏感,可能包含身分、情緒、口音、背景環境與其他人的聲音。企業導入前,必須處理告知、錄音、轉錄、資料保存、第三方存取、人工覆核與責任歸屬問題。

參考資料:

  • Advancing voice intelligence with new models in the API

  • OpenAI unveils three audio models for real-time voice tasks
  • OpenAI launches new voice intelligence features in its API
  • Build Live Translation Apps with gpt-realtime-translate
  • Realtime and audio | OpenAI API
  • Voice agents | OpenAI API
  • OpenAI has new voice models that reason, translate, and transcribe as you speak
  • OpenAI's GPT-Realtime-2: A Voice Model with GPT-5-Class Reasoning

閱讀推薦:

  • 精選解讀|Meta 為何打造 CEO AI Agent:高階管理的資訊入口正在被 AI 改寫

  • 精選解讀|AI Agent 為什麼很多專案停在 PoC,真正瓶頸不在模型而在系統工程

  • 精選解讀|Cloudflare 為何警告機器人流量可能提早超過人類:AI Agent 正在重寫網站流量、內容授權與網路入口

  • 精選解讀|Anthropic 推出 Claude Code Channels,AI Agent 競爭正從寫程式走向控制層

  • 精選解讀|輝達 NemoClaw 與 OpenShell,正把 AI Agent 競爭推向安全執行層

  • 精選解讀|金融業 AI 導入跨過試驗期後,真正的競爭開始轉向治理、流程與基礎設施

  • 精選解讀|代理型 AI 進入零售:亞太市場為何可能成為全球第一個「AI 代購」戰場

  • 精選解讀|AI 高階助理正在變成「可被授權的代理人」:2026 年的競爭不在更會聊,而在誰能接管工作入口與責任鏈

閱讀更多的「 全球 AI 新聞摘要解讀」
推薦閱讀|AI 素養專欄

AI 時代的思考力革命|AI 素養,不是學技術,而是拿回主導權的能力升級

與 AI 一起思考,成為能定義方向的人

版權聲明與授權須知

本內容由 InfoAI 擁有著作權。如有引用、轉載或任何商業用途的需求,請來信聯絡: contentpower688@gmail.com。

如果你覺得這篇解讀對你有幫助,歡迎訂閱 InfoAI 電子報,我們將持續為你精選 全球 AI 新聞與趨勢洞察,幫助你看懂新聞背後的真正意義。也別忘了加入透過[按鈕]加入 Line 社群 ,隨時掌握值得關注的 AI 發展與專業觀點。

AI 協作聲明:

本篇文章由 InfoAI 團隊策劃,並透過人工智慧工具協助資料整理與內容撰寫,最終內容由編輯進行人工審閱與優化。

Section image

JUDGEMENT

We help you make better judgement about AI.

不是更快知道 AI 新聞,而是更早做出你能承擔後果的判斷。

InfoAI 存在的目的
是把 AI 的變化,轉換成可被理解、可被評估、可被行動的判斷框架。

上一篇
精選解讀|OpenAI AI Agent 手機傳聞升溫:真正挑戰 iPhone 的不是硬體,而是 App 時代的操作邏輯
下一篇
 返回網站
Cookie的使用
我們使用cookie來改善瀏覽體驗、保證安全性和資料收集。一旦點擊接受,就表示你接受這些用於廣告和分析的cookie。你可以隨時更改你的cookie設定。 了解更多
全部接受
設定
全部拒絕
Cookie 設定
必要的Cookies
這些cookies支援安全性、網路管理和可訪問性等核心功能。這些cookies無法關閉。
分析性Cookies
這些cookies幫助我們更了解訪客與我們網站的互動情況,並幫助我們發現錯誤。
偏好的Cookies
這些cookies允許網站記住你的選擇,以提升功能性與個人化。
儲存