全球AI新聞精選解讀
全球AI新聞精選解讀
email聯絡
  • 首頁
  • 關於InfoAI
  • 訂閱電子報
  • 加入 Line 群
  • 最新文章
  • 新聞速讀
  • 精選解讀
  • 深度報導
  • 落地應用
  • AI 知識
  • 提示詞
  • AI 工具
  • InfoAI Salon
  • …  
    • 首頁
    • 關於InfoAI
    • 訂閱電子報
    • 加入 Line 群
    • 最新文章
    • 新聞速讀
    • 精選解讀
    • 深度報導
    • 落地應用
    • AI 知識
    • 提示詞
    • AI 工具
    • InfoAI Salon
全球AI新聞精選解讀
全球AI新聞精選解讀
  • 首頁
  • 關於InfoAI
  • 訂閱電子報
  • 加入 Line 群
  • 最新文章
  • 新聞速讀
  • 精選解讀
  • 深度報導
  • 落地應用
  • AI 知識
  • 提示詞
  • AI 工具
  • InfoAI Salon
  • …  
    • 首頁
    • 關於InfoAI
    • 訂閱電子報
    • 加入 Line 群
    • 最新文章
    • 新聞速讀
    • 精選解讀
    • 深度報導
    • 落地應用
    • AI 知識
    • 提示詞
    • AI 工具
    • InfoAI Salon
email聯絡
全球AI新聞精選解讀

OpenAI發布新語音AI模型組合,讓開發者「秒加語音功能」進入App

· 精選解讀

InfoAI 全球AI新聞摘要與解讀

InfoAI全球AI新聞精選與解讀|
GPT-4o語音模型讓開發者秒加語音功能進App

OpenAI宣布推出三款全新語音AI模型:gpt-4o-transcribe、gpt-4o-mini-transcribe與gpt-4o-mini-tts。這一套工具組針對語音輸入與輸出設計,讓開發者能夠在幾秒內,將語音功能無縫整合到現有的文字應用程式中。OpenAI這次的推出,不僅展示語音技術的精進,也明顯針對過去Whisper語音模型的升級替代。

這些語音模型是基於去年(2024)5月發表的旗艦模型 GPT-4o 所進一步訓練開發。gpt-4o-transcribe與mini-transcribe聚焦在語音轉文字任務上,根據OpenAI表示,它們的詞錯誤率(WER)比先前大幅降低,即使在嘈雜的背景音、多重口音、語速快慢變化大的條件下仍表現出色,並支援超過100種語言的辨識。

另一款 gpt-4o-mini-tts 則主打語音合成,讓開發者可透過簡單提示控制語音輸出風格——包括口音、語速、語調、甚至是情緒。這代表,不同情境下的語音回應(例如:客服、導航、教學、導覽等)都能更加自然貼近真實人類語感。

開發者能透過 OpenAI API 將這些語音能力整合進自己設計的App或服務中,無需自行建置複雜的語音模型架構。這樣的彈性應用不僅能加快產品開發速度,更為以語音互動為核心的應用(如語音助理、即時翻譯、互動遊戲、線上教育等)開啟更大的創新空間。

為了讓更多用戶與開發者能親自體驗語音模型的潛力,OpenAI同時也釋出了展示網站 OpenAI.fm,用戶可在此試玩語音功能的初步版本。

雖然目前這些新語音模型僅提供API端使用,尚未整合至ChatGPT服務,但根據OpenAI過往產品策略,預計未來將逐步拓展至各大產品線中,並與視覺與文字能力深度融合。

解讀分析:

OpenAI此次推出的新語音模型組合,象徵語音技術從「邊緣功能」正式進入主舞台。語音辨識與合成的進步,使得自然語言AI跨入全新的互動維度,也意味著未來應用場景不再只是文字互動,而是朝向「聽說能力兼具」的AI夥伴。

這將對以下三個領域帶來深遠影響:

1. 語音產品創業潮再起:開發者能快速建構個性化語音應用,預期將促進語音AI創業潮,尤其在教育科技、智慧客服、語音導覽與無障礙應用等領域。

2. 語音與多模態AI整合將加速:當語音能力與影像辨識、自然語言推理等功能整合後,將創造出更加智慧、靈活的互動體驗。

3. 平台競爭白熱化:微軟、Google、Amazon等平台也在強化語音AI應用,OpenAI這步棋也將迫使其他巨頭加快相關技術部署與工具釋出。

但與此同時,語音資料的隱私與濫用風險也成為焦點。在模型越來越擬真與可控的狀況下,辨識真假聲音、保障用戶語音資料安全,將是下一步政策與技術的關鍵挑戰。

參考來源:https://venturebeat.com/ai/openais-new-voice-ai-models-gpt-4o-transcribe-let-you-add-speech-to-your-existing-text-apps-in-seconds

點擊 訂閱InfoAI電子報

延伸閱讀

閱讀更多最新的「 全球 AI 新聞摘要解讀」
  • 亞馬遜2025年投資千億美元強化AI與雲端運算

  • 40億到1.3兆:生成式AI市場的十年躍進之路

  • OpenAI 自研 AI 晶片計畫啟動,挑戰輝達市場主導地位

  • 2025年的AI投資回報,企業如何衡量AI的真正價值?

  • 亞馬遜推理型AI「Nova」6月登場,挑戰OpenAI與Anthropic

  • AI 熱潮 vs. 網路泡沫:歷史經驗帶來的啟示

  • 全球十大 AI 客戶體驗公司:人工智慧如何重塑企業與客戶的互動模式

  • GTC 2025 登場:NVIDIA 展示全新 AI 晶片與量子合作計畫,市場卻出現審慎聲音

InfoAI|分享AI知識,賦能工作。

Section image

上一篇
Amazon啟動Olympus計畫 挑戰輝達AI晶片霸主地位
下一篇
Google Gemini 2.0 Flash模型可去水印與生成名人圖像,掀起AI倫理與版權爭議
 返回網站
Cookie的使用
我們使用cookie來改善瀏覽體驗、保證安全性和資料收集。一旦點擊接受,就表示你接受這些用於廣告和分析的cookie。你可以隨時更改你的cookie設定。 了解更多
全部接受
設定
全部拒絕
Cookie 設定
必要的Cookies
這些cookies支援安全性、網路管理和可訪問性等核心功能。這些cookies無法關閉。
分析性Cookies
這些cookies幫助我們更了解訪客與我們網站的互動情況,並幫助我們發現錯誤。
偏好的Cookies
這些cookies允許網站記住你的選擇,以提升功能性與個人化。
儲存