OpenAI推出gpt-realtime語音對話模型：支持情感感知、多語言無縫切換

ZH-CN

English

没有结果

查看所有结果

没有结果

查看所有结果

您當前的位置：科技 > 文章内容返回

OpenAI推出gpt-realtime語音對話模型：支持情感感知、多語言無縫切換

发布：2025-08-29

8 月 29 日消息，OpenAI 已將其“Realtime API”正式投入生產環境，將其移出測試階段（Beta）。

據記者瞭解，這款 API 主要面向企業與開發者群體，旨在助力他們開發適用於實際場景的語音助手，覆蓋客戶支持、教育、個人效率提升等領域。其核心組件“gpt-realtime”模型採用端到端 Speech-to-Speech 架構，可直接生成並處理語音，省去了常規的文本轉換步驟。據 OpenAI 介紹，相比前代版本，該模型回應速度更快、語音更自然，對複雜指令的處理能力也更強。

OpenAI 表示，目前 gpt-realtime 模型能夠捕捉笑聲等非語言信號，支持對話過程中中途切換語言，還可調整語音語氣 —— 例如實現“帶法國口音的友好語調”或“語速較快的專業語調”。此外，該模型新增了“Cedar”和“Marin”兩種語音，並對現有的 8 種語音效果進行了優化。

在性能基準測試中，gpt-realtime 模型表現顯著提升：在 Big Bench Audio 基準測試中準確率從 65.6% 升至 82.8%，在 MultiChallenge 基準測試中從 20.6% 升至 30.5%，在 ComplexFuncBench 基準測試中則從 49.7% 提升至 66.5%。

此次 API 升級優化了工具集成流程。OpenAI 稱，該模型能更精准地選擇適用工具、在恰當時機觸發工具，並正確配置工具參數，大幅提升了函數調用的可靠性。開發者可通過會話初始協議（SIP）與遠程媒體控制協議（MCP）伺服器，連接外部工具與服務。同時，可複用的提示詞功能支持保存不同使用場景下的配置與工具設置，進一步提升開發效率。

該 API 現已支持圖像輸入功能。用戶在對話過程中可發送截圖或照片，模型能參考圖像內容進行交互 —— 例如讀取圖像中的文字，或回答與圖像內容相關的問題。開發者可自主控制模型能夠獲取的圖像範圍。

此外，API 新增了兩項實用功能：開發者可設置 token 使用上限，並對多輪對話內容進行精簡處理。這兩項功能有助於在較長會話中更好地控制成本。價格方面，gpt-realtime 模型的使用成本降低 20%，當前定價為：音頻輸入 token 每百萬個 32 美元（注：現匯率約合 229 元人民幣），音頻輸出 token 每百萬個 64 美元（現匯率約合 457.9 元人民幣），緩存輸入 token 每百萬個 0.40 美元（現匯率約合 2.9 元人民幣）。

OpenAI 表示，該 API 具備檢測問題內容的能力，若對話違反平臺政策，可自動終止會話。不過，從語言模型的安全發展歷程來看，這不應是唯一的安全保障手段，開發者仍需自行添加專屬安全要求。

針對歐盟用戶，該 API 提供了數據本地化存儲選項，並為企業用戶制定了特殊隱私規則，以符合歐盟地區的數據保護法規。

來源：中國鳳凰網科技

上一篇：戴爾Q2營收達298億美元同比增長19%，創歷史新高

下一篇：2025Q2全球智能手錶出貨量：華為首超蘋果成第一，同比增長52%