8 月 29 日消息,OpenAI 已將其“Realtime API”正式投入生產環境,將其移出測試階段(Beta)。
據記者瞭解,這款 API 主要面向企業與開發者群體,旨在助力他們開發適用於實際場景的語音助手,覆蓋客戶支持、教育、個人效率提升等領域。其核心組件“gpt-realtime”模型採用端到端 Speech-to-Speech 架構,可直接生成並處理語音,省去了常規的文本轉換步驟。據 OpenAI 介紹,相比前代版本,該模型回應速度更快、語音更自然,對複雜指令的處理能力也更強。
OpenAI 表示,目前 gpt-realtime 模型能夠捕捉笑聲等非語言信號,支持對話過程中中途切換語言,還可調整語音語氣 —— 例如實現“帶法國口音的友好語調”或“語速較快的專業語調”。此外,該模型新增了“Cedar”和“Marin”兩種語音,並對現有的 8 種語音效果進行了優化。
在性能基準測試中,gpt-realtime 模型表現顯著提升:在 Big Bench Audio 基準測試中準確率從 65.6% 升至 82.8%,在 MultiChallenge 基準測試中從 20.6% 升至 30.5%,在 ComplexFuncBench 基準測試中則從 49.7% 提升至 66.5%。
此次 API 升級優化了工具集成流程。OpenAI 稱,該模型能更精准地選擇適用工具、在恰當時機觸發工具,並正確配置工具參數,大幅提升了函數調用的可靠性。開發者可通過會話初始協議(SIP)與遠程媒體控制協議(MCP)伺服器,連接外部工具與服務。同時,可複用的提示詞功能支持保存不同使用場景下的配置與工具設置,進一步提升開發效率。
該 API 現已支持圖像輸入功能。用戶在對話過程中可發送截圖或照片,模型能參考圖像內容進行交互 —— 例如讀取圖像中的文字,或回答與圖像內容相關的問題。開發者可自主控制模型能夠獲取的圖像範圍。
此外,API 新增了兩項實用功能:開發者可設置 token 使用上限,並對多輪對話內容進行精簡處理。這兩項功能有助於在較長會話中更好地控制成本。價格方面,gpt-realtime 模型的使用成本降低 20%,當前定價為:音頻輸入 token 每百萬個 32 美元(注:現匯率約合 229 元人民幣),音頻輸出 token 每百萬個 64 美元(現匯率約合 457.9 元人民幣),緩存輸入 token 每百萬個 0.40 美元(現匯率約合 2.9 元人民幣)。
OpenAI 表示,該 API 具備檢測問題內容的能力,若對話違反平臺政策,可自動終止會話。不過,從語言模型的安全發展歷程來看,這不應是唯一的安全保障手段,開發者仍需自行添加專屬安全要求。
針對歐盟用戶,該 API 提供了數據本地化存儲選項,並為企業用戶制定了特殊隱私規則,以符合歐盟地區的數據保護法規。
來源:中國鳳凰網科技