5月8日消息,美國時間周四,OpenAI面向開發者正式發布三款全新音頻大模型。此舉旨在大幅提升語音智能體的交互自然度,并賦予其在實時對話中直接執行任務的能力。
隨著新版API的開放,OpenAI正在跨越傳統的“語音轉錄”與“文本聊天”階段,向構建具備實時監聽、翻譯及執行能力的智能體延伸。
本次亮相的三款核心模型分別為GPT-Realtime-2、GPT-Realtime-Translate以及GPT-Realtime-Whisper。目前,上述模型均已在OpenAI的開發者測試平臺上線。
具體來看,三款模型在應用場景上各有所長:
旗艦模型GPT-Realtime-2專攻復雜任務處理。它不僅能精準調用外部工具,還能從容應對用戶在對話中的隨時打斷,并在超長語音交互中保持高度的語境(Context)連貫性。
GPT-Realtime-Translate主攻跨語言溝通。該模型支持將70多種源語言實時轉化為13種目標語言,直指智能客服、在線教育等全球化應用場景。
GPT-Realtime-Whisper聚焦實時語音識別(STT)。在用戶發言的同時,該模型可同步生成字幕和會議紀要,甚至自動觸發后續的工作流更新。
目前,包括在線房地產平臺Zillow(ZG.O)、在線旅行社Priceline以及歐洲電信運營商德國電信(DTEGn.DE)在內的多家企業客戶,正對上述模型進行早期測試。
定價方面,GPT-Realtime-2的音頻輸入成本為每百萬Token 32美元起;GPT-Realtime-Translate與GPT-Realtime-Whisper的計費標準則分別為每分鐘0.034美元和0.017美元。(易句)
(本文由AI翻譯,網易編輯負責校對)
