應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

亞馬遜推出全新 AI 語音模型 Nova Sonic,叫板 OpenAI 和谷歌

2025-04-09 08:43 IT之家

導讀:亞馬遜發(fā)布了名為 Nova Sonic 的新一代生成式 AI 模型,該模型能夠原生處理語音并生成自然流暢的語音。

  4 月 9 日消息,亞馬遜發(fā)布了名為 Nova Sonic 的新一代生成式 AI 模型,該模型能夠原生處理語音并生成自然流暢的語音。據(jù)亞馬遜聲稱,Nova Sonic 在速度、語音識別以及對話質(zhì)量等關(guān)鍵指標的基準測試中,表現(xiàn)可與 OpenAI 和谷歌的前沿語音模型相媲美。

  Nova Sonic 的問世是亞馬遜對新興 AI 語音模型的有力回應(yīng),例如為 ChatGPT 語音模式提供支持的模型,相較于亞馬遜早期的 Alexa 等較為刻板的模型,這些新模型在語音交互時更加自然。

  Nova Sonic 通過亞馬遜的 Bedrock 開發(fā)者平臺提供給用戶,該平臺是用于構(gòu)建企業(yè)級 AI 應(yīng)用的工具,Nova Sonic 則通過一個全新的雙向流式 API 進行接入。在一份新聞稿中,亞馬遜稱 Nova Sonic 是市場上“最具成本效益”的 AI 語音模型,其價格比 OpenAI 的 GPT-4o 便宜約 80%。

  據(jù)亞馬遜高級副總裁兼人工通用智能(AGI)部門首席科學家羅希特?普拉薩德介紹,Nova Sonic 的部分組件已經(jīng)為亞馬遜升級版數(shù)字語音助手 Alexa+ 提供了動力支持。

  普拉薩德表示,與競爭對手的 AI 語音模型相比,Nova Sonic 在將用戶請求路由到不同 API 方面表現(xiàn)出色。這一能力使得 Nova Sonic 能夠知曉何時需要從互聯(lián)網(wǎng)獲取實時信息、解析專有數(shù)據(jù)源,或者在外部應(yīng)用程序中采取行動,并使用合適的工具來完成任務(wù)。

  在雙向?qū)υ捴?,Nova Sonic 會等待“合適的時機”發(fā)言,會考慮到說話者的停頓和打斷等情況。此外,Nova Sonic 還能夠為用戶的語音生成文本記錄,開發(fā)者可以將這些文本用于各種應(yīng)用場景。

  據(jù)普拉薩德介紹,Nova Sonic 在語音識別錯誤方面比其他 AI 語音模型更少,這意味著該模型即使在用戶咕噥、說錯話或者處于嘈雜環(huán)境中時,也相對擅長理解用戶的意圖。在一項衡量跨語言和方言的語音識別基準測試 —— 多語言 LibriSpeech 中,亞馬遜表示 Nova Sonic 在英語、法語、意大利語、德語和西班牙語上的平均單詞錯誤率(WER)僅為 4.2%。也就是說,在這些語言中,該模型每 100 個單詞中大約有 4 個與人工轉(zhuǎn)錄的結(jié)果不同。

  在另一項衡量多人參與的高音量互動的基準測試 —— 增強多方互動中,亞馬遜稱 Nova Sonic 在單詞錯誤率方面比 OpenAI 的 GPT-4o-transcribe 模型準確率高出 46.7%。Nova Sonic 還擁有行業(yè)領(lǐng)先的速度,其平均感知延遲為 1.09 秒,亞馬遜表示。這一速度比為 OpenAI 的實時 API 提供動力的 GPT-4o 模型更快,后者響應(yīng)時間為 1.18 秒,這是根據(jù)人工分析的基準測試結(jié)果得出的。

  普拉薩德稱,Nova Sonic 是亞馬遜構(gòu)建人工通用智能(AGI)這一更廣泛戰(zhàn)略的一部分,公司定義 AGI 為“能夠在計算機上完成人類所能做的一切事情的 AI 系統(tǒng)”。展望未來,普拉薩德表示,亞馬遜計劃推出更多能夠理解不同模態(tài)(包括圖像、視頻和語音)的 AI 模型,以及“其他在將事物引入物理世界時相關(guān)的感官數(shù)據(jù)”。

  由普拉薩德負責的亞馬遜 AGI 部門,如今似乎在公司產(chǎn)品戰(zhàn)略中扮演著越來越重要的角色。就在上周,亞馬遜剛剛推出了 Nova Act 的預覽版,這是一個使用瀏覽器的 AI 模型,似乎為 Alexa+ 和亞馬遜的“代我購買”功能的部分元素提供了支持。普拉薩德表示,從 Nova Sonic 開始,公司希望將更多內(nèi)部的 AI 模型提供給開發(fā)者使用,以助力他們構(gòu)建各種應(yīng)用。