Google 正在將 Gemini 模型的能力融入多條產品線中。
上周,Google 宣布已將最先進的 Gemini 翻譯功能引入 Google 翻譯。
剛剛,Google 發布了適用于實時語音代理的 Gemini 2.5 Flash Native Audio 更新版本。此次更新提升了模型處理復雜工作流程、理解用戶指令以及進行自然對話的能力。
就在前不久,Google 分別對 Gemini 2.5 Pro 和 Flash Text-to-Speech 型號進行了升級,從而提高了對音頻生成的控制能力。
Gemini 2.5 Flash 首次將原生音頻的自然體驗帶入 Search Live,用戶可在 Search Live 中獲得實時幫助,或構建新一代企業級客戶服務代理。
除了為智能客服提供支持外,Google 還推出了實時語音翻譯功能,這項功能支持耳機上的實時語音翻譯,并能保留說話者的語調、語速和音高。
在線語音客服
Google 從三個關鍵方面改進了 Gemini 2.5 原生音頻:
更精準的函數調用:提升了模型在觸發外部函數時的可靠性。模型能夠更準確地識別對話過程中何時需要獲取實時信息,并將這些數據無縫地融入音頻響應中,而不會中斷對話流程。在 ComplexFuncBench Audio 測試中,Gemini 2.5 Native Audio 以 71.5% 的得分領先。
指令執行能力更強:該模型現在能夠更好地處理復雜指令,從而顯著提升用戶對內容完整性的滿意度。其對開發者指令的遵循率高達 90%,輸出結果也更加可靠。
更流暢的對話:多輪對話質量方面取得了顯著提升。Gemini 2.5 Flash Native Audio 能夠更有效地從之前的對話輪次中獲取上下文信息,從而創建更連貫的對話。
Newo.ai 聯合創始人 David Yang 評價道,“通過 Vertex AI 與 Gemini 2.5 Flash Native Audio 模型協同工作,Newo.ai 的 AI 接待員能夠實現無與倫比的對話智能……即使在嘈雜的環境中,它們也能識別主要說話者,在對話過程中切換語言,并且聽起來非常自然,富有情感表現力。”
實時語音翻譯
除語音客服的功能外,Gemini 還支持全新的實時語音翻譯功能,旨在處理連續聆聽和雙向對話。通過持續聆聽,Gemini 可以自動將多種語言的語音翻譯成單一目標語言。
對于雙向對話,Gemini 的實時語音翻譯功能可實時處理兩種語言之間的翻譯,并根據說話者自動切換輸出語言。例如,如果說英語的用戶想與一位說印地語的人聊天,他會在耳機中實時聽到英語翻譯,并使用手機自動翻譯播報印地語。
Gemini 的實時語音翻譯具有許多在現實世界中非常有用的關鍵功能:
語言覆蓋范圍:結合 Gemini 模型的全球知識庫和多語言功能及其原生音頻功能,可翻譯 70 多種語言和 2000 多個語言對的語音。
風格遷移:捕捉人類語言的細微差別,保留說話者的語調、語速和音高,使翻譯聽起來自然流暢。
多語言輸入:可在一次會話中同時理解多種語言,幫助用戶輕松跟上多語言對話,而無需調整語言設置。
自動檢測:識別說話的語言并開始翻譯,不需要知道正在說的是什么語言即可開始翻譯。
降噪性能:過濾環境噪音,即使在嘈雜的戶外環境中也能舒適地交談。
參考資料:
https://blog.google/products/gemini/gemini-audio-model-updates/