Google 推出 Gemini 3.1 Flash TTS:支援 70 種語言與場景導演,AI 語音更自然

鏈新聞abmedia

Google AI 開發者關係負責人 Logan Kilpatrick 於 4 月 15 日宣布推出 Gemini 3.1 Flash TTS — Google 最新的文字轉語音模型。這款模型支援 70 種語言、場景導演(scene direction)、說話者級別的精細控制與音訊標籤,目前已在 Google AI Studio 的音訊 playground 和 Gemini API 中開放使用。

四大核心功能

Gemini 3.1 Flash TTS 相較於前代有四項顯著升級:

場景導演(Scene Direction)— 可以為語音設定情境,例如「在嘈雜的咖啡廳中低聲說話」或「興奮地宣布好消息」,模型會根據場景調整語調、語速和情緒

說話者級別控制(Speaker-Level Specificity)— 在多角色對話中,可以為每個角色設定不同的聲音特徵

音訊標籤(Audio Tags)— 支援在文本中插入音效指令,控制停頓、語氣變化等細節

70 種語言支援 — 大幅擴展多語言覆蓋,包含中文

更自然、更有表現力的聲音

Google 強調這款模型在語音自然度上的進步。傳統 TTS 模型的輸出常被批評為「聽起來像 AI」,Gemini 3.1 Flash TTS 試圖透過更豐富的韻律變化和情緒表達來縮小與人類語音的差距。Kilpatrick 指出,從 Gemini 2.5 到 3.1 的進步「非常顯著」。

開發者如何使用

開發者可透過兩種方式使用:

Google AI Studio 音訊 Playground — 直接在網頁介面中測試和預覽語音效果

Gemini API — 整合至應用程式中,用於語音助理、有聲書、Podcast 自動生成、多語言客服等場景

Gemini 產品線持續擴張

Flash TTS 是 Gemini 3.1 系列近期密集發布的一環。此前 Google 已推出 Gemini Robotics ER 1.6(機器人視覺推理)、Tab Tab Tab(Vibe Coding prompt 補全)和設計預覽等功能。Google 正在將 Gemini 從「聊天模型」擴展為涵蓋文字、語音、視覺、機器人的全模態 AI 平台。

這篇文章 Google 推出 Gemini 3.1 Flash TTS:支援 70 種語言與場景導演,AI 語音更自然 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

寒武紀完成 DeepSeek-V4 的第 0 天適配,為中國 AI 晶片生態系樹立里程碑

Gate News 訊息,4 月 24 日——寒武紀(Cambricon)今天宣布,已使用其專有 NeuWare 軟體生態系與 vLLM 框架完成 DeepSeek-V4 的第 0 天(Day 0)適配。DeepSeek-V4 是 DeepSeek 最新的大型語言模型。適配程式碼同時開源,標誌著

GateNews15分鐘前

騰訊開源 Hy3 預覽版,程式碼基準測試較前代提升 40%

騰訊於 4 月 23 日在 GitHub、Hugging Face 及 ModelScope 平台正式開源 Hy3 預覽版大型語言模型,並同步於騰訊雲端(Tencent Cloud)提供付費 API 服務。據 Decrypt 於 4 月 24 日報導,Hy3 預覽版自 1 月下旬啟動訓練,至發布日歷時不足三個月。

Market Whisper23分鐘前

如果未破產,FTX 投資組合價值 158 兆韓元

FTX 這家集中式加密貨幣交易所因流動性短缺與資金外流,於 2022 年 11 月申請第 11 章破產保護;根據 Park 引用的分析,如果它沒有倒閉,本應持有約 158.796 兆韓元的投資價值。

Crypto Frontier25分鐘前

小米揭露 MiMo-V2-Pro 訓練細節:1T 模型參數,部署數千台 GPU

Gate 新聞訊息,4 月 24 日——小米大型語言模型團隊負責人 羅福立 在一場深入採訪中披露,MiMo-V2-Pro 模型總計擁有 1 兆(trillion)參數,訓練過程需要數千台 GPU。她指出,1T 規模代表達成性能接近 Claude Opus 4.6 等級所需的最低門檻,並取得下一階段 AI 代理的競爭性入場票。

GateNews40分鐘前

DeepSeek V4 在 Putnam-2025 取得滿分,並列與 Axiom 第一名(正式數學推理)

Gate 新聞訊息,4月24日——DeepSeek V4 已發布來自正式數學推理評估的結果,在 Putnam-2025 中取得滿分 120/120,與 Axiom 並列第一名。 在使用 LeanExplore 與受約束取樣的實務模式下,V4-Flash-Max 在

GateNews48分鐘前

用什麼 AI 最顯身份地位?研究曝 Claude 用戶收入遠超同業,Meta AI 墊底

Epoch AI 的調查顯示,Claude 用戶多為高收入族群,80%年收超過10萬美元;Meta AI 收入分布最廣,36.5%在10萬以上,低收入佔比最高;Claude 價格上漲且分層計費,成本可能提高,Meta 入門較易。未來用哪款 AI 可能成為隱性身份標籤。

鏈新聞abmedia53分鐘前
留言
0/400
暫無留言