Google AI 開發者關係負責人 Logan Kilpatrick 於 4 月 15 日宣布推出 Gemini 3.1 Flash TTS — Google 最新的文字轉語音模型。這款模型支援 70 種語言、場景導演（scene direction）、說話者級別的精細控制與音訊標籤，目前已在 Google AI Studio 的音訊 playground 和 Gemini API 中開放使用。

四大核心功能

Gemini 3.1 Flash TTS 相較於前代有四項顯著升級：

場景導演（Scene Direction）— 可以為語音設定情境，例如「在嘈雜的咖啡廳中低聲說話」或「興奮地宣布好消息」，模型會根據場景調整語調、語速和情緒

說話者級別控制（Speaker-Level Specificity）— 在多角色對話中，可以為每個角色設定不同的聲音特徵

音訊標籤（Audio Tags）— 支援在文本中插入音效指令，控制停頓、語氣變化等細節

70 種語言支援 — 大幅擴展多語言覆蓋，包含中文

更自然、更有表現力的聲音

Google 強調這款模型在語音自然度上的進步。傳統 TTS 模型的輸出常被批評為「聽起來像 AI」，Gemini 3.1 Flash TTS 試圖透過更豐富的韻律變化和情緒表達來縮小與人類語音的差距。Kilpatrick 指出，從 Gemini 2.5 到 3.1 的進步「非常顯著」。

開發者如何使用

開發者可透過兩種方式使用：

Google AI Studio 音訊 Playground — 直接在網頁介面中測試和預覽語音效果

Gemini API — 整合至應用程式中，用於語音助理、有聲書、Podcast 自動生成、多語言客服等場景

Gemini 產品線持續擴張

Flash TTS 是 Gemini 3.1 系列近期密集發布的一環。此前 Google 已推出 Gemini Robotics ER 1.6（機器人視覺推理）、Tab Tab Tab（Vibe Coding prompt 補全）和設計預覽等功能。Google 正在將 Gemini 從「聊天模型」擴展為涵蓋文字、語音、視覺、機器人的全模態 AI 平台。

這篇文章 Google 推出 Gemini 3.1 Flash TTS：支援 70 種語言與場景導演，AI 語音更自然最早出現於鏈新聞 ABMedia。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

寒武紀完成 DeepSeek-V4 的第 0 天適配，為中國 AI 晶片生態系樹立里程碑

AI 行業動態

Gate News 訊息，4 月 24 日——寒武紀（Cambricon）今天宣布，已使用其專有 NeuWare 軟體生態系與 vLLM 框架完成 DeepSeek-V4 的第 0 天（Day 0）適配。DeepSeek-V4 是 DeepSeek 最新的大型語言模型。適配程式碼同時開源，標誌著

GateNews15分鐘前

騰訊開源 Hy3 預覽版，程式碼基準測試較前代提升 40%

AI 行業動態

騰訊於 4 月 23 日在 GitHub、Hugging Face 及 ModelScope 平台正式開源 Hy3 預覽版大型語言模型，並同步於騰訊雲端（Tencent Cloud）提供付費 API 服務。據 Decrypt 於 4 月 24 日報導，Hy3 預覽版自 1 月下旬啟動訓練，至發布日歷時不足三個月。

Market Whisper23分鐘前

如果未破產，FTX 投資組合價值 158 兆韓元

股票 AI 行業動態

FTX 這家集中式加密貨幣交易所因流動性短缺與資金外流，於 2022 年 11 月申請第 11 章破產保護；根據 Park 引用的分析，如果它沒有倒閉，本應持有約 158.796 兆韓元的投資價值。

Crypto Frontier25分鐘前

小米揭露 MiMo-V2-Pro 訓練細節：1T 模型參數，部署數千台 GPU

AI 行業動態

Gate 新聞訊息，4 月 24 日——小米大型語言模型團隊負責人羅福立在一場深入採訪中披露，MiMo-V2-Pro 模型總計擁有 1 兆（trillion）參數，訓練過程需要數千台 GPU。她指出，1T 規模代表達成性能接近 Claude Opus 4.6 等級所需的最低門檻，並取得下一階段 AI 代理的競爭性入場票。

GateNews40分鐘前

DeepSeek V4 在 Putnam-2025 取得滿分，並列與 Axiom 第一名（正式數學推理）

AI 行業動態

Gate 新聞訊息，4月24日——DeepSeek V4 已發布來自正式數學推理評估的結果，在 Putnam-2025 中取得滿分 120/120，與 Axiom 並列第一名。在使用 LeanExplore 與受約束取樣的實務模式下，V4-Flash-Max 在

GateNews48分鐘前

用什麼 AI 最顯身份地位？研究曝 Claude 用戶收入遠超同業，Meta AI 墊底

AI 行業動態

Epoch AI 的調查顯示，Claude 用戶多為高收入族群，80%年收超過10萬美元；Meta AI 收入分布最廣，36.5%在10萬以上，低收入佔比最高；Claude 價格上漲且分層計費，成本可能提高，Meta 入門較易。未來用哪款 AI 可能成為隱性身份標籤。

鏈新聞abmedia53分鐘前

留言

0/400

暫無留言