Google Ra Mắt Gemini 3.1 Flash TTS với Khả Năng Thể Hiện Cảm Xúc Nâng Cao và Hỗ Trợ Nhiều Người Nói

Tin nhắn Gate News, ngày 17 tháng 4 — Google đã công bố Gemini 3.1 Flash TTS, một mô hình nâng cao chuyển văn bản thành giọng nói với các tính năng thể hiện cảm xúc và kiểm soát được tăng cường, vào ngày 15 tháng 4. Mô hình mới sẽ được triển khai dần dần thông qua các API dành cho nhà phát triển, Vertex AI cho doanh nghiệp và các công cụ cộng tác.

Các khả năng cốt lõi của mô hình bao gồm các thẻ âm thanh dựa trên ngôn ngữ tự nhiên để tinh chỉnh tốc độ, ngữ điệu và cảm xúc, cùng với “Director Mode” để chỉ định cảnh và vai trò nhân vật nhằm tạo ra các đầu ra giọng nói tinh tế hơn. Tính năng nhiều người nói cho phép tạo hội thoại đồng thời, giúp luồng trò chuyện tự nhiên hơn, phù hợp cho podcast, nội dung âm thanh và trợ lý AI. Mô hình hỗ trợ hơn 70 ngôn ngữ và phương ngữ, phản ánh giọng và cách diễn đạt theo khu vực cho trải nghiệm giọng nói được bản địa hóa trên toàn cầu.

Google nhấn mạnh hiệu năng và tối ưu chi phí, đạt điểm cao trên các chuẩn đánh giá con người mù trong khi giảm chi phí tính toán nhờ kiến trúc Flash—được thiết kế cho việc triển khai doanh nghiệp quy mô lớn. Âm thanh được tạo ra bao gồm gắn watermark SynthID để nhận diện nội dung do AI tạo ra và chống lại tin giả.

Động thái này phản ánh sự cạnh tranh ngày càng gay gắt trong các giao diện giọng nói. OpenAI đang kết hợp các tính năng giọng nói thời gian thực với AI hội thoại để tạo ra tương tác giống con người, trong khi Meta đang mở rộng đầu tư vào các nhân vật AI với trải nghiệm xã hội dựa trên giọng nói. Các nhà quan sát trong ngành cho rằng dù hoạt động diễn xuất cấp cao và công việc sáng tạo có thể vẫn do con người dẫn dắt trong hiện tại, nhưng các thị trường sản xuất lặp lại và quy mô lớn có thể sẽ chứng kiến việc AI dần được áp dụng trong các lĩnh vực lồng tiếng, quảng cáo và sách nói.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Earth VC Hậu thuẫn Startup AI Lượng tử Sygaldry trong Vòng huy động $139M

Earth Venture Capital đã đầu tư vào Sygaldry Technologies, một startup AI lượng tử, góp phần vào tổng vốn huy động $139 triệu. Sygaldry phát triển các máy chủ lai cho các tác vụ AI hiệu quả, đồng sáng lập bởi Chad Rigetti, trước đây thuộc Rigetti Computing.

GateNews53phút trước

Trung Quốc sẽ tăng cường khung pháp lý cho AI, kinh tế số và blockchain

Trung Quốc có kế hoạch hoàn thiện hệ thống pháp luật mạng lưới để đáp ứng nhu cầu phát triển internet, tập trung vào việc lập pháp cho AI, kinh tế số và các lĩnh vực công nghệ khác. Đến tháng 12/2025, dự kiến sẽ có hơn 180 đạo luật, dù các quy định hiện hành vẫn còn chậm hơn so với kỳ vọng của công chúng.

GateNews1giờ trước

Intchains Group Công bố 8.040 ETH Được Staked, Thúc Đẩy Chuyển Đổi Vận Hành Tích Hợp AI

Intchains Group đã báo cáo tổng cộng 8.040 ETH được staking, với chiến lược bao gồm nền tảng FalconX và Staking Goldshell của chính công ty. Công ty cũng đang nâng cấp vận hành thông qua tự động hóa bằng AI để tăng hiệu quả và năng lực ra quyết định.

GateNews2giờ trước

ADATA, Jay Chou kiếm bộn? Công ty quản lý của GD bí mật gặp gỡ hoàng gia Dubai, thảo luận IPO, AI và robot

Công ty công nghệ giải trí Hàn Quốc Galaxy Corporation gần đây đã tiến quân vào thị trường Trung Đông, thành lập pháp nhân tại Dubai mang tên “Galaxy ME”, và đã gặp gỡ các thành viên hoàng gia UAE để khám phá sự tích hợp giữa AI và nội dung. Công ty đã chọn công ty chứng khoán để thực hiện IPO; doanh thu năm ngoái đạt 3000 tỷ won Hàn Quốc và thu hút đầu tư từ Châu Kiệt Luân cũng như các nhà đầu tư như Transcend. Bố cục này nhằm thúc đẩy sự phát triển của hệ sinh thái giải trí tại Trung Đông, đồng thời nhấn mạnh tầm quan trọng của chiến lược toàn cầu hóa của mình.

ChainNewsAbmedia3giờ trước

Nhóm từ Trung Quốc EvoMap giận dữ tố cáo Hermes Agent sao chép: Hệ thống tự tiến hóa tồn tại mức độ tương đồng cao

Đội ngũ Trung Quốc EvoMap cáo buộc tác nhân Hermes của Nous Research sao chép kiến trúc Evolver/GEP của họ, cho rằng cả hai có mức độ tương đồng cao ở nhiều mô-đun then chốt. EvoMap cho biết thiết kế của Hermes không trích dẫn hoặc ghi nhận nội dung mà họ đã công khai trước đó; tranh cãi đã gây chú ý rộng rãi trong cộng đồng, một phần cư dân mạng Trung Quốc ủng hộ EvoMap và chỉ trích hành vi sao chép của Hermes. Mặc dù nhóm nghiên cứu Nous vẫn chưa phản bác từng ý theo từng mục đối với cáo buộc, nhưng sự việc đã nhanh chóng lan rộng trong dư luận AI.

ChainNewsAbmedia4giờ trước

Nhà đầu tư giai đoạn đầu của OpenAI yêu thích! Startup giao diện não–máy tính Sabi sớm nhất đến cuối năm sẽ xuất xưởng “mũ len phác thảo” có thể viết chữ bằng suy nghĩ

Sabi, một startup mới ở Thung lũng Silicon, đã công bố đang phát triển một giao diện não–máy đeo có thể sử dụng mà không cần phẫu thuật xâm lấn. Người dùng chỉ cần “suy nghĩ” để nhập văn bản lên màn hình, dự kiến ra mắt vào cuối năm 2026. Thiết bị này sẽ được trang bị lên tới 100.000 cảm biến siêu nhỏ, giúp diễn giải chính xác các hoạt động của não, và Sabi cũng nhấn mạnh việc bảo vệ quyền riêng tư của dữ liệu.

ChainNewsAbmedia4giờ trước
Bình luận
0/400
Không có bình luận