xAI pada 2 Mei meluncurkan fitur Grok Custom Voices di blog resmi, di mana pengguna hanya perlu merekam suara alami sekitar 1 menit di konsol xAI, lalu sistem akan memprosesnya dalam waktu 2 menit dan menghasilkan model suara kustom yang dapat digunakan untuk TTS dan Voice Agent API. Turut diluncurkan adalah model Grok 4.3, serta antarmuka Voice Library yang menghimpun semua sumber daya suara. Custom Voices juga dirancang dengan mekanisme verifikasi identitas dua tahap untuk mencegah kloning suara orang lain.

Fungsi: rekaman 1 menit, generasi 2 menit, integrasi TTS dan Voice Agent API

Pengguna merekam suara alami sekitar 1 menit di konsol xAI, lalu proses di belakang layar selesai berurutan: (1) verifikasi identitas, (2) pemrosesan suara, (3) produksi model. Dalam total 2 menit, pengguna bisa mendapatkan model suara yang siap digunakan. Custom Voices mewarisi semua kemampuan TTS, termasuk speech tags (tag suara), output multi-bahasa, serta streaming REST dan WebSocket; dapat langsung dipadukan dengan endpoint TTS xAI atau Voice Agent API untuk percakapan real-time dengan agen.

Voice Library yang diluncurkan serentak adalah antarmuka di konsol xAI untuk manajemen terpusat sumber daya suara, yang memungkinkan pengguna menelusuri, melakukan preview, dan mengelola semua suara buatan pengguna serta yang telah disiapkan, sehingga tidak lagi tersebar di banyak antarmuka. Pustaka suara yang telah dipersiapkan menyediakan lebih dari 80 jenis suara dan mendukung 28 bahasa.

Verifikasi identitas dua tahap: mencegah kloning suara orang lain

Sebelum generasi suara, Custom Voices menyiapkan dua tahap verifikasi identitas: pertama, pengguna membacakan sebuah kalimat verifikasi, dan sistem langsung mentranskripsikan rekaman suara bagian tersebut; kedua, sistem menghitung speaker embedding (vektor ciri pembicara) secara terpisah dari kalimat verifikasi dan rekaman lengkap, lalu membandingkan apakah keduanya milik orang yang sama. Hanya jika kedua tahap lolos, barulah masuk ke alur produksi model suara.

xAI secara tegas menyatakan: pengguna tidak dapat men-clone suara menggunakan file rekaman yang sudah ada, dan juga tidak bisa men-clone suara orang lain. Desain ini meniadakan skenario “mengambil rekaman pidato publik milik orang lain lalu menyalinnya langsung”, dengan membatasi kloning suara hanya pada satu pintu masuk, yaitu “rekaman real-time oleh pengguna sendiri”. Bagi pengamat yang menaruh perhatian pada isu penyalahgunaan generasi suara AI (seperti penipuan telepon dan sulih suara tanpa izin), mekanisme ini merupakan respons konkret xAI terhadap isu anti-pemalsuan.

Observasi berikutnya: dirilis bersamaan dengan Grok 4.3, Voice Library diperluas untuk ritme

Custom Voices dan model Grok 4.3 diluncurkan pada hari yang sama, dan xAI mengikat rilis “peningkatan model + penyempurnaan lini alat suara” dalam satu gelombang pengumuman. Titik observasi berikutnya adalah ritme perluasan pustaka suara yang telah dipersiapkan di Voice Library dari 80 jenis ke atas, serta apakah peta 28 bahasa dapat semakin mencakup bahasa-bahasa kecil seperti bahasa Mandarin tradisional. Titik observasi lainnya adalah kasus penggunaan nyata Voice Agent API yang dipublikasikan, khususnya contoh integrasi untuk skenario seperti otomasi layanan pelanggan, pembuatan rekaman podcast, dan layanan pelanggan multi-bahasa.

Artikel ini xAI Grok 推 Custom Voices：2 分鐘克隆、雙階段身分驗證 pertama kali muncul di 鏈新聞 ABMedia.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Roblox Meluncurkan Perangkat Lunak AI untuk Menantang Unity dan Epic Games

AI Tools & Aplikasi

Menurut Bloomberg, Roblox meluncurkan perangkat lunak AI baru untuk bersaing dengan Unity Technologies dan Epic Games, yang mesinnya mendominasi pengembangan game beranggaran besar. CEO Dave Baszucki menyatakan alat ini bertujuan membantu kreator membangun game multipemain dengan grafik fotorealistik dengan lebih mudah, didukung oleh ar

GateNews1jam yang lalu

Angkatan Laut AS Menandatangani Kontrak AI Hampir senilai $100 juta dengan Domino Data Lab untuk Deteksi Ranjau di Selat Hormuz

AI Tools & Aplikasi

Menurut Xinhua News Agency, Komando Sistem Perang Informasi Angkatan Laut AS baru-baru ini menandatangani kontrak dengan perusahaan AI Domino Data Lab yang berbasis di San Francisco untuk pengadaan dan penerapan solusi perangkat lunak machine learning. Kontrak tersebut bernilai hampir 100 juta dolar AS jika dijalankan sepenuhnya, bertujuan untuk

GateNews3jam yang lalu

Fitur hewan peliharaan pada versi desktop OpenAI Codex: 3 status, menetas sesuai bahasa yang digunakan

AI Tools & Aplikasi

OpenAI Codex versi desktop baru-baru ini menambahkan fitur “Pets” (Hewan Peliharaan), memungkinkan pengembang saat coding mendapatkan status tugas Codex secara real-time melalui karakter animasi yang melayang. Berdasarkan dokumen resmi OpenAI, overlay hewan peliharaan akan beralih berdasarkan status Codex saat ini menjadi 3

ChainNewsAbmedia7jam yang lalu

MoonPay Meluncurkan Kartu MoonAgents, Virtual Mastercard untuk Agen AI, pada Jumat

Kemitraan & Ekosistem Agen AI AI Tools & Aplikasi

Menurut The Block, MoonPay meluncurkan MoonAgents Card, kartu debit virtual Mastercard, pada Jumat. Kartu ini dirancang untuk AI agents dan pengguna, mengonversi stablecoin menjadi fiat pada saat pembayaran, serta memungkinkan pengeluaran di merchant online mana pun secara global yang menerima Mastercard. Kartu ini

GateNews17jam yang lalu

Analisis Berkeley GEPA: AI bisa mempelajari tugas baru tanpa memperbarui bobot, 35 kali lebih sedikit biaya pelatihan dibanding RL

AI Tools & Aplikasi

GEPA adalah metode baru pelatihan AI yang diusulkan oleh tim UC Berkeley: tidak memperbarui bobot, tidak memerlukan GPU, dan memanfaatkan agar LLM membaca catatan tugas yang lengkap untuk melakukan refleksi serta menulis ulang prompt, bukan hanya memberi umpan balik berbasis skor. Rata-rata enam tugas menang GRPO 6%, tertinggi 20%, sementara jumlah training rollouts berkurang 35 kali; terintegrasi dengan DSPy, Full Program Adapter meningkatkan secara signifikan pada tugas matematika dan alur kerja multimoda, dengan akurasi 93%. Kode sumber dibuka, dan para penulisnya termasuk Matei Zaharia.

ChainNewsAbmedia05-02 05:48

OpenAI Meluncurkan Codex Pets, Pendamping Virtual Berbasis AI dengan Generasi Kustom

Berita Industri AI AI Tools & Aplikasi

Menurut Beating, OpenAI telah menambahkan fitur baru “Codex Pets” ke aplikasi desktop Codex, yang memungkinkan pengguna membuat dan berinteraksi dengan pendamping virtual animasi. Pengguna dapat mengaktifkan hewan peliharaan dengan mengetik /pet di editor. Fitur ini berfungsi sebagai indikator status agen, menampilkan a

GateNews05-02 04:53

Komentar

0/400

Tidak ada komentar