xAI pada 2 Mei meluncurkan fitur Grok Custom Voices di blog resmi, di mana pengguna hanya perlu merekam suara alami sekitar 1 menit di konsol xAI, lalu sistem akan memprosesnya dalam waktu 2 menit dan menghasilkan model suara kustom yang dapat digunakan untuk TTS dan Voice Agent API. Turut diluncurkan adalah model Grok 4.3, serta antarmuka Voice Library yang menghimpun semua sumber daya suara. Custom Voices juga dirancang dengan mekanisme verifikasi identitas dua tahap untuk mencegah kloning suara orang lain.
Fungsi: rekaman 1 menit, generasi 2 menit, integrasi TTS dan Voice Agent API
Pengguna merekam suara alami sekitar 1 menit di konsol xAI, lalu proses di belakang layar selesai berurutan: (1) verifikasi identitas, (2) pemrosesan suara, (3) produksi model. Dalam total 2 menit, pengguna bisa mendapatkan model suara yang siap digunakan. Custom Voices mewarisi semua kemampuan TTS, termasuk speech tags (tag suara), output multi-bahasa, serta streaming REST dan WebSocket; dapat langsung dipadukan dengan endpoint TTS xAI atau Voice Agent API untuk percakapan real-time dengan agen.
Voice Library yang diluncurkan serentak adalah antarmuka di konsol xAI untuk manajemen terpusat sumber daya suara, yang memungkinkan pengguna menelusuri, melakukan preview, dan mengelola semua suara buatan pengguna serta yang telah disiapkan, sehingga tidak lagi tersebar di banyak antarmuka. Pustaka suara yang telah dipersiapkan menyediakan lebih dari 80 jenis suara dan mendukung 28 bahasa.
Verifikasi identitas dua tahap: mencegah kloning suara orang lain
Sebelum generasi suara, Custom Voices menyiapkan dua tahap verifikasi identitas: pertama, pengguna membacakan sebuah kalimat verifikasi, dan sistem langsung mentranskripsikan rekaman suara bagian tersebut; kedua, sistem menghitung speaker embedding (vektor ciri pembicara) secara terpisah dari kalimat verifikasi dan rekaman lengkap, lalu membandingkan apakah keduanya milik orang yang sama. Hanya jika kedua tahap lolos, barulah masuk ke alur produksi model suara.
xAI secara tegas menyatakan: pengguna tidak dapat men-clone suara menggunakan file rekaman yang sudah ada, dan juga tidak bisa men-clone suara orang lain. Desain ini meniadakan skenario “mengambil rekaman pidato publik milik orang lain lalu menyalinnya langsung”, dengan membatasi kloning suara hanya pada satu pintu masuk, yaitu “rekaman real-time oleh pengguna sendiri”. Bagi pengamat yang menaruh perhatian pada isu penyalahgunaan generasi suara AI (seperti penipuan telepon dan sulih suara tanpa izin), mekanisme ini merupakan respons konkret xAI terhadap isu anti-pemalsuan.
Observasi berikutnya: dirilis bersamaan dengan Grok 4.3, Voice Library diperluas untuk ritme
Custom Voices dan model Grok 4.3 diluncurkan pada hari yang sama, dan xAI mengikat rilis “peningkatan model + penyempurnaan lini alat suara” dalam satu gelombang pengumuman. Titik observasi berikutnya adalah ritme perluasan pustaka suara yang telah dipersiapkan di Voice Library dari 80 jenis ke atas, serta apakah peta 28 bahasa dapat semakin mencakup bahasa-bahasa kecil seperti bahasa Mandarin tradisional. Titik observasi lainnya adalah kasus penggunaan nyata Voice Agent API yang dipublikasikan, khususnya contoh integrasi untuk skenario seperti otomasi layanan pelanggan, pembuatan rekaman podcast, dan layanan pelanggan multi-bahasa.
Artikel ini xAI Grok 推 Custom Voices:2 分鐘克隆、雙階段身分驗證 pertama kali muncul di 鏈新聞 ABMedia.
Artikel Terkait
Roblox Meluncurkan Perangkat Lunak AI untuk Menantang Unity dan Epic Games
Angkatan Laut AS Menandatangani Kontrak AI Hampir senilai $100 juta dengan Domino Data Lab untuk Deteksi Ranjau di Selat Hormuz
Fitur hewan peliharaan pada versi desktop OpenAI Codex: 3 status, menetas sesuai bahasa yang digunakan
MoonPay Meluncurkan Kartu MoonAgents, Virtual Mastercard untuk Agen AI, pada Jumat
Analisis Berkeley GEPA: AI bisa mempelajari tugas baru tanpa memperbarui bobot, 35 kali lebih sedikit biaya pelatihan dibanding RL
OpenAI Meluncurkan Codex Pets, Pendamping Virtual Berbasis AI dengan Generasi Kustom