xAI a lancé le 2 mai sur son blog officiel la fonctionnalité Grok Custom Voices. Les utilisateurs n’ont qu’à enregistrer environ 1 minute de voix naturelle dans la console xAI ; le système traite le tout en moins de 2 minutes et produit un modèle vocal sur mesure utilisable pour l’API TTS et l’API Voice Agent. Le lancement s’accompagne également du modèle Grok 4.3, ainsi que de l’interface Voice Library qui regroupe l’ensemble des ressources vocales. Custom Voices intègre en outre un mécanisme d’authentification d’identité en deux étapes, conçu pour empêcher le clonage de la voix d’autrui.
Fonctionnalité : 1 minute d’enregistrement, 2 minutes de génération, intégration TTS et Voice Agent API
Les utilisateurs enregistrent environ 1 minute de voix naturelle dans la console xAI, puis le traitement côté serveur s’enchaîne comme suit : (1) authentification, (2) traitement audio, (3) génération du modèle. En tout, en moins de 2 minutes, il est possible d’obtenir un modèle vocal exploitable. Custom Voices reprend toutes les capacités de TTS, y compris les speech tags (étiquettes vocales), la sortie multilingue, ainsi que le streaming via REST et WebSocket ; il peut être directement combiné avec les points de terminaison TTS de xAI ou l’API Voice Agent pour dialoguer en temps réel avec des agents.
La Voice Library lancée en parallèle est une interface de la console xAI permettant de gérer de manière unifiée les ressources vocales : elle est consultable, permet un aperçu et la gestion des voix créées par les utilisateurs comme des voix préconstruites, évitant d’avoir à se disperser sur plusieurs interfaces. La bibliothèque de voix préconstruites propose plus de 80 voix et prend en charge 28 langues.
Authentification d’identité en deux étapes : empêcher le clonage de la voix d’autrui
Avant la génération vocale, Custom Voices met en place deux barrières d’authentification : d’abord, l’utilisateur lit à voix haute une phrase de vérification et le système transcrit immédiatement la séquence audio ; ensuite, à partir de la phrase de vérification et de l’enregistrement complet, le système calcule séparément les speaker embedding (vecteurs de caractéristiques du locuteur) et compare s’il s’agit de la même personne. Ce n’est qu’après le passage des deux étapes que l’on entre dans le processus de génération du modèle vocal.
xAI affirme clairement : les utilisateurs ne peuvent pas cloner une voix à partir de fichiers d’enregistrement existants, ni cloner la voix d’une autre personne. Cette conception écarte le scénario consistant à « copier directement » des enregistrements d’exposés publics d’autrui, et limite le clonage à un unique point d’entrée : « un enregistrement en temps réel par l’utilisateur lui-même ». Pour les observateurs attentifs aux dérives de la génération de voix par l’IA (par exemple les arnaques téléphoniques, le doublage non autorisé), ce mécanisme constitue une réponse concrète de xAI aux enjeux de prévention de la contrefaçon.
Observations à venir : rythme d’expansion de la Voice Library en même temps que Grok 4.3
Custom Voices et le modèle Grok 4.3 sont lancés le même jour ; xAI associe « mise à niveau du modèle + extension complète des outils vocaux » à la même vague d’annonce. Le prochain point d’observation est le rythme d’expansion de la bibliothèque de voix préconstruites de Voice Library, passant de 80 voix vers davantage, ainsi que la capacité à couvrir encore plus de petites langues, comme le chinois traditionnel ; autre point d’observation : les cas d’adoption concrets de l’API Voice Agent publiés au détail, notamment des exemples d’intégration pour l’automatisation du service client, la production de podcasts, ou encore le support client multilingue.
Cet article xAI Grok lance Custom Voices : clonage en 2 minutes, authentification d’identité en deux étapes apparaît pour la première fois sur 鏈新聞 ABMedia.
Articles similaires
La marine américaine signe un contrat d’environ 100 millions de dollars avec Domino Data Lab pour la détection de mines dans le détroit d’Hormuz
La version de bureau de Codex d’OpenAI ajoute une fonction “animal de compagnie” : 3 états de notification, éclosion selon la langue utilisée
MoonPay lance la carte MoonAgents, une Mastercard virtuelle pour les agents d’IA, vendredi
Analyse de Berkeley GEPA : l’IA peut apprendre de nouvelles tâches sans mettre à jour les poids, avec 35 fois moins de coûts d’entraînement que le RL
OpenAI lance Codex Pets, un compagnon virtuel IA avec génération sur mesure