xAI a annoncé le 1er juillet le lancement de la version bêta de Voice Agent Builder, une plateforme de création d'agents vocaux IA entièrement sans code, permettant aux utilisateurs de créer un agent vocal de niveau entreprise en 2 minutes à l'aide d'invites en langage naturel ; la plateforme utilise un chemin vocal unique de bout en bout Speech-to-Speech étroitement couplé à Grok Voice, surpassant GPT dans les benchmarks.
(Source : site web de xAI)
Selon les données officielles de xAI, Grok Voice Think Fast 1.0 occupe la première place du classement du benchmark vocal τ-voice Bench, surpassant directement Google Gemini 3.1 Flash Live et OpenAI GPT Realtime 1.5 en termes de vitesse de réaction et de capacité de raisonnement.
xAI explique que Grok Voice est entraîné avec des scénarios d'appels réels et conçus comme étant les « plus difficiles », incluant le bruit téléphonique de mauvaise qualité, les accents forts, les interruptions de l'utilisateur et les instructions floues, et prend en charge nativement plus de 25 langues.
xAI explique officiellement que les services vocaux IA d'entreprise traditionnels doivent connecter trois systèmes indépendants : la reconnaissance vocale (STT), un grand modèle de langage (LLM) et la synthèse vocale (TTS). Cette architecture en kit augmente la latence multi-sauts, ainsi que le taux d'erreur et les coûts d'exploitation.
Voice Agent Builder utilise un chemin vocal unique de bout en bout Speech-to-Speech étroitement couplé à Grok Voice, sans segmentation ni basculement dans tout le processus de traitement vocal, visant à réduire la latence et les erreurs de connexion.
Selon la description officielle de xAI, les spécifications des quatre modules fonctionnels principaux de Voice Agent Builder sont les suivantes :
Base de connaissances (Knowledge Base) : prend en charge le téléchargement de formats Word, Excel, PDF, JSON, etc., pouvant être organisés en Collections partagées entre agents, garantissant la cohérence des spécifications produit et des politiques.
Outils et connecteurs (Tools & Connectors) : intègre les calendriers Google/Outlook, la recherche Web, la recherche X (Twitter) et Notion ; prend en charge le transfert à un agent humain, la fin d'appel et les notifications d'équipe en temps réel.
Voix et téléphonie (Voice & Telephony) : propose plus de 80 voix intégrées ; prend en charge le clonage vocal de marque avec seulement 2 minutes d'audio ; peut obtenir gratuitement un numéro de téléphone fourni par xAI, ou connecter un système téléphonique existant via SIP.
Tarification transparente (Pricing) : frais d'API de calcul à 0,05 USD par minute, sans frais de plateforme supplémentaires ; lors de l'utilisation d'un numéro de téléphone fourni par xAI, des frais de communication supplémentaires de 0,01 USD par minute sont facturés.
Selon l'annonce officielle de xAI, Voice Agent Builder intègre des mécanismes de surveillance (Observability) et des garde-fous de sécurité (Guardrails) pour les utilisateurs professionnels : chaque appel est automatiquement enregistré et une transcription est générée ; les administrateurs peuvent consulter à tout moment l'historique des outils utilisés par l'IA pendant l'appel ; et des limites de dialogue strictes peuvent être définies, par exemple interdire à l'IA de lire les numéros de carte de crédit des clients ou d'aborder des sujets politiques hors sujet avec l'utilisateur.
xAI a déclaré dans l'annonce officielle : « Juger avec ses oreilles est plus précis que de regarder les benchmarks — créez un agent, appelez-le avec votre workflow le plus difficile et essayez-le. »
Selon l'annonce officielle de xAI, les frais d'API de calcul sont de 0,05 USD par minute, sans frais de plateforme supplémentaires ; si vous utilisez le numéro de téléphone fourni gratuitement par xAI, des frais de communication supplémentaires de 0,01 USD par minute sont facturés.
Selon les données officielles de xAI, Grok Voice Think Fast 1.0 surpasse Google Gemini 3.1 Flash Live et OpenAI GPT Realtime 1.5 dans le benchmark τ-voice Bench, se classant premier en termes de vitesse de réaction et de capacité de raisonnement.
Selon l'annonce officielle de xAI, la version bêta de Voice Agent Builder est désormais disponible sur la console xAI, ouverte à l'essai.
Actualités associées
Le mécanisme de gouvernance en chaîne de Solana est lancé, les propositions nécessitent 15 % de soutien mis en jeu pour entrer dans le vote.
Claude Sonnet 5 est lancé, le prix de l'API est 60 % moins cher que celui d'Opus.
6 navigateurs AI trompés par le jeu « 2+2=5 », tous les certificats SSH divulgués
Meituan LongCat-2.0 open source : 1,6 billion de paramètres, aucun GPU NVIDIA nécessaire