J'ai remarqué un mouvement intéressant dans le domaine de la reconnaissance vocale. Sierra a mis à disposition en accès libre μ-Bench — un ensemble de données multilingue pour l’évaluation des systèmes ASR, et cela semble être une étape assez sérieuse.



En quoi cela consiste : l’ensemble comprend 250 enregistrements réels issus du service client et 4270 clips audio annotés. La principale différence par rapport aux benchmarks existants est que ici, ce n’est pas seulement l’anglais. Ils supportent cinq langues — anglais, espagnol, turc, vietnamien et mandarin.

Particulièrement intéressante est la nouvelle métrique UER (Taux d’erreur d’énoncé). Elle distingue les erreurs qui changent le sens de l’énoncé de celles qui ne le déforment pas. C’est beaucoup plus subtil que la métrique classique WER, où toutes les erreurs sont considérées de la même manière.

Selon les résultats des tests : Google Chirp-3 domine en précision, Deepgram Nova-3 est le plus rapide, mais en multilinguisme, il est à la traîne. Il sera intéressant de voir comment cela évoluera.

L’ensemble de données et le tableau des résultats sont déjà disponibles sur Hugging Face, permettant ainsi à d’autres développeurs de participer à l’évaluation. Il semble que μ-Bench devienne la nouvelle norme pour une évaluation sérieuse des systèmes ASR dans le contexte du service client.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler