Coinjie Wang annonce que Jiéyuè Xīngchén a lancé le nouveau modèle de reconnaissance vocale automatique StepAudio 2.5 ASR, qui est désormais entièrement déployé sur sa plateforme ouverte. Cette version introduit en premier la technologie de prédiction multi-token (MTP) des grands modèles de langage dans le domaine de la reconnaissance vocale, augmentant considérablement la vitesse d'inférence tout en réutilisant la fenêtre de contexte de 32K du grand modèle, brisant ainsi la limite de la transcription de longs audios nécessitant des découpes et des assemblages traditionnels. Le nouveau modèle, en réutilisant directement la fenêtre de contexte de 32K, supporte une lecture unique de jusqu'à 30 minutes d'audio complet en mode end-to-end. Lors d'un test avec une entrée de 30 minutes en charge maximale, le modèle n'a pas montré de dégradation de précision avec le temps, et ses taux d'erreur globaux sur dix ensembles de tests open source en chinois et en anglais, tels que Librispeech, sont tous inférieurs à ceux des concurrents.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler