Qwen Abre Código de Modelos Avançados de ASR e Alinhamento Forçado com Capacidades Multilíngues

robot
Geração do resumo em andamento

Resumidamente

Alibaba Cloud open-sourçou os seus modelos de IA Qwen3-ASR e Qwen3-ForcedAligner, oferecendo desempenho de reconhecimento de fala e alinhamento forçado de última geração em várias línguas e condições acústicas desafiantes.

Qwen Open-Sources Advanced ASR And Forced Alignment Models With Multi-Language Capabilities

A Alibaba Cloud anunciou que disponibilizou os seus modelos de IA Qwen3-ASR e Qwen3-ForcedAligner como código aberto, oferecendo ferramentas avançadas para reconhecimento de fala e alinhamento forçado.

A família Qwen3-ASR inclui dois modelos tudo-em-um, Qwen3-ASR-1.7B e Qwen3-ASR-0.6B, que suportam identificação de idioma e transcrição em 52 línguas e sotaques, aproveitando dados de fala em grande escala e o modelo base Qwen3-Omni.

Testes internos indicam que o modelo de 1.7B oferece precisão de última geração entre sistemas ASR de código aberto, enquanto a versão de 0.6B equilibra desempenho e eficiência, sendo capaz de transcrever 2.000 segundos de fala em um segundo com alta concorrência.

O modelo Qwen3-ForcedAligner-0.6B usa uma abordagem de LLM não autoregressiva para alinhar texto e fala em 11 línguas, superando soluções líderes de alinhamento forçado em velocidade e precisão.

A Alibaba Cloud também lançou uma estrutura de inferência abrangente sob a licença Apache 2.0, suportando streaming, processamento em lote, previsão de carimbos de tempo e ajuste fino, com o objetivo de acelerar a pesquisa e aplicações práticas em compreensão de áudio.

Modelos Qwen3-ASR e Qwen3-ForcedAligner Demonstram Precisão e Eficiência Líderes

A Alibaba Cloud divulgou resultados de desempenho dos seus modelos Qwen3-ASR e Qwen3-ForcedAligner, demonstrando precisão e eficiência líderes em várias tarefas de reconhecimento de fala.

O modelo Qwen3-ASR-1.7B alcança resultados de última geração entre sistemas de código aberto, superando APIs comerciais e outros modelos de código aberto no reconhecimento de inglês, multilíngue e dialetos chineses, incluindo cantonês e 22 variantes regionais.

Mantém uma precisão confiável em condições acústicas desafiantes, como ambientes com baixa relação sinal-ruído, fala infantil ou de idosos, e até transcrição de voz cantada, atingindo taxas médias de erro de palavra de 13,91% em chinês e 14,60% em inglês com música de fundo.

O menor Qwen3-ASR-0.6B equilibra precisão e eficiência, oferecendo alto rendimento e baixa latência sob alta concorrência, sendo capaz de transcrever até cinco horas de fala em modo assíncrono online com uma concorrência de 128.

Entretanto, o Qwen3-ForcedAligner-0.6B supera modelos líderes de alinhamento forçado de ponta a ponta, incluindo Nemo-Forced-Aligner, WhisperX e Monotonic-Aligner, oferecendo cobertura linguística superior, precisão de carimbo de tempo e suporte para diferentes comprimentos de fala e áudio.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar

Negocie criptomoedas a qualquer hora e em qualquer lugar
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)