Qwen Abre Código de Modelos Avançados de ASR e Alinhamento Forçado com Capacidades Multilíngues

MpostMediaGroup · 2026-01-29T14:41:12+00:00

Alibaba Cloud disponibilizou de código aberto os seus modelos Qwen3-ASR e Qwen3-ForcedAligner, alcançando reconhecimento de fala avançado e alinhamento em 52 idiomas com alta precisão e eficiência em condições desafiantes.

MpostMediaGroup

2026-01-29 14:41:12

Geração do resumo em andamento

Resumidamente

Alibaba Cloud open-sourçou os seus modelos de IA Qwen3-ASR e Qwen3-ForcedAligner, oferecendo desempenho de reconhecimento de fala e alinhamento forçado de última geração em várias línguas e condições acústicas desafiantes.

A Alibaba Cloud anunciou que disponibilizou os seus modelos de IA Qwen3-ASR e Qwen3-ForcedAligner como código aberto, oferecendo ferramentas avançadas para reconhecimento de fala e alinhamento forçado.

A família Qwen3-ASR inclui dois modelos tudo-em-um, Qwen3-ASR-1.7B e Qwen3-ASR-0.6B, que suportam identificação de idioma e transcrição em 52 línguas e sotaques, aproveitando dados de fala em grande escala e o modelo base Qwen3-Omni.

Testes internos indicam que o modelo de 1.7B oferece precisão de última geração entre sistemas ASR de código aberto, enquanto a versão de 0.6B equilibra desempenho e eficiência, sendo capaz de transcrever 2.000 segundos de fala em um segundo com alta concorrência.

O modelo Qwen3-ForcedAligner-0.6B usa uma abordagem de LLM não autoregressiva para alinhar texto e fala em 11 línguas, superando soluções líderes de alinhamento forçado em velocidade e precisão.

A Alibaba Cloud também lançou uma estrutura de inferência abrangente sob a licença Apache 2.0, suportando streaming, processamento em lote, previsão de carimbos de tempo e ajuste fino, com o objetivo de acelerar a pesquisa e aplicações práticas em compreensão de áudio.

Modelos Qwen3-ASR e Qwen3-ForcedAligner Demonstram Precisão e Eficiência Líderes

A Alibaba Cloud divulgou resultados de desempenho dos seus modelos Qwen3-ASR e Qwen3-ForcedAligner, demonstrando precisão e eficiência líderes em várias tarefas de reconhecimento de fala.

O modelo Qwen3-ASR-1.7B alcança resultados de última geração entre sistemas de código aberto, superando APIs comerciais e outros modelos de código aberto no reconhecimento de inglês, multilíngue e dialetos chineses, incluindo cantonês e 22 variantes regionais.

Mantém uma precisão confiável em condições acústicas desafiantes, como ambientes com baixa relação sinal-ruído, fala infantil ou de idosos, e até transcrição de voz cantada, atingindo taxas médias de erro de palavra de 13,91% em chinês e 14,60% em inglês com música de fundo.

O menor Qwen3-ASR-0.6B equilibra precisão e eficiência, oferecendo alto rendimento e baixa latência sob alta concorrência, sendo capaz de transcrever até cinco horas de fala em modo assíncrono online com uma concorrência de 128.

Entretanto, o Qwen3-ForcedAligner-0.6B supera modelos líderes de alinhamento forçado de ponta a ponta, incluindo Nemo-Forced-Aligner, WhisperX e Monotonic-Aligner, oferecendo cobertura linguística superior, precisão de carimbo de tempo e suporte para diferentes comprimentos de fala e áudio.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.