أعلنت Alibaba Cloud عن فتح مصدر نماذج الذكاء الاصطناعي Qwen3-ASR وQwen3-ForcedAligner، مما يوفر أداءً متقدمًا في التعرف على الكلام والمحاذاة القسرية عبر لغات متعددة وظروف صوتية صعبة.
أعلنت Alibaba Cloud أنها جعلت نماذج الذكاء الاصطناعي Qwen3-ASR وQwen3-ForcedAligner مفتوحة المصدر، مما يوفر أدوات متقدمة للتعرف على الكلام والمحاذاة القسرية
يشمل عائلة Qwen3-ASR نموذجين شاملين، Qwen3-ASR-1.7B وQwen3-ASR-0.6B، يدعمان تحديد اللغة والنص عبر 52 لغة ولهجة، مستفيدين من بيانات صوتية واسعة النطاق ونموذج Qwen3-Omni الأساسي
تشير الاختبارات الداخلية إلى أن النموذج 1.7B يوفر دقة متقدمة بين أنظمة ASR مفتوحة المصدر، بينما يوازن الإصدار 0.6B بين الأداء والكفاءة، قادر على نسخ 2000 ثانية من الكلام في ثانية واحدة مع تزامن عالي
يستخدم نموذج Qwen3-ForcedAligner-0.6B نهج LLM غير تلقائي للمزامنة بين النص والصوت في 11 لغة، متفوقًا على حلول المحاذاة القسرية الرائدة من حيث السرعة والدقة
كما أطلقت Alibaba Cloud إطار استنتاج شامل بموجب ترخيص Apache 2.0، يدعم البث، المعالجة الدفعية، التنبؤ بالطوابع الزمنية، والتخصيص الدقيق، بهدف تسريع البحث والتطبيقات العملية في فهم الصوت.
نماذج Qwen3-ASR وQwen3-ForcedAligner تظهر دقة وكفاءة رائدة
أصدرت Alibaba Cloud نتائج الأداء لنماذج Qwen3-ASR وQwen3-ForcedAligner، مما يظهر دقة وكفاءة رائدة عبر مهام التعرف على الكلام المتنوعة
يحقق نموذج Qwen3-ASR-1.7B نتائج متقدمة بين أنظمة المصدر المفتوح، متفوقًا على واجهات برمجة التطبيقات التجارية ونماذج المصدر المفتوح الأخرى في التعرف على اللغة الإنجليزية والمتعددة اللغات واللهجات الصينية، بما في ذلك كانتونية و22 لهجة إقليمية
يحافظ على دقة موثوقة في ظروف صوتية صعبة، مثل بيئات منخفضة إشارة إلى ضوضاء، كلام الأطفال أو كبار السن، وحتى نسخ صوت الغناء، محققًا معدلات خطأ في الكلمات بمعدل 13.91% في الصينية و14.60% في الإنجليزية مع الموسيقى الخلفية.
يوازن النموذج الأصغر Qwen3-ASR-0.6B بين الدقة والكفاءة، موفرًا إنتاجية عالية وزمن استجابة منخفض تحت تزامن عالي، قادر على نسخ ما يصل إلى خمس ساعات من الكلام في وضع غير متزامن عبر الإنترنت عند تزامن 128
وفي الوقت نفسه، يتفوق نموذج Qwen3-ForcedAligner-0.6B على نماذج المحاذاة القسرية الشاملة الرائدة بما في ذلك Nemo-Forced-Aligner وWhisperX وMonotonic-Aligner، مقدمًا تغطية لغوية متفوقة، دقة الطوابع الزمنية، ودعم لمختلف أطوال الكلام والصوت.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
كوين تفتح مصادر نماذج التعرف التلقائي على الكلام المتقدمة ومحاذاة الإجبار مع قدرات متعددة اللغات
ملخص سريع
أعلنت Alibaba Cloud عن فتح مصدر نماذج الذكاء الاصطناعي Qwen3-ASR وQwen3-ForcedAligner، مما يوفر أداءً متقدمًا في التعرف على الكلام والمحاذاة القسرية عبر لغات متعددة وظروف صوتية صعبة.
أعلنت Alibaba Cloud أنها جعلت نماذج الذكاء الاصطناعي Qwen3-ASR وQwen3-ForcedAligner مفتوحة المصدر، مما يوفر أدوات متقدمة للتعرف على الكلام والمحاذاة القسرية
يشمل عائلة Qwen3-ASR نموذجين شاملين، Qwen3-ASR-1.7B وQwen3-ASR-0.6B، يدعمان تحديد اللغة والنص عبر 52 لغة ولهجة، مستفيدين من بيانات صوتية واسعة النطاق ونموذج Qwen3-Omni الأساسي
تشير الاختبارات الداخلية إلى أن النموذج 1.7B يوفر دقة متقدمة بين أنظمة ASR مفتوحة المصدر، بينما يوازن الإصدار 0.6B بين الأداء والكفاءة، قادر على نسخ 2000 ثانية من الكلام في ثانية واحدة مع تزامن عالي
يستخدم نموذج Qwen3-ForcedAligner-0.6B نهج LLM غير تلقائي للمزامنة بين النص والصوت في 11 لغة، متفوقًا على حلول المحاذاة القسرية الرائدة من حيث السرعة والدقة
كما أطلقت Alibaba Cloud إطار استنتاج شامل بموجب ترخيص Apache 2.0، يدعم البث، المعالجة الدفعية، التنبؤ بالطوابع الزمنية، والتخصيص الدقيق، بهدف تسريع البحث والتطبيقات العملية في فهم الصوت.
نماذج Qwen3-ASR وQwen3-ForcedAligner تظهر دقة وكفاءة رائدة
أصدرت Alibaba Cloud نتائج الأداء لنماذج Qwen3-ASR وQwen3-ForcedAligner، مما يظهر دقة وكفاءة رائدة عبر مهام التعرف على الكلام المتنوعة
يحقق نموذج Qwen3-ASR-1.7B نتائج متقدمة بين أنظمة المصدر المفتوح، متفوقًا على واجهات برمجة التطبيقات التجارية ونماذج المصدر المفتوح الأخرى في التعرف على اللغة الإنجليزية والمتعددة اللغات واللهجات الصينية، بما في ذلك كانتونية و22 لهجة إقليمية
يحافظ على دقة موثوقة في ظروف صوتية صعبة، مثل بيئات منخفضة إشارة إلى ضوضاء، كلام الأطفال أو كبار السن، وحتى نسخ صوت الغناء، محققًا معدلات خطأ في الكلمات بمعدل 13.91% في الصينية و14.60% في الإنجليزية مع الموسيقى الخلفية.
يوازن النموذج الأصغر Qwen3-ASR-0.6B بين الدقة والكفاءة، موفرًا إنتاجية عالية وزمن استجابة منخفض تحت تزامن عالي، قادر على نسخ ما يصل إلى خمس ساعات من الكلام في وضع غير متزامن عبر الإنترنت عند تزامن 128
وفي الوقت نفسه، يتفوق نموذج Qwen3-ForcedAligner-0.6B على نماذج المحاذاة القسرية الشاملة الرائدة بما في ذلك Nemo-Forced-Aligner وWhisperX وMonotonic-Aligner، مقدمًا تغطية لغوية متفوقة، دقة الطوابع الزمنية، ودعم لمختلف أطوال الكلام والصوت.