Повідомлення з Coinjie.com, команда Qwen відкрила вихідний код FlashQLA — набір високопродуктивних операторів для GDN (gated delta network, лінійний рівень уваги, що використовується у всій серії Qwen3-next / 3.5 / 3.6). У реальних тестах на H200 швидкість переднього проходу перевищує швидкість ядра Fla Triton у 2-3 рази, а швидкість зворотного проходу — у 2 рази. У сценарії TP8 максимальна швидкість переднього проходу досягає 5.33 разів. Основною причиною прискорення є використання властивості експоненційного згасання керуючих значень GDN для автоматичного паралелізму контексту (autocp), що дозволяє пропустити етап обчислення коригувальної матриці, характерний для традиційних методів. Система автоматично визначає, чи активувати CP залежно від розміру пакету, кількості голів і довжини послідовності, без необхідності ручної настройки.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити