DeepSeek опублікував новий науковий документ під авторством Лян Веньфена: запропоновано нову архітектуру mHC для підвищення стабільності тренування великих моделей

PANews 1 січня повідомляє, що за даними Jin10, DeepSeek опублікувала нову статтю, у якій запропоновано нову архітектуру під назвою Маніфольд Обмежень Надзвичайно Зв’язків (mHC), спрямовану на вирішення проблем нестабільності тренування та обмеженої масштабованості технології Надзвичайно Зв’язків (HC), викликаних руйнуванням властивості ідентичної відображення. Ця архітектура шляхом відображення простору залишкових з’єднань HC на певний маніфольд відновлює властивість ідентичного відображення, одночасно поєднуючи строгі оптимізації інфраструктури для забезпечення ефективності, досягає значних покращень у продуктивності та високої масштабованості. DeepSeek прогнозує, що mHC як гнучке та практичне розширення HC допоможе глибше зрозуміти топологічний дизайн архітектури та окреслить перспективні напрямки для еволюції базових моделей. Ця стаття спільно написана Жендою Сіє (解振达), Вей Ісюань (韦毅轩), Хуанці Цао (曹欢奇) у ролі перших авторів, а Веньфен Лян також входить до списку авторів.

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів