Nouvelles de Gate News, le 10 avril, aujourd’hui la plateforme d’évaluation d’IA de référence à l’échelle mondiale LMArena (plateforme d’évaluation de modèles d’IA basée sur des tests à l’aveugle, avec des millions d’utilisateurs participants) met à jour le classement spécialisé Code Arena : GLM-5.1 prend la première place mondiale des modèles open source et se classe troisième au niveau mondial des modèles.
GLM-5.1 reprend non seulement la capacité de codage open source SOTA de la génération précédente, mais réalise aussi une percée sur les tâches à long terme (Long-Horizon Task), en atteignant : construire un bureau Linux depuis zéro en 8 heures ; 655 itérations pour briser le goulot d’étranglement de l’optimisation des bases de données vectorielles ; et 1000 tours d’appels d’outils pour optimiser la charge de modèles d’apprentissage automatique réels.
À noter : dans les mêmes critères d’évaluation du tableau METR, GLM-5.1 est le seul modèle open source à atteindre un niveau de travail continu de 8 heures, et c’est aussi l’un des rares modèles dans le monde, en dehors de Claude Opus 4.6, à posséder cette capacité.