Esta IA Frankenstein combina Claude Opus, GLM y Qwen—Y supera a los modelos principales

En resumen

  • El ingeniero de IA Kyle Hessling fusionó dos de los finetunes de Jackrong, Claude Opus 4.6 y GLM-5.1 destilados, en una sola “frankenmerge.”
  • Se requirió un “ajuste fino de curación” post-fusión para corregir la salida de código confusa causada por la frontera de capas entre los dos modelos entrenados de forma independiente.
  • El modelo sobre-raciocina en algunas tareas, pero es un problema que tiene solución.

¿Pensaste que Qwopus era genial porque fusionaba Qwen y Opus? Bueno, Kyle Hessling, un ingeniero de IA con mucho conocimiento y tiempo libre, simplemente tomó esa receta y añadió a la mezcla a GLM—uno de los mejores modelos de razonamiento—. El resultado es una frankenmerge de 18 mil millones de parámetros que cabe en una GPU barata y supera al nuevo modelo de 35B de Alibaba. Para quienes no lo saben, los parámetros son los valores numéricos integrados en una red neuronal durante el entrenamiento, como perillas que la red puede ajustar —cuantos más, más conocimiento y complejidad puede manejar el modelo, y más memoria necesita para funcionar. Hessling, ingeniero de infraestructura de IA, apiló dos de los finetunes de Jackrong, Qwen3.5, uno sobre otro: capas 0 a 31 de Qwopus 3.5-9B-v3.5, que destila el estilo de razonamiento de Claude 4.6 Opus en Qwen como modelo base, y capas 32 a 63 de Qwen 3.5-9B-GLM5.1-Distill-v1, entrenado con datos de razonamiento del modelo maestro GLM-5.1 de z.AI sobre la misma base de Qwen.

La hipótesis: Darle al modelo planificación estructurada estilo Opus en la primera mitad del razonamiento y el andamiaje de descomposición de problemas de GLM en la segunda—64 capas en total, en un solo modelo.  La técnica se llama frankenmerge de paso directo—sin mezclas, sin promediar pesos, solo apilamiento de capas en crudo. Hessling tuvo que escribir su propio script de fusión desde cero porque las herramientas existentes no soportan la arquitectura híbrida de atención lineal/completa de Qwen 3.5. El modelo resultante pasó 40 de 44 pruebas de capacidad, superando a Qwen 3.6-35B-A3B MoE de Alibaba—que requiere 22 GB de VRAM—mientras funcionaba con solo 9.2 GB en cuantización Q4_K_M. Una NVIDIA RTX 3060 lo maneja bien… en teoría.

Hessling explica que hacer este modelo no fue fácil. La fusión en crudo solía generar código confuso. Pero aun así, los modelos de prueba que publicó se volvieron algo virales entre los entusiastas. La última corrección de Hessling fue un “ajuste fino de curación”—básicamente un QLoRA (un poco de código que se incrusta en el modelo como un apéndice y condiciona fuertemente la salida final ), enfocándose en toda la atención y proyecciones. Lo probamos, y aunque la idea de tener a Qwen, Claude Opus y GLM 5.1 corriendo localmente en nuestro hardware modesto es muy tentadora, en realidad encontramos que el modelo es tan bueno razonando que termina sobrepensando. Lo probamos en un MacBook M1 con una versión cuantizada de MLX (un modelo optimizado para Macs). Cuando se le pidió generar nuestro juego de prueba habitual, la cadena de razonamiento fue tan larga que alcanzó el límite de tokens y nos dio un largo razonamiento sin un resultado funcional en una interacción de cero disparos. Eso es un obstáculo para el uso diario para cualquiera que quiera correr esto localmente en hardware de consumo para aplicaciones serias. Nos suavizamos un poco y aún así fue desafiante. Una simple instrucción de “escribe un juego de Snake” tomó más de 40 minutos en razonamiento… mucho de ello.

Puedes ver los resultados en nuestro repositorio de Github. Esta es una tensión conocida en la línea de Qwopus: las finetunes v2 de Jackrong fueron creadas para abordar la tendencia de Qwen 3.5 a bucles internos repetitivos y a “pensar de manera más económica.” Apilar 64 capas de dos destilados de razonamiento parece amplificar ese comportamiento en ciertos prompts.

Es un problema que tiene solución, y la comunidad de código abierto probablemente lo resolverá. Lo que importa aquí es el patrón más amplio: un desarrollador pseudónimo publica finetunes especializados con guías de entrenamiento completas, otro entusiasta los apila con un script personalizado, realiza 1,000 pasos de curación, y obtiene un modelo que supera a un lanzamiento de 35 mil millones de parámetros de uno de los laboratorios de IA más grandes del mundo. Todo cabe en un archivo pequeño. Esto es lo que hace que el código abierto valga la pena: no solo los grandes laboratorios lanzando pesos, sino las soluciones capa por capa, la especialización que sucede bajo el radar. La brecha entre un proyecto de fin de semana y un despliegue de frontera se acorta cuanto más desarrolladores se unen a la comunidad. Desde entonces, Jackrong ha replicado el repositorio de Hessling, y el modelo ha acumulado más de tres mil descargas en sus primeras dos semanas de disponibilidad.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado