Recientemente, la nueva favorita en chips de IA que presentaron IPO, Cerebras, ha causado revuelo en Silicon Valley.


Su chip, en escenarios de modelos pequeños, puede alcanzar velocidades de inferencia hasta 20 veces superiores a las del H100; mientras que para modelos de escala ultra grande (como de 400 mil millones de parámetros), la velocidad de respuesta de un sistema Cerebras CS-3 para un solo usuario es aproximadamente 2.4 veces la de B200.
Entonces, ¿cómo logra Cerebras esto exactamente? ¿Se convertirá en un asesino de Nvidia?
Debemos comenzar desde la esencia de la evolución del poder de cálculo.
La evolución del poder de cálculo en IA está cambiando de “el poder en sí mismo” a “la comunicación y la estructura del sistema”. En esta trayectoria evolutiva, Cerebras Systems ofrece una respuesta completamente diferente: no optimizar la distribución, sino eliminarla lo más posible.
一、Dos caminos: eliminar la comunicación vs optimizar la comunicación
Actualmente, la esencia del poder de cálculo en IA se divide en dos filosofías arquitectónicas: una representada por NVIDIA:
Múltiples chips (GPU), interconexión de alta velocidad (NVLink / CPO), escalado horizontal (scale-out)
Otra es la ruta de Cerebras: lograr el límite con un solo chip (wafer-scale)
Red interna en el chip en lugar de comunicación entre nodos, escalado vertical (scale-up)
La diferencia clave es: una se centra en “cómo conectar más chips”, la otra en “cómo no necesitar conectar”.
二、¿Por qué esta vía solo ahora es viable?
Wafer-scale no es un concepto nuevo; en los años 80 ya se intentó, pero fracasó en la comercialización en los 90. Las razones son:
Baja tasa de fabricación aceptable
Falta de mecanismos de tolerancia a fallos
Software incapaz de soportarlo
Por ello, la industria llegó a un consenso: pequeños dies + alta tasa de éxito + distribución.
El avance de Cerebras radica en que tres cosas se cumplen simultáneamente:
1) Ingeniería de mecanismos de tolerancia a fallos
2) Madurez de la red en el chip
3) Adecuación a cargas de trabajo de IA (alta paralelización, sincronización fuerte, comunicación dominante)
El cambio esencial es: de “hardware perfecto” a “sistema tolerante a fallos”.
三、Comparación de rendimiento: límite de un solo punto vs expansión del sistema
En la capa de comunicación, las ventajas y desventajas de los dos caminos son muy claras:
1) Comunicación interna en el chip
Cerebras: solo dentro del chip → menor latencia, menor consumo de energía
CPO: aún requiere conversión óptico-electrónica
→ Eficiencia en un solo punto: mejor Cerebras
2) Expansión del sistema
Cerebras: una vez que cruza el chip → vuelve a la problemática de comunicación
CPO: ancho de banda puede expandirse de forma sostenible
→ Capacidad del sistema: mejor CPO
3) Estructura de consumo energético
Cerebras: consumo muy alto en una sola máquina, pero comunicación muy eficiente
GPU+CPO: consumo en un solo punto controlado, eficiencia del sistema más equilibrada
La conclusión es clara:
Cerebras gana en “límite de máquina individual”,
CPO gana en “escala del sistema”.
四、Escenarios de aplicación: quién debería usar Cerebras
Los criterios de decisión pueden simplificarse en tres preguntas:
1) ¿Es la comunicación un cuello de botella?
2) ¿La tarea puede concentrarse?
3) ¿La estructura es regular?
Por ello, es muy adecuado para entrenamiento de modelos grandes (modelos densos), contextos largos, y parte de HPC (Ecuaciones en Derivadas Parciales, fluidos, etc.)
Estas tareas comparten: acoplamiento fuerte + alta sincronización + alto ancho de banda.
También es parcialmente útil para inferencia de modelos grandes (baja concurrencia), cálculo de grafos (cuando la estructura es compleja, la ventaja disminuye).
No es adecuado para CPU (cálculo general), inferencia de alta concurrencia, chips móviles/edge, sistemas en tiempo real.
Estos sistemas comparten: estructura irregular / alta concurrencia / baja latencia.
五、¿Se convertirá en la corriente principal?
Aunque Cerebras es muy fuerte en escenarios específicos, no será la vía principal, por las siguientes razones:
1) Restricciones físicas: densidad de potencia; latencia de señal → la tolerancia a fallos no puede resolver estos problemas.
2) Economía: menor tasa de fallos en dies pequeños; chiplet más flexible.
3) Ruta industrial: TSMC y otros prefieren la modularidad, reutilización por múltiples clientes en lugar de monolitos ultra grandes.
4) Cambios en la demanda: la proporción de inferencia supera ampliamente a la de entrenamiento; tareas múltiples y alta concurrencia se vuelven la norma.
六、El significado de Cerebras
En lugar de que el tamaño wafer-scale sea una tendencia importante, es más bien la filosofía de diseño tolerante a fallos la que será ampliamente adoptada.
En el futuro, podrían aparecer tolerancias a fallos a nivel de chiplet, o soluciones a nivel de encapsulado.
El cambio central es que el hardware individual ya no necesita ser perfecto, y el sistema se encargará de garantizar la fiabilidad.
Volviendo a la pregunta inicial: ¿Cerebras será un “asesino” de Nvidia?
La respuesta ya es bastante clara.
De hecho, ha tocado una debilidad del sistema GPU: la comunicación. Pero la industria no elige entre una u otra, sino que adopta múltiples avances tecnológicos simultáneamente: conexiones más fuertes, menor consumo en comunicación, mayor eficiencia a nivel de sistema.
Por lo tanto, una evaluación más precisa es que Cerebras no es un asesino de Nvidia, sino la mejor práctica que Nvidia y todas las empresas de chips pueden aprender.
Aviso legal: Poseo los activos mencionados en el texto, por lo que mis opiniones pueden ser parciales. No constituyen consejo de inversión. La inversión conlleva riesgos enormes; se debe proceder con extrema cautela.
(Imagen: un chip Cerebras)
Ver originales
post-image
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado