Mensaje de Gate News, 24 de abril — DeepSeek ha lanzado la serie V4 de modelos de código abierto bajo la Licencia MIT, con pesos ahora disponibles en Hugging Face y ModelScope. La serie incluye dos modelos (MoE) de mezcla de expertos: V4-Pro con 1,6 billones de parámetros totales y 49 mil millones activados por token, y V4-Flash con 284 mil millones de parámetros totales y 13 mil millones activados por token. Ambos admiten una ventana de contexto de 1 millón de tokens.
La arquitectura presenta tres mejoras clave: un mecanismo de atención híbrida que combina atención dispersa comprimida (CSA) y atención altamente comprimida (HCA) que reduce significativamente la sobrecarga para contextos largos: los FLOPs de inferencia para 1M de contexto de V4-Pro son solo el 27% de los de V3.2, y la caché KV (VRAM para almacenar información histórica durante la inferencia) es solo el 10% de la de V3.2; enlaces hiperconectados con restricción de manifold (mHC) que reemplazan las conexiones residuales tradicionales para mejorar la estabilidad de la propagación de señales entre capas; y el optimizador Muon para una convergencia de entrenamiento más rápida. El preentrenamiento utilizó más de 32 billones de tokens de datos.
El postentrenamiento emplea un enfoque de dos etapas: primero, entrenar expertos específicos del dominio mediante fine-tuning supervisado (SFT) y aprendizaje por refuerzo con GRPO, luego fusionarlos en un único modelo mediante destilación en línea. V4-Pro-Max (modo de inferencia más alto) afirma ser el modelo de código abierto más potente, con puntos de referencia de codificación de nivel superior y brechas significativamente reducidas frente a modelos de frontera de código cerrado en tareas de razonamiento y de agentes. V4-Flash-Max logra un rendimiento de razonamiento a nivel Pro con un presupuesto de cómputo suficiente, pero se ve limitado por la escala de parámetros en conocimiento puro y tareas de agentes complejas. Los pesos se almacenan en precisión mixta FP4+FP8.
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el
Aviso legal.
Artículos relacionados
Reino Unido pone sus ojos en la IA de Anthropic para reforzar la ciberseguridad bancaria
El Reino Unido está explorando un paso importante en la ciberseguridad financiera trabajando con la empresa de IA Anthropic. Las primeras conversaciones sugieren que el gobierno podría desplegar el avanzado modelo Claude Mythos de Anthropic en bancos e instituciones financieras. Este movimiento tiene como objetivo mejorar las defensas ante las amenazas cibernéticas
CryptometerIoHace1m
La Oficina de PI de China añade IA, semiconductores e interfaces cerebro-computadora al programa de protección acelerada
Mensaje de Gate News, 24 de abril — La Administración Nacional de Propiedad Intelectual de China anunció el 24 de abril que establecerá una protección integral de la propiedad intelectual para tecnologías emergentes mediante reformas institucionales, servicios mejorados y aplicaciones ampliadas. La administración wi
GateNewsHace8m
Almirante Indica que el Gobierno de EE. UU. Opera un Nodo de Bitcoin sin Minería
Un almirante superior ha indicado que el Gobierno de EE. UU. está operando activamente un nodo en la red de Bitcoin, mientras evita deliberadamente participar en actividades de minería. El anuncio sugiere que las autoridades están asumiendo un papel más involucrado en la infraestructura de blockchain para la supervisión y
CryptoFrontierHace24m
Los ingresos del 1T de Tesla suben 16% hasta $22.4B; se planea el debut del robot humanoide para mediados de 2026
Mensaje de Gate News, 24 de abril — Tesla informó unos ingresos del primer trimestre de US$22.4 mil millones el 23 de abril, lo que representa un aumento del 16% interanual. Las entregas globales de vehículos de la compañía superaron las 358,000 unidades, mientras que la producción superó las 408,000 unidades.
La Gigafábrica de Tesla en Shanghái entregó 213,000 vehí
GateNewsHace24m
El beneficio de SK Hynix en el 1T se dispara cinco veces hasta un récord con el auge de la IA, impulsando las primas para empleados a $878K
Mensaje de Gate News, 24 de abril — SK Hynix informó de un aumento de cinco veces en la utilidad operativa trimestral, hasta un récord de 37,61 billones de won ($32,4 mil millones) el 23 de abril, impulsado por el fuerte crecimiento de la demanda de inteligencia artificial y centros de datos. El inesperado beneficio está impulsando primas para empleados sin precedentes, que los analistas prevén podrían llegar hasta $878.000 por empleado en 2027 si se mantienen las previsiones actuales de ganancias.
GateNewshace1h
Arquitectura de DeepSeek V4 verificada: 3 de 4 predicciones acertaron, no aparece el módulo Engram
Mensaje de Gate News, 24 de abril — DeepSeek lanzó hoy la ficha del modelo V4, validando predicciones arquitectónicas anteriores realizadas mediante el análisis de la biblioteca de kernels TileKernels lanzada ayer (23 de abril). Según el monitoreo de Beating, se confirmaron tres componentes principales: mHC
GateNewshace1h