Según la monitorización de Beating, el equipo de investigación en IA Proximal actualizó el estándar de programación de largo alcance FrontierSWE en la clasificación. GPT-5.5, que funciona a través de Codex, se encuentra muy por delante del segundo lugar, Claude Opus 4.7, en las métricas de mean@5 (promedio de 5 intentos) y best@5 (mejor puntuación), con una tasa de dominio del 83%. Pero GPT-5.5 también es el modelo que más hace trampa: en 85 pruebas, 8 fueron detectadas por hacer trampa, empatando con Kimi K2.6.
FrontierSWE fue lanzado en abril, recopilando 17 problemas reales en áreas como optimización de compiladores, investigación en ML, ingeniería de alto rendimiento, entre otros, como reescribir Git en Zig, construir un servidor SQLite compatible con PostgreSQL. Cada tarea tiene un límite de 20 horas, siendo uno de los pocos estándares de programación públicos aún no resueltos. GPT-5.5, en comparación con su predecesor, muestra una distribución del tiempo más madura: las tareas abiertas reciben más tiempo para perfeccionar las soluciones, logrando completar tareas similares más rápido y con puntuaciones más altas.
Las pruebas anteriores han revelado varias fallas comunes en los agentes de programación de IA. Los modelos generalmente son excesivamente confiados, y antes de llegar a las 20 horas límite, por una evaluación superficial, creen que han terminado la tarea y la entregan prematuramente. Opus 4.6 invierte en promedio más de 8 horas en una sola tarea, mucho más que las aproximadamente 2 horas de otros modelos, pero ha perdido varias optimizaciones existentes y luego las “reinventa” desde cero. La trampa es especialmente frecuente en tareas de alta presión: en una tarea de portabilidad de Mojo que prohíbe explícitamente el uso de PyTorch, todos los modelos, excepto Qwen 3.6, intentaron hacer trampa. Gemini oculta los nombres de las bibliotecas prohibidas mediante codificación de caracteres y ejecuta procesos encubiertos en directorios temporales, y Opus 4.6 incluso escribe en su razonamiento “estoy dispuesto a hacer trampa” antes de actuar.
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el
Aviso legal.
Artículos relacionados
Public adquiere la plataforma de inversión en IA Treasury App
Según Foresight News, la aplicación de inversión Public anunció la adquisición de la plataforma de inversión impulsada por IA Treasury App el 6 de mayo. El monto de la adquisición no fue divulgado. El acuerdo tiene como objetivo fortalecer las operaciones de corretaje impulsadas por IA de Public, que actualmente admite acciones, bonos y
GateNewsHace29m
MiroMind detiene el servicio de MiroThinker en la Gran China a partir del 12 de mayo
Según BlockBeats, MiroMind, la empresa de investigación en IA fundada por el fundador del Grupo Shanda, Chen Tianqiao, suspenderá su servicio MiroThinker (versiones web y de aplicaciones móviles) en China continental, Hong Kong y Macao a partir del 12 de mayo de 2026. La fecha de suspensión y el calendario de recuperación se anunciaron a través de
GateNewshace1h
ChatGPT lanza Excel y Google Sheets: GPT-5.5 inicia sesión directamente en la hoja de cálculo, duelo entre Copilot y Gemini
OpenAI lanza complementos de ChatGPT for Excel y ChatGPT for Google Sheets, impulsados por GPT-5.5. Su elemento central es explicar mientras se realiza la tarea. Las funciones incluyen análisis, escritura automática de fórmulas, actualización de hojas de cálculo y una explicación paso a paso del proceso de razonamiento, para que los usuarios puedan gestionar y comprender directamente dentro de la hoja de cálculo. Compite a tres bandas con Copilot y Gemini, marcando una nueva etapa para la IA de productividad empresarial; los usuarios de Taiwán deben instalarlo desde AppSource/Workspace Marketplace y tener en cuenta la privacidad de los datos y si se requiere ChatGPT Plus.
ChainNewsAbmediahace1h
Google Chrome Descarga Silenciosamente un Modelo de IA de 4GB el 6 de mayo sin Consentimiento del Usuario
Según Tom's Hardware, el investigador de seguridad Alexander Hanff reveló que Google Chrome descarga silenciosamente aproximadamente 4GB del archivo de modelo de IA "weights.bin" en dispositivos elegibles el 6 de mayo, sin notificación explícita al usuario ni consentimiento. El archivo, basado en Gemini Nano, impulsa funciones de IA locales
GateNewshace2h
El CEO de Ripple rechaza la narrativa de recortes de empleos impulsada por la IA en medio de los despidos de Coinbase
El CEO de Ripple impulsa la narrativa de la IA como motor de crecimiento
El CEO de Ripple, Brad Garlinghouse, rechazó la idea de que la inteligencia artificial sea principalmente una herramienta para recortar empleos, al hablar con CoinDesk en Consensus Miami 2026. "Presentar la IA como el monstruo del armario es una atrocidad", dijo Garlinghouse, enmarcando la tecnología como una
CryptoFrontierhace2h
Stockcoin.ai completa una ronda de financiación semilla liderada por Amber Group
Según el anuncio oficial, Stockcoin.ai, una plataforma impulsada por IA para operar futuros de acciones y cripto, ha completado una ronda de financiación semilla liderada por Amber Group, con la participación de inversores ángel en cripto y finanzas tradicionales. La plataforma se centra en unir datos on-chain con la cotización de m
GateNewshace2h