
OpenAI lanzó GPT-5.3-Codex, el primer modelo que “participa en la autocreación” para depurar su propio código, gestionar el despliegue y diagnosticar pruebas. Karpathy calificó la revisión como “la más cercana a la escena de despegue de la IA.”
Se ha publicado oficialmente la cuenta oficial de OpenAI: GPT-5.3-Codex, que es “el primero en participar en la creación de tu propio modelo”. ¿Qué significa? En otras palabras, durante el proceso de desarrollo, esta IA ayudó a depurar su propio código de entrenamiento, gestionar su propio proceso de despliegue y diagnosticar sus propios resultados de prueba. En términos humanos, la IA ha empezado a crear IA.
Andrej Karpathy, un exinvestigador de OpenAI y director de IA de Tesla, tuiteó justo después de leerlo: “Esto es lo más parecido que he visto a una escena de despegue de IA en la ciencia ficción.” Esta valoración de los principales investigadores en IA es importante porque Karpathy ha experimentado personalmente varias etapas clave del desarrollo de la IA, y su juicio se basa en un profundo conocimiento técnico.
La IA se repite a sí misma, esto no es retórica de marketing. Según la divulgación interna de OpenAI, GPT-5.3-Codex hizo estas cosas durante el proceso de desarrollo: analizar pruebas que no detectaron registros de entrenamiento, sugerir correcciones para scripts y perfiles de entrenamiento, generar recetas de despliegue y resumir y evaluar anomalías para revisión humana. ¿Qué significa esto? La IA ya no es solo una herramienta, está empezando a formar parte del equipo de desarrollo, y es del tipo que puede mejorarse a sí misma.
Esta capacidad de participar en el desarrollo supera la posición tradicional de la IA. En el pasado, los modelos de IA eran diseñados, entrenados y desplegados íntegramente por humanos, y la IA era un producto pasivo. Ahora GPT-5.3 ha desempeñado un papel activo en su propio nacimiento y, aunque sigue bajo supervisión humana, este cambio de rol tiene implicaciones de gran alcance. Sugiere una posibilidad: los futuros modelos de IA podrían ser en gran medida diseñados y optimizados por la propia IA, con los humanos proporcionando solo dirección y revisión final.
Analizar registros de entrenamiento: Señalar automáticamente las pruebas fallidas para identificar anomalías durante el entrenamiento
Plan de reparación recomendado: Sugiero mejoras en los scripts y perfiles de entrenamiento
Generar la receta de despliegue: Automatizar el proceso de despliegue y reducir las operaciones manuales
Anomalía de evaluación resumida: Organizar resultados complejos de evaluaciones en informes comprensibles para las personas
Un artículo reciente de SEAL publicado por el MIT (arXiv:2506.10943) describe una arquitectura de IA que aprende continuamente tras el despliegue, evolucionando sin reentrenamiento. Cabe destacar que algunos investigadores de SEAL se han unido ahora a OpenAI. Esto significa que la IA ha pasado de ser una “herramienta estática” a un “sistema dinámico”, el aprendizaje ya no se detiene en el despliegue y los límites entre inferencia y entrenamiento se están desvaneciendo. GPT-5.3 podría ser la primera aplicación comercial de esta nueva arquitectura.
El 5 de febrero, OpenAI y Anthropic lanzaron una nueva generación de modelos con solo 20 minutos de diferencia. Primero, Anthropic lanzó Claude Opus 4.6, y luego OpenAI lanzó GPT-5.3-Codex. Como OpenAI quiere usar GPT-5.3-Codex para disparar a los nuevos modelos de otros, debe tener alguna capacidad. Los datos no mienten, GPT-5.3-Codex estableció nuevos récords en múltiples benchmarks del sector tan pronto como se lanzó.
Terminal-Bench 2.0 pone a prueba las capacidades operativas de la IA en un entorno terminal real, compilando código, entrenando modelos y configurando servidores. GPT-5.3-Codex obtuvo un 77,3%, mientras que GPT-5.2-Codex solo obtuvo un 64,0% y Claude Opus 4.6 reportó un 65,4%. Esto supone un aumento de 13 puntos porcentuales entre generaciones, lo que ya supone un gran avance en el campo de la IA. La comparación entre el 77,3% y el 65,4% muestra que GPT-5.3 establece una ventaja significativa en tareas de ingeniería del mundo real.
SWE-Bench Pro es un benchmark diseñado específicamente para probar capacidades reales de ingeniería de software, que abarca cuatro lenguajes de programación: Python, JavaScript, Go y Ruby. GPT-5.3-Codex obtuvo un 56,8%, superando el 56,4% de su predecesor, GPT-5.2-Codex, y mantuvo su primer puesto en la industria. Más importante aún, OpenAI reveló que GPT-5.3-Codex utiliza el menor número de tokens de salida de cualquier modelo cuando alcanza esta puntuación, lo que significa que no solo es preciso sino también eficiente.
OSWorld-Verified evalúa la capacidad de la IA para completar tareas productivas en un entorno de escritorio visual, editando hojas de cálculo, creando presentaciones, trabajando en documentos y más. GPT-5.3-Codex obtuvo un 64,7%, frente a la media humana del 72%. Esto significa que ha alcanzado el rendimiento de la gente común en tareas de operación informática, casi duplicando respecto a su predecesor. Este rendimiento casi humano hace que la IA sea realmente capaz de trabajar en la oficina por primera vez, en lugar de ser solo una herramienta auxiliar.
Lo que resulta aún más destacable es que Claude Opus 4.6 soporta por primera vez una ventana de contexto de token (beta) de 100K en el modelo a nivel Opus, que puede procesar toda la base de código o cientos de páginas de documentos a la vez, y lanzó la función Agent Teams, donde varios agentes de IA pueden colaborar en la programación, prueba y escritura de documentos al mismo tiempo.
Cuando OpenAI y Anthropic lanzan sus modelos insignia el mismo día y en el mismo momento, ¿esta competición ya no es solo una competición técnica, sino una batalla por la futura configuración de la IA: la ruta de “autoevolución” de OpenAI o la ruta de “colaboración multiagente” de Anthropic? La estrategia de OpenAI es hacer que una sola IA sea más poderosa e incluso mejorarse a sí misma. La estrategia de Anthropic es permitir que múltiples IAs colaboren en tareas complejas mediante la división del trabajo y la colaboración.
El contexto de los tokens de 100K es un avance tecnológico. Esto equivale a unos 75 millones de palabras en inglés o 300 caracteres chinos, lo que es suficiente para caber en todo el código de un proyecto de software de tamaño medio o en una documentación técnica densa. Esta capacidad permite a Claude “ver” el proyecto completo en lugar de una comprensión fragmentaria. Para el análisis y refactorización de arquitectura de proyectos a gran escala, esta visión global es crucial.
Agents Teams aporta el concepto de colaboración a la IA. Un Agente escribe código, otro prueba y un tercero escribe documentación, y pueden comunicarse y coordinarse entre sí. Este patrón imita cómo funcionan los equipos humanos de software y puede ser más adecuado para ciertos escenarios que una sola superIA. Sin embargo, la colaboración multiagente también introduce nuevas complejidades: cómo coordinar, cómo evitar conflictos y cómo garantizar la coherencia.
Ambas rutas tienen sus ventajas y desventajas. La vía de autoevolución de OpenAI es más agresiva y, si tiene éxito, puede llevar a mejoras exponenciales en las capacidades, pero también podría descontrolarse. La ruta multiagente de Anthropic es más conservadora, reduciendo el punto único de riesgo al distribuir capacidades, pero los costes de coordinación pueden limitar la eficiencia. A medida que la IA empieza a evolucionar en la naturaleza, las preguntas sobre gobernanza pasarán de “qué tan inteligente es” a “¿cómo gestionamos un sistema que está en constante cambio?” Y cuando dos grandes empresas de IA lanzan modelos revolucionarios seguidos en menos de 20 minutos, la ventana de tiempo restante para el pensamiento y la preparación humana se está reduciendo a una velocidad visible a simple vista.
Artículos relacionados
Bitcoin cae por debajo de $64K en medio de tensiones en Oriente Medio
¿La IA podría convertirse en una bomba de tiempo? CEO de JPMorgan: La situación actual del mercado es como "antes de la crisis financiera de 2008"
70% de los activos en Bitcoin! El magnate mexicano dice "aprovecha las rebajas y compra", y el papá rico también aumenta su inversión
Anterior CIO de Credit Suisse: durante el fin de semana, el oro tokenizado en la CME asume "casi el 100% de la formación de precios"
Irán bloquea el estrecho de Hormuz, el precio del petróleo podría superar los 100 dólares, ¿la bolsa de Taiwán abrirá el lunes con caídas?
Morgan Stanley se prepara para lanzar un banco de criptomonedas regulado