OpenAI ha aclarado de dónde proviene el "Goblin": una señal de recompensa de carácter contaminó toda la línea de entrenamiento

Según el monitoreo de Beating, OpenAI publicó un análisis retrospectivo del problema de los «goblins» que ha afectado a varias generaciones de la serie GPT. Desde GPT-5.1, el modelo ha comenzado a incluir cada vez más metáforas de criaturas fantásticas como goblins y duendecillos en sus respuestas, lo que ha generado constantes quejas de los usuarios. Después del lanzamiento de GPT-5.1, la frecuencia de aparición de la palabra «goblin» en las conversaciones con ChatGPT aumentó un 175%. Para GPT-5.4, el problema explotó completamente.

La raíz del problema radica en la función de personalización de la personalidad «Nerdy» de ChatGPT. La instrucción del sistema para esta personalidad exige que el modelo «use el interés en el lenguaje para aliviar la seriedad» y «reconozca lo extraño del mundo y lo disfrute». Durante el entrenamiento, la señal de recompensa que refuerza este estilo de personalidad favoreció las salidas que contenían vocabulario de criaturas fantásticas, observándose esta tendencia en el 76.2% de los conjuntos de datos.

El problema es que la señal de recompensa solo funciona bajo la personalidad «Nerdy», pero el aprendizaje por refuerzo no garantiza que los comportamientos aprendidos permanezcan solo en esas condiciones. Una vez que el modelo recibe recompensas por cierto hábito de expresión en una condición, ese hábito puede difundirse a otros escenarios durante el entrenamiento posterior. La ruta de difusión es clara: la señal de recompensa fomenta salidas con goblins, estas aparecen en los datos de ajuste fino supervisado (SFT), y el modelo se acostumbra cada vez más a producir ese tipo de palabras, creando un ciclo de retroalimentación positiva. En los datos, la personalidad «Nerdy» representa solo el 2.5% de todas las respuestas de ChatGPT, pero contribuye con el 66.7% de las menciones a goblins. En GPT-5.4, la tasa de aparición de goblins en la personalidad «Nerdy» aumentó un 3881% en comparación con GPT-5.2.

Antes de identificar la causa raíz, GPT-5.5 ya había comenzado su entrenamiento, y los goblins se infiltraron en los datos de SFT. En marzo, OpenAI eliminó la personalidad «Nerdy», retiró la señal de recompensa que favorecía criaturas fantásticas y filtró los datos de entrenamiento. Para los GPT-5.5 ya en línea, se añadieron instrucciones de inhibición en las instrucciones para desarrolladores de Codex. OpenAI afirma que esta investigación ha dado lugar a un conjunto de nuevas herramientas para la auditoría del comportamiento del modelo.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado