En algún lugar entre el artículo que estás leyendo y el anuncio al lado, se libra una guerra silenciosa por captar tu atención visual. La mayoría de los anuncios en pantalla pierden efectividad porque a la gente simplemente no le gustan los anuncios—tanto que grandes empresas tecnológicas como Perplexity o Anthropic están tratando de alejarse de esas cargas invasivas, buscando mejores modelos de monetización. Pero una nueva herramienta de IA de investigadores de la Universidad de Maryland y la Universidad de Tilburg quiere cambiar eso—prediciendo, con una precisión inquietante, si realmente mirarás un anuncio antes de que alguien se moleste en colocarlo allí. La herramienta se llama AdGazer, y funciona analizando tanto el anuncio en sí como el contenido de la página web que lo rodea—y luego pronosticando cuánto tiempo un espectador típico mirará el anuncio y su logotipo de marca, basándose en datos históricos extensos de investigación publicitaria.
El equipo entrenó el sistema con datos de seguimiento ocular de 3,531 anuncios digitales en pantalla. Personas reales usaron equipos de seguimiento ocular, navegaron por páginas, y se registraron sus patrones de mirada. AdGazer aprendió de todo ello. Cuando se probó en anuncios que nunca había visto antes, predijo la atención con una correlación de 0.83—lo que significa que sus pronósticos coincidieron con los patrones de mirada humana reales aproximadamente el 83% del tiempo. A diferencia de otras herramientas que se centran en el propio anuncio, AdGazer lee toda la página a su alrededor. Un artículo de noticias financieras junto a un anuncio de reloj de lujo funciona de manera diferente que ese mismo anuncio de reloj junto a un marcador de resultados deportivos. El contexto circundante, según el estudio publicado en el Journal of Marketing, representa al menos el 33% de la atención que recibe un anuncio—y alrededor del 20% del tiempo que los espectadores miran específicamente la marca. Eso es muy importante para los mercadólogos, que durante mucho tiempo asumieron que la creatividad en sí misma hacía todo el trabajo pesado.
El sistema utiliza un modelo de lenguaje grande multimodal para extraer temas de alto nivel tanto del anuncio como del contenido de la página circundante, y luego determina qué tan bien coinciden semánticamente—básicamente, el anuncio en sí frente al contexto en el que se coloca. Estas incrustaciones temáticas alimentan un modelo XGBoost, que las combina con características visuales de nivel inferior para producir una puntuación final de atención. Los investigadores también crearon una interfaz, Gazer 1.0, donde puedes subir tu propio anuncio, dibujar cuadros delimitadores alrededor de la marca y elementos visuales, y obtener un tiempo de mirada predicho en segundos—junto con un mapa de calor que muestra qué partes de la imagen el modelo cree que atraerán más atención. Funciona sin necesidad de hardware especializado, aunque la coincidencia de temas impulsada por el LLM completo todavía requiere un entorno GPU que aún no está integrado en la demostración pública. Por ahora, es una herramienta académica. Pero la arquitectura ya está allí. La diferencia entre una demostración de investigación y un producto de tecnología publicitaria en producción se mide en meses, no en años.