Irgendwo zwischen dem Artikel, den Sie lesen, und der danebenstehenden Anzeige wird ein stiller Krieg um Ihre Aufmerksamkeit geführt. Die meisten Display-Anzeigen verlieren an Bedeutung, weil Menschen Anzeigen einfach hassen—so sehr, dass große Tech-Unternehmen wie Perplexity oder Anthropic versuchen, diese invasiven Belastungen zu vermeiden und nach besseren Monetarisierungsmodellen suchen. Doch ein neues KI-Tool von Forschern der University of Maryland und der Tilburg University möchte das ändern—indem es mit beunruhigender Genauigkeit vorhersagt, ob Sie sich tatsächlich eine Anzeige ansehen, bevor jemand sie dort platziert. Das Tool heißt AdGazer und funktioniert, indem es sowohl die Anzeige selbst als auch den umgebenden Webseiteninhalt analysiert—und dann vorhersagt, wie lange ein typischer Betrachter auf die Anzeige und das Markenlogo starren wird, basierend auf umfangreichen historischen Daten aus der Werbeforschung.
Das Team trainierte das System mit Eye-Tracking-Daten von 3531 digitalen Display-Anzeigen. Echte Personen trugen Eye-Tracking-Geräte, durchsuchten Seiten, und ihre Blickmuster wurden aufgezeichnet. AdGazer lernte daraus. Bei Tests an Anzeigen, die es zuvor noch nie gesehen hatte, sagte es die Aufmerksamkeit mit einer Korrelation von 0,83 voraus—was bedeutet, dass seine Prognosen etwa 83 % der tatsächlichen menschlichen Blickmuster übereinstimmten. Im Gegensatz zu anderen Tools, die sich nur auf die Anzeige selbst konzentrieren, liest AdGazer die gesamte Seite um die Anzeige herum. Ein Finanznachrichtartikel neben einer Luxusuhrenanzeige verhält sich anders als dieselbe Uhrenanzeige neben einem Sportergebnis-Ticker. Der umgebende Kontext, so die Studie, veröffentlicht im Journal of Marketing, macht mindestens 33 % der Aufmerksamkeit aus, die eine Anzeige erhält—und etwa 20 % der Zeit, die Betrachter speziell auf die Marke schauen. Das ist eine große Sache für Marketer, die lange angenommen haben, dass die kreative Gestaltung allein die ganze Arbeit leistet.
Das System nutzt ein multimodales Large Language Model, um aus sowohl der Anzeige als auch dem umgebenden Seiteninhalt hochrangige Themen zu extrahieren und zu bewerten, wie gut sie semantisch zueinander passen—also die Anzeige selbst im Vergleich zum Kontext, in dem sie platziert ist. Diese Themen-Embeddings werden in ein XGBoost-Modell eingespeist, das sie mit niedrigstufigen visuellen Merkmalen kombiniert, um eine endgültige Aufmerksamkeitspunktzahl zu erzeugen. Die Forscher haben auch eine Oberfläche namens Gazer 1.0 entwickelt, bei der Sie Ihre eigene Anzeige hochladen, Rahmen um Marken- und Bildelemente ziehen und eine vorhergesagte Blickzeit in Sekunden erhalten können—sowie eine Heatmap, die zeigt, welche Bildteile das Modell für die aufmerksamkeitsstärksten hält. Es läuft ohne spezielle Hardware, obwohl das vollständige, auf LLM basierende Themenmatching noch eine GPU-Umgebung erfordert, die im öffentlichen Demo noch nicht integriert ist. Vorerst ist es ein akademisches Werkzeug. Doch die Architektur ist bereits vorhanden. Die Lücke zwischen einer Forschungsdemo und einem produktiven Werbetechnologie-Produkt wird in Monaten gemessen—nicht in Jahren.