Irgendwo zwischen dem Artikel, den Sie lesen, und der danebenstehenden Anzeige wird ein stiller Krieg um Ihre Aufmerksamkeit geführt. Die meisten Display-Anzeigen verlieren diese, weil Menschen Anzeigen einfach hassen – so sehr, dass große Tech-Unternehmen wie Perplexity oder Anthropic versuchen, sich von diesen invasiven Belastungen abzuwenden und nach besseren Monetarisierungsmodellen suchen. Doch ein neues KI-Tool von Forschern der University of Maryland und der Tilburg University möchte das ändern – indem es mit beunruhigend hoher Genauigkeit vorhersagt, ob Sie sich tatsächlich eine Anzeige ansehen, bevor jemand sie dort platziert. Das Tool heißt AdGazer und funktioniert, indem es sowohl die Werbung selbst als auch den umgebenden Webseiteninhalt analysiert – und dann vorhersagt, wie lange ein typischer Betrachter auf die Anzeige und das Markenlogo starren wird, basierend auf umfangreichen historischen Daten aus der Werbeforschung.
Das Team trainierte das System mit Eye-Tracking-Daten von 3531 digitalen Display-Anzeigen. Echte Personen trugen Eye-Tracking-Geräte, durchforsteten Seiten, und ihre Blickmuster wurden aufgezeichnet. AdGazer lernte daraus. Bei Tests an Anzeigen, die es zuvor noch nie gesehen hatte, sagte es die Aufmerksamkeit mit einer Korrelation von 0,83 voraus – was bedeutet, dass seine Prognosen in etwa 83 % der Fälle mit den tatsächlichen menschlichen Blickmustern übereinstimmten. Im Gegensatz zu anderen Tools, die sich nur auf die Anzeige selbst konzentrieren, liest AdGazer die gesamte Seite um die Anzeige herum. Ein Finanznachrichtartikel neben einer Luxusuhrenanzeige verhält sich anders als dieselbe Uhrenanzeige neben einem Sportergebnis-Ticker. Der umgebende Kontext, so die Studie, veröffentlicht im Journal of Marketing, macht mindestens 33 % der Aufmerksamkeit aus, die eine Anzeige erhält – und etwa 20 % der Zeit, die Zuschauer speziell auf die Marke schauen. Das ist eine große Sache für Marketer, die lange angenommen haben, dass die kreative Gestaltung allein die ganze Arbeit leistet.
Das System nutzt ein multimodales Large Language Model, um aus der Anzeige und dem umgebenden Seiteninhalt hochrangige Themen zu extrahieren und zu ermitteln, wie gut sie semantisch zueinander passen – im Wesentlichen die Anzeige selbst versus den Kontext, in dem sie platziert ist. Diese Themen-Embeddings werden in ein XGBoost-Modell eingespeist, das sie mit niedrigeren visuellen Merkmalen kombiniert, um eine endgültige Aufmerksamkeitspunktzahl zu erzeugen. Die Forscher haben auch eine Oberfläche namens Gazer 1.0 entwickelt, bei der Sie Ihre eigene Anzeige hochladen, Rahmen um Marken und visuelle Elemente ziehen und eine vorhergesagte Blickzeit in Sekunden erhalten können – zusammen mit einer Heatmap, die zeigt, welche Bildteile das Modell für die aufmerksamkeitsstärksten hält. Es läuft ohne spezielle Hardware, obwohl die vollständige, auf LLM basierende Themenzuordnung noch eine GPU-Umgebung erfordert, die im öffentlichen Demo noch nicht integriert ist. Vorerst ist es ein akademisches Werkzeug. Doch die Architektur ist bereits vorhanden. Die Lücke zwischen einer Forschungsdemo und einem produktiven Werbetechnologie-Produkt wird in Monaten gemessen – nicht in Jahren.