Коротко
Між статтею, яку ви читаєте, і рекламою поруч із нею, ведеться тихий бій за ваші очі. Більшість дисплейних оголошень втрачають увагу, бо люди просто ненавидять рекламу — настільки, що великі технологічні компанії, такі як Perplexity або Anthropic, намагаються відійти від цих нав’язливих навантажень, шукаючи кращі моделі монетизації. Але новий інструмент штучного інтелекту від дослідників з Університету Меріленду та Тілбургського університету прагне змінити це — передбачаючи з тривожною точністю, чи справді ви подивитеся на рекламу, перш ніж її хтось розмістить. Інструмент називається AdGazer, і він працює, аналізуючи як саму рекламу, так і контент сторінки навколо неї — потім прогнозує, скільки часу типовий глядач буде дивитися на рекламу та логотип бренду, базуючись на обширних історичних даних досліджень реклами.
Команда навчила систему на даних трекінгу погляду з 3531 цифрової дисплейної реклами. Реальні люди носили обладнання для трекінгу погляду, переглядали сторінки, і їхні патерни погляду записувалися. AdGazer навчився на всьому цьому. При тестуванні на рекламі, яких він раніше не бачив, він передбачав увагу з кореляцією 0,83 — тобто його прогнози співпадали з реальними людськими патернами погляду приблизно 83% часу. На відміну від інших інструментів, що зосереджуються лише на самій рекламі, AdGazer аналізує всю сторінку навколо неї. Фінансова новинна стаття поруч із рекламою розкішних годинників поводиться інакше, ніж та сама реклама поруч із спортивним табло. Контекст навколо, згідно з дослідженням, опублікованим у Journal of Marketing, становить щонайменше 33% від уваги, яку отримує реклама, і близько 20% від часу, який глядачі дивляться саме на бренд. Це велика справа для маркетологів, які давно вважали, що саме креативна частина виконує всю важку роботу.
Система використовує мультимодальну велику мовну модель для витягання високорівневих тем з реклами та навколишнього контенту сторінки, а потім визначає, наскільки добре вони семантично співпадають — тобто сама реклама проти контексту, на якому вона розміщена. Ці векторні представлення тем подаються у модель XGBoost, яка поєднує їх із низькорівневими візуальними ознаками для формування кінцевого балу уваги. Дослідники також створили інтерфейс Gazer 1.0, де можна завантажити свою рекламу, обвести рамками бренд і візуальні елементи, і отримати прогнозований час погляду у секундах — разом із тепловою картою, яка показує, які частини зображення модель вважає найбільш привабливими. Він працює без спеціалізованого обладнання, хоча повне порівняння за допомогою LLM все ще вимагає GPU-середовища, яке ще не інтегроване у публічну демонстрацію. Поки що це академічний інструмент. Але архітектура вже існує. Різниця між дослідницькою демонстрацією і виробничим рекламним продуктом вимірюється місяцями — не роками.