OpenAI почала впроваджувати GPT-5.4 — свою найпотужнішу модель на сьогодні — у четвер, намагаючись зупинити PR-кризу, яка призвела до того, що приблизно 2,5 мільйона користувачів вжили заходів проти компанії, скасувавши підписки або поширюючи бойкот у соцмережах. Так званий рух QuitGPT вибухнув після того, як OpenAI оголосила про угоду з Міністерством оборони США за кілька годин після того, як Anthropic публічно відмовилася від того ж контракту — що спричинило публічну критику з боку президента Трампа та інших урядовців. Залежність Anthropic: Міноборони США відмовилося включати мову, яка явно забороняє розгортання автономної зброї та масового спостереження за громадянами США.
OpenAI все ж уклала цю угоду. Генеральний директор Сам Альтман, який відповідає на питання щодо очевидної різниці між заявленими межами безпеки компанії та фактичною мовою контракту, потребує повернення цих користувачів. З’являється GPT-5.4… всього через два дні після представлення GPT-5.3.
Нова модель об’єднує логіку, кодування та агентські можливості в одному релізі. Вона також має можливість обробляти контекст до мільйона токенів, що дає користувачам більше свободи працювати з великими обсягами інформації в одному сеансі. На папері цифри виглядають обнадійливо. За тестом GDPval — бенчмарком знань у 44 професіях — GPT-5.4 співпадає або перевищує результати професіоналів у 83,0% порівнянь, порівняно з 70,9% для GPT-5.2. Найбільший прорив — у використанні комп’ютера: за OSWorld-Verified, що оцінює здатність моделі керувати робочим столом за скріншотами та діями миші/клавіатури, GPT-5.4 досягає 75,0% успіху проти 47,3% у GPT-5.2 — і перевищує людський базовий рівень у 72,4%. За BrowseComp, тестом глибокого дослідження вебу, він показує на 17 відсоткових пунктів кращий результат, ніж GPT-5.2. Вікно контексту на 1 мільйон токенів і функція перенаправлення під час відповіді — що дозволяє користувачам змінювати напрямок роботи моделі, поки вона ще думає — доповнюють головні функції. Ця функція економить час і обчислювальні ресурси, уникаючи необхідності відкидати всі раніше згенеровані токени при виявленні помилки.
Хто виграє від GPT 5.4? Важливо зазначити, що деякі бенчмарки переважно порівнюють GPT-5.4 — і здебільшого логіка встановлюється на дуже високому рівні, що не доступно користувачам безкоштовної та Plus-версії — з GPT-5.2, пропускаючи GPT-5.3. Для користувачів, які вже працюють з GPT-5.3, кілька покращень можуть здатися більш поступовими, ніж показують графіки.
Найбільше користі отримують корпоративні користувачі, що працюють з великими обсягами документів. За внутрішнім тестом моделювання таблиць GPT-5.4 набрав 87,3% проти 68,4% у GPT-5.2. Юридична фірма Harvey повідомила, що отримала 91% за своїм тестом BigLaw Bench. Mainstay, яка керує агентами на 30 000 порталах з оподаткування нерухомості, повідомила про 95% успіхів з першої спроби та сесії, що працюють у ~3 рази швидше та з ~70% меншим використанням токенів. Це той тип аргументу щодо ефективності, який може бути важливим для команд закупівель у корпораціях, але важче переконати окремого користувача, який роздумує про видалення свого акаунту.