Керівник Google DeepMind: кожна компанія з продуктами на основі ШІ повинна створювати кастомні бенчмарки

Повідомлення Gate News, 27 квітня — Логан Кілпатрік, старший менеджер з продуктів у Google DeepMind і керівник продукту для Google AI Studio, заявив у X, що кожна компанія, яка створює продукти на основі ШІ, має встановити власні кастомні бенчмарки для вимірювання продуктивності моделей ШІ. Він описав це як метод, щоб покращення моделі “незрівнянно вигідно для вашої компанії” та закликав фаундерів і керівників бізнесу “почати вже завтра.”

Наразі більшість компаній покладаються на публічні лідерборди, щоб обирати моделі ШІ, але вони вимірюють загальні можливості, які часто не відповідають конкретним сценаріям бізнесу. Кілпатрік навів приклад компанії з контрактних оглядів, яка найбільше переймається точністю вилучення пунктів — можливості, якої немає в публічних бенчмарках, через що неможливо оцінити продуктивність моделі на цьому завданні. Кастомні бенчмарки мають дві ключові переваги: по-перше, вони дають компаніям змогу оцінювати кожне оновлення кожної моделі порівняно зі своїми бізнес-завданнями та обирати ту модель, яка найкраще працює саме в їхньому реальному випадку використання, а не ту, що загалом займає найвищі місця; по-друге, вони дозволяють компаніям ділитися цими тестовими наборами з постачальниками моделей, що стимулює безперервну оптимізацію в напрямках, які важливі для їхнього бізнесу.

Кілпатрік зазначив, що такі компанії, як Zapier і Sierra, уже впроваджують цей підхід, заявивши, що “тут можна створити дуже багато альфи”.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

IEA: Видатки на інфраструктуру для ШІ вже перевищили інвестиції у видобуток нафти та газу; у 2026 році, за прогнозами, вони ще зростуть на 75%

Згідно з аналізом і ринковими даними, оприлюдненими Міжнародним енергетичним агентством (IEA) 26 квітня, сукупні капітальні витрати п’яти найбільших технологічних компаній у 2025 році перевищили 400 млрд доларів США. Головним чином вони спрямовані на будівництво інфраструктури для ШІ; їхній масштаб уже перевищує річний обсяг інвестицій у глобальне виробництво нафти та природного газу. IEA оцінює, що в 2026 році відповідні капітальні витрати можуть зрости ще на 75%.

MarketWhisper12хв. тому

Сенатор Берні Сандерс робить попередження про екзистенційну загрозу від ШІ

Сандерс наголосив, що навіть попри те, що більшість учених з ШІ визнають можливість того, що ШІ може вирватися з-під контролю й стати небезпекою для нашого існування, жодних серйозних заходів не було вжито, щоб цьому запобігти. «Ми повинні бути впевнені, що ШІ приносить користь людству, а не шкодить нам», — заявив він. Ключові висновки: Берні Сандерс

Coinpedia22хв. тому

Керівник великої моделі Xiaomi: коли конкуренція в AI переходить у епоху агентів, самовдосконалення є ключовою подією для AGI

Керівник команди великомасштабних моделей Xiaomi Луо Фуліцзе 24 квітня на платформі Bilibili провела глибоке інтерв’ю (номер відео: BV1iVoVBgERD), тривалість інтерв’ю — 3,5 години; це її перша публічна системна викладка технічних поглядів у ролі технічного керівника. Луо Фуліцзе заявила, що змагання у сфері великих моделей уже перейшли від епохи Chat до епохи Agent, і вказала, що «самоеволюція» стане ключовою подією для AGI упродовж найближчого року.

MarketWhisper22хв. тому

Голосовий сервіс xAI Grok бере на себе гарячу лінію служби підтримки Starlink, 70% дзвінків автоматично закриваються

Згідно з офіційним оголошенням xAI від 23 квітня, xAI запустила мовного AI-агента Grok Voice Think Fast 1.0 та вже розгорнула його на гарячій лінії служби підтримки Starlink +1 (888) GO STARLINK. За оприлюдненими в оголошенні результатами тестування, 70% дзвінків AI автоматично завершує, без участі людини.

MarketWhisper34хв. тому

GPT-5.5 повертається на передній край у кодуванні, але OpenAI змінює бенчмарки після поразки від Opus 4.7

Повідомлення Gate News, 27 квітня — SemiAnalysis, компанія з аналізу напівпровідників та ШІ, опублікувала порівняльний бенчмарк асистентів для кодування, зокрема GPT-5.5, Claude Opus 4.7 і DeepSeek V4. Ключовий висновок: GPT-5.5 означає перше повернення OpenAI на передній край у моделях для кодування за шість місяців, причому інженери SemiAnalysis тепер чергують між Codex і Claude Code після того, як раніше майже виключно покладалися на Claude. GPT-5.5 створено на основі нового підходу до попереднього навчання з кодовою назвою "Spud" і є першим розширенням масштабу попереднього навчання OpenAI з моменту GPT-4.5. У практичному тестуванні чітко проявився розподіл ролей. Claude береться за планування нових проєктів та початкове налаштування, тоді як Codex найкраще справляється з виправленнями багів, що потребують інтенсивного осмислення. Codex демонструє сильніше розуміння структур даних і логічного міркування, але має труднощі з тим, щоб вгадувати неоднозначні наміри користувача. В одній задачі на єдиній панелі керування Claude автоматично відтворив макет сторінки-зразка, але сфабрикував великі обсяги даних, тоді як Codex пропустив макет, зате видав значно точніші дані. Аналіз виявляє деталь маніпуляції бенчмарком: у лютневому блозі OpenAI закликав індустрію перейти на SWE-bench Pro як новий стандарт для бенчмарків кодування. Однак у повідомленні про GPT-5.5 перехід здійснили на новий бенчмарк під назвою "Expert-SWE." Причина, захована в дрібному шрифті, полягає в тому, що GPT-5.5 було випереджено Opus 4.7 на SWE-bench Pro і він суттєво відстав від неопублікованого Mythos 77.8% від Anthropic. Щодо Opus 4.7: Anthropic опублікувала постмортем-аналіз через тиждень після релізу, визнавши три баги в Claude Code, які зберігалися протягом кількох тижнів з березня по квітень, впливаючи майже на всіх користувачів. Раніше кілька інженерів повідомляли про погіршення продуктивності в версії 4.6, але їх відхилили, назвавши суб’єктивними спостереженнями. Крім того, новий токенізатор у Opus 4.7 збільшує використання токенів до 35%, що Anthropic прямо визнав — по суті, це приховане підвищення ціни. DeepSeek V4 оцінили як "дотримання темпу з переднім краєм, але без лідерства," позиціонуючи його як найдешевшу альтернативу серед моделей із закритим кодом. Аналіз також зазначив, що "Claude продовжує випереджати DeepSeek V4 Pro у завданнях із високою складністю китайського письма," коментуючи, що "Claude переміг китайську модель у її власній мові." У статті вводиться ключова ідея: ціноутворення моделей слід оцінювати за "вартістю за задачу" замість "вартості за токен." Ціна GPT-5.5 удвічі вища за ціну GPT-5.4 input $5, output per million tokens, але він виконує ті самі завдання, використовуючи менше токенів, тож фактична вартість не обов’язково вища. Початкові дані SemiAnalysis показують, що співвідношення вхідних і вихідних даних у Codex становить 80:1, що нижче, ніж у Claude Code — 100:1.

GateNews38хв. тому

MediaTek отримала великий контракт від Google на 8-е покоління TPU! ASIC-бродіння спричиняє вигоду для трьох ешелонів концептуальних акцій

MediaTek уже увійшла в ланцюг постачання тренувальних чипів Google 8-го покоління TPU, відповідає за дизайн I/O Die та використовує TSMC N3P і пакування CoWoS-S, що демонструє її підйом до рівня висококласного проєктування AI ASIC. Очікується, що цього року виручка від ASIC перевищить 1 мільярд доларів США, а обсяг відвантажень TPU до 2027 року має зрости до десяти мільйонів штук; постачальники з Тайваню, зокрема King Yuan Electronics, Primetest і Hon Hai Group, також виграють, і ринок поступово переходить до майбутнього розподілу праці та співпраці чиплетів і гетерогенної інтеграції.

ChainNewsAbmedia1год тому
Прокоментувати
0/400
Немає коментарів