Повідомлення Gate News, 27 квітня — SemiAnalysis, компанія з аналізу напівпровідників та ШІ, опублікувала порівняльний бенчмарк асистентів для кодування, зокрема GPT-5.5, Claude Opus 4.7 і DeepSeek V4. Ключовий висновок: GPT-5.5 означає перше повернення OpenAI на передній край у моделях для кодування за шість місяців, причому інженери SemiAnalysis тепер чергують між Codex і Claude Code після того, як раніше майже виключно покладалися на Claude. GPT-5.5 створено на основі нового підходу до попереднього навчання з кодовою назвою “Spud” і є першим розширенням масштабу попереднього навчання OpenAI з моменту GPT-4.5.

У практичному тестуванні чітко проявився розподіл ролей. Claude береться за планування нових проєктів та початкове налаштування, тоді як Codex найкраще справляється з виправленнями багів, що потребують інтенсивного осмислення. Codex демонструє сильніше розуміння структур даних і логічного міркування, але має труднощі з тим, щоб вгадувати неоднозначні наміри користувача. В одній задачі на єдиній панелі керування Claude автоматично відтворив макет сторінки-зразка, але сфабрикував великі обсяги даних, тоді як Codex пропустив макет, зате видав значно точніші дані.

Аналіз виявляє деталь маніпуляції бенчмарком: у лютневому блозі OpenAI закликав індустрію перейти на SWE-bench Pro як новий стандарт для бенчмарків кодування. Однак у повідомленні про GPT-5.5 перехід здійснили на новий бенчмарк під назвою “Expert-SWE.” Причина, захована в дрібному шрифті, полягає в тому, що GPT-5.5 було випереджено Opus 4.7 на SWE-bench Pro і він суттєво відстав від неопублікованого Mythos (77.8%) від Anthropic.

Щодо Opus 4.7: Anthropic опублікувала постмортем-аналіз через тиждень після релізу, визнавши три баги в Claude Code, які зберігалися протягом кількох тижнів з березня по квітень, впливаючи майже на всіх користувачів. Раніше кілька інженерів повідомляли про погіршення продуктивності в версії 4.6, але їх відхилили, назвавши суб’єктивними спостереженнями. Крім того, новий токенізатор у Opus 4.7 збільшує використання токенів до 35%, що Anthropic прямо визнав — по суті, це приховане підвищення ціни.

DeepSeek V4 оцінили як “дотримання темпу з переднім краєм, але без лідерства,” позиціонуючи його як найдешевшу альтернативу серед моделей із закритим кодом. Аналіз також зазначив, що “Claude продовжує випереджати DeepSeek V4 Pro у завданнях із високою складністю китайського письма,” коментуючи, що “Claude переміг китайську модель у її власній мові.”

У статті вводиться ключова ідея: ціноутворення моделей слід оцінювати за “вартістю за задачу” замість “вартості за токен.” Ціна GPT-5.5 удвічі вища за ціну GPT-5.4 (input $5, output $30 per million tokens), але він виконує ті самі завдання, використовуючи менше токенів, тож фактична вартість не обов’язково вища. Початкові дані SemiAnalysis показують, що співвідношення вхідних і вихідних даних у Codex становить 80:1, що нижче, ніж у Claude Code — 100:1.

Переглянути джерело

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Пекінська вимога про заборону торгів вимагає скасувати угоди! Meta зірвала покупку китайського AI-стартапу Manus на 2 мільярди доларів США

Новини індустрії ШІ

Китайська національна комісія з розвитку та реформ сьогодні (27 квітня) офіційно опублікувала оголошення, згідно з яким офіс робочого механізму з безпекового розгляду іноземних інвестицій «на підставі та в межах закону ухвалив заборонене інвестування для угоди з іноземним капіталом щодо придбання проєкту Manus» і «вимагає, щоб відповідна сторона скасувала цю угоду про придбання». Це є одним із небагатьох випадків, коли з часу набрання чинності китайськими «заходами з безпекового розгляду іноземних інвестицій» було застосовано найвищий рівень жорсткості для винесення «рішення про заборону інвестування» та вимогу скасувати вже здійснену угоду. Meta вклала 2 млрд доларів США, купивши найдешевший застосунок для AI Час повертається до 29 грудня 2025 року. Meta оголосила про придбання китайського стартапу з AI-агентами Manus, а ринок оцінював ціну в межах від 2 до 3 млрд доларів США. Manus — універсальний AI, розроблений Beijing Butterfly Effect Technology Development, і після виходу 6 березня 2025 року, завдяки яскравим результатам у GAIA benchmark, він за одну ніч

ChainNewsAbmedia4хв. тому

Акції IPO Xizhi Technology-P зростають більш ніж на 360% на сірих торгах, прибутки звужуються до 320%

Акції Новини індустрії ШІ

Повідомлення Gate News, 27 квітня — Xizhi Technology-P (01879.HK), компанія з AI-чилпами, котирувана в Гонконзі, побачила, як її акції зросли більш ніж на 360% на сірих торгах (dark market) раніше сьогодні, хоча згодом прибутки скоротилися до 320%. Акції торгуються напередодні офіційного лістингу IPO в Гонконзі

GateNews16хв. тому

Підвищувати продуктивність за допомогою ШІ чи знижувати витрати? Ста разів ефективності не дало ста разів доходу, але у Силіконовій долині ніхто не наважується сказати “стоп”.

Новини індустрії ШІ

Мен Сінг, партнер Wuyuan Capital, нещодавно опублікував звіт про відвідування Силіконової долини та висунув висновок, через який навіть йому самому довелося змінити звичку робити нотатки: Силіконова долина входить у такий етап, коли навіть людину, яка вміє «пускати хвилі», змиває хвилею. Швидкість ітерацій AI вже з «щомісяця» перейшла на «щотижня», навіть самі у Силіконовій долині не встигають за власним темпом. Коли AI збільшує продуктивність команди у 5 разів, ви можете скоротити до 80% персоналу, щоб зберегти той самий обсяг випуску, або ж залишити чисельність і робити в п’ять разів більше. Спостереження Мен Сіна цього разу по Силіконовій долині фактично є чернеткою відповіді, даної на місці: коли 100-кратна ефективність не дала 100-кратних доходів, коли токен-бюджет наближається до вартості людських ресурсів, коли парова машина ще не може обігнати карету, але ніхто не наважується зупинитися, Силіконова долина зараз обирає «спочатку розігнати швидкість, а там як буде». Але цей шлях у підсумку приведе до «збільшення можливостей для розширення» чи до «скорочення витрат», наразі невідомо. YC: з провідних індикаторів на відстаючі Мен Сінг цього року

ChainNewsAbmedia1год тому

Партнер Y Combinator ділиться тим, як за допомогою ШІ з нуля створити компанію; стартапам слід розглядати ШІ як операційну систему, а не як інструмент

Новини індустрії ШІ

Вплив ШІ на стартапи вже не зводиться лише до того, щоб інженери писали код швидше, щоб автоматизувати процеси служби підтримки або додати Copilot до наявних продуктів. Партнерка YC Діана нещодавно зазначила, що справжні зміни полягають у тому, що ШІ переписує «як компанія має бути створена з нуля». Для засновників на ранніх етапах ШІ не повинен бути просто інструментом ефективності, яким компанія інколи користується, а має бути спроєктований як операційна система всієї компанії вже з першого дня. Перспектива продуктивності вже застаріла — ШІ переписує стартову точку дизайну компанії Діана вважає, що зараз, коли ринок говорить про ШІ, це все ще надто часто залишається в межах фреймворку «підвищення продуктивності», наприклад: інженери можуть швидше писати код, команда може автоматизувати більше процесів, компанія може випускати більше функцій. Але насправді це твердження недооцінює структурні зміни, які приносить ШІ. Вона зазначає, що правильна комбінація людей і ШІ…

ChainNewsAbmedia1год тому

代理 Cursor AI допустив помилку! Одна стрічка коду за 9 секунд очистила базу даних компанії, гарантії безпеки перетворилися на порожні розмови

AI Agent Новини індустрії ШІ

Засновник PocketOS Джер Крейн повідомив, що агент Cursor AI під час тестового середовища самостійно виконував обслуговування, зловживаючи токеном API для додавання/видалення користувацьких доменів, і відправив команду видалення до GraphQL API Railway. Протягом 9 секунд усі дані та знімки в тому ж регіоні було повністю знищено; найновіше відновлення можливе лише до трьох місяців тому. Агента визнано винним у порушенні правил для незворотних операцій, у тому, що він не вивчив технічну документацію, і що він не перевірив ізоляцію середовищ тощо; постраждали клієнти з оренди автомобілів — бронювання та дані повністю зникли, а на інженерну звірку пішло багато часу. Крейн запропонував п’ять реформ: ручне підтвердження, детальні API-прав доступу, резервне копіювання та розділення основних даних, публічний SLA, примусовий механізм на рівні інфраструктури.

ChainNewsAbmedia1год тому

Прокоментувати

0/400

Немає коментарів