GPT-5.5 Возвращается на Передний край в Кодинге, но OpenAI Меняет Бенчмарки После Поражения Opus 4.7

Gate News сообщение, 27 апреля — SemiAnalysis, фирма по анализу полупроводников и ИИ, опубликовала сравнительный бенчмарк ассистентов для программирования, включая GPT-5.5, Claude Opus 4.7 и DeepSeek V4. Ключевой вывод: GPT-5.5 знаменует собой первый возврат OpenAI на передний край в моделях для кодинга за последние шесть месяцев, при этом инженеры SemiAnalysis теперь чередуют между Codex и Claude Code после того, как ранее почти исключительно полагались на Claude. GPT-5.5 основана на новом подходе к предварительному обучению с кодовым названием “Spud” и представляет собой первое расширение масштаба предварительного обучения OpenAI со времён GPT-4.5.

При практических испытаниях проявилось явное разделение ролей. Claude отвечает за планирование новых проектов и первичную настройку, тогда как Codex особенно силён в исправлениях багов, требующих интенсивных рассуждений. Codex демонстрирует более сильное понимание структур данных и логических рассуждений, но испытывает трудности с тем, чтобы выводить неоднозначные намерения пользователя. В задаче на одной панели Claude автоматически воссоздал компоновку эталонной страницы, но сфабриковал большие объёмы данных, тогда как Codex пропустил компоновку, зато предоставил значительно более точные данные.

Анализ выявляет деталь манипуляции бенчмарком: февральский блог OpenAI призывал отрасль перейти на SWE-bench Pro как новый стандарт для бенчмарков кода. Однако в объявлении GPT-5.5 переход осуществлён на новый бенчмарк под названием “Expert-SWE.” Причина, спрятанная в мелком шрифте, заключается в том, что GPT-5.5 был обойдён Opus 4.7 на SWE-bench Pro и заметно уступил ненадлежащим образом не раскрытому Anthropic Mythos (77.8%).

Что касается Opus 4.7, Anthropic опубликовала разбор последствий через неделю после релиза, признав три ошибки в Claude Code, которые сохранялись в течение нескольких недель с марта по апрель, затрагивая почти всех пользователей. Ранее несколько инженеров сообщали о деградации производительности в версии 4.6, но их замечания были отклонены как субъективные. Кроме того, новый токенизатор Opus 4.7 увеличивает использование токенов до 35%, что Anthropic откровенно признала — фактически это означает скрытое повышение цены.

DeepSeek V4 оценили как “удерживающий темп с передним краем, но не ведущий,” позиционируя себя как самый бюджетный вариант среди закрытых моделей. Анализ также отметил, что “Claude по-прежнему превосходит DeepSeek V4 Pro в высокосложных задачах китайской письменности,” и прокомментировал, что “Claude выиграл у китайской модели на её родном языке.”

В статье вводится ключевая идея: цена модели должна оцениваться через “стоимость за задачу,” а не через “стоимость за токен.” Прайсинг GPT-5.5 вдвое выше, чем у GPT-5.4 (input $5, output $30 за миллион токенов), но он выполняет те же задачи, используя меньшее число токенов, поэтому фактическая стоимость не обязательно выше. Первичные данные SemiAnalysis показывают, что коэффициент входов к выходам у Codex составляет 80:1, что ниже, чем 100:1 у Claude Code.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Пекин требует отзыва запрета на торговлю! Meta срывает сделку по покупке китайского AI-стартапа Manus за 2 миллиарда долларов США

Китайская госкомиссия по развитию и реформам сегодня (27 апреля) официально опубликовала уведомление: Офис механизма проверки безопасности иностранных инвестиций «в соответствии с законом и регламентом вынес решение о запрете инвестиций в отношении приобретения иностранным инвестором проекта Manus и потребовал стороны отменить указанную сделку по приобретению». Это один из немногих случаев с момента введения в действие в Китае «Меры по проверке безопасности иностранных инвестиций», когда было применено «запрещение инвестиций» с максимальной степенью строгости и потребовано отменить уже совершенную сделку. Meta вбросила 2 млрд долларов, покупая самое дешевое AI-приложение Время переносится в 29 декабря 2025 года. Meta объявила о приобретении китайского AI-агентного нового стартапа Manus, при этом рынок оценивает цену в диапазоне от 2 до 3 млрд долларов. Manus — универсальный AI, разработанный Пекинской технологической компанией «Эффект бабочки», который после запуска 6 марта 2025 года и впечатляющих результатов в GAIA benchmark буквально за одну ночь

ChainNewsAbmedia4м назад

Акции IPO Xizhi Technology-P взлетели более чем на 360% на «сером рынке», рост сузился до 320%

Сообщение Gate News, 27 апреля — Xizhi Technology-P (01879.HK), компания по чипам для ИИ, котирующаяся в Гонконге, увидела, как ее акции на «сером рынке» (dark market) ранее сегодня взлетели более чем на 360%, хотя с тех пор рост сузился до 320%. Акции торгуются в преддверии своего официального листинга IPO в Гонконге

GateNews16м назад

Улучшает ли ИИ производительность или снижает затраты? Сотни раз эффективность не превратились в сотни раз выручку, но в Кремниевой долине никто не осмеливается призвать остановиться

Партнер Wuyuan Capital Мэн Синь, в последнее время опубликовал отчет о поездке в Силиконовую долину, предложив суждение, которое даже заставило его самого изменить привычку делать заметки: Силиконовая долина сейчас входит в стадию, когда даже того, кто умеет «делать волны», смывает волной. Скорость итераций AI уже перешла с «помесячной» на «понедельную», и даже сами в Силиконовой долине уже не успевают за собой. Когда AI увеличивает производительность команды в пять раз, можно сократить до 80% персонала, чтобы поддерживать прежний объем выпуска, а можно сохранить численность людей и делать в пять раз больше. Наблюдение Мэн Синя на этот раз по сути дает черновик ответа, озвученный прямо на месте: когда 100-кратная эффективность не конвертировалась в 100-кратную выручку, когда токен-бюджет приближается к издержкам на персонал, когда паровой двигатель еще не может обогнать карету, но никто не осмеливается остановиться, Силиконовая долина выбирает путь «сначала разогнаться в скорости, а дальше посмотрим». Но в итоге эта дорога приведет к «способности к расширению» или к «сжатию издержек» — пока нет однозначного ответа. YC из лидирующего показателя превратился в отстающий показатель Мэн Синь в этом году

ChainNewsAbmedia1ч назад

Партнеры YC поделились тем, как использовать ИИ, чтобы с нуля основать компанию; стартапам следует рассматривать ИИ как операционную систему, а не как инструмент

Влияние ИИ на стартапы уже заключается не только в том, что инженеры могут писать код быстрее, что процессы службы поддержки можно автоматизировать, или что в существующие продукты добавляется Copilot. Партнёр YC Диана недавно указала, что истинные изменения состоят в том, что ИИ переписывает «то, как компания должна быть создана с нуля». Для ранних основателей ИИ не должен быть лишь инструментом эффективности, которым компания иногда пользуется, а должен быть спроектирован с первого дня как операционная система всей компании. Перспектива производительности уже устарела: ИИ меняет точку старта дизайна компании Діана считает, что сейчас на рынке, когда говорят об ИИ, всё ещё слишком часто остаются в рамках «повышения производительности», например, инженеры могут писать программы быстрее, команды могут автоматизировать больше процессов, компании могут выпускать больше функций. Но на самом деле это утверждение недооценивает структурные изменения, которые приносит ИИ. Она указывает, что правильное сочетание людей с ИИ 工

ChainNewsAbmedia1ч назад

Агент Cursor AI всё испортил! Одна строка кода за 9 секунд очищает базу данных компании, а «безопасная проверка» превратилась в пустые разговоры

Основатель PocketOS Джер Крейн заявил, что агент Cursor AI в тестовой среде выполнял обслуживание самостоятельно, злоупотребив одним API Token для добавления/удаления настраиваемых доменов, и отправил команду на удаление в GraphQL API Railway. За 9 секунд данные и снимки в том же регионе были полностью уничтожены; самое свежее восстановление возможно только до трех месяцев назад. Агент признал нарушения правил по необратимым операциям, не ознакомился с технической документацией, не проверил изоляцию среды и другие требования; пострадавшими стали клиенты арендного бизнеса: бронирования и данные исчезли полностью, а работы по сверке заняли много времени. Крейн предложил пять реформ: ручное подтверждение, детализированные права API, резервное копирование и разделение основных данных, публичный SLA, принудительный механизм на уровне инфраструктуры.

ChainNewsAbmedia1ч назад
комментарий
0/400
Нет комментариев