Kimi K2 Thinking встановив новий рекорд у бенчмаркових оцінках, що оцінюють здатність до логіки, кодування та агентських навичок

Згідно з офіційним сайтом Moon’s Dark Side, Kimi K2 Thinking встановив нові рекорди у бенчмарках оцінки логіки, кодування та агентних здібностей. K2 Thinking досяг 44.9% у SOTA-результатах у бенчмарку HLE, 60.2% у тесті BrowseComp та 71.3% у тесті SWE-Bench Verified, що демонструє потужну здатність до узагальнення як найсучаснішої моделі агентного мислення.

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів