Gate News 消息,3 月 8 日,OpenClaw(AI 代理开发框架)创始人 Peter Steinberger 转发第三方机构 PinchBench 基准测试结果,该测试评估 AI 大语言模型在 OpenClaw 代理任务中的表现。结果显示,Gemini 3 Flash 处理 OpenClaw 任务成功率以 95.1% 位居第一,国产模型 minimax-m2.1 和 kimi-k2.5 分别以 93.6% 和 93.4% 分列第 2、3 位。Claude Sonnet 4.5 成功率为 92.7%,GPT-4o 为 85.2%。