Berita dari CoinWorld, tim SWE-bench merilis benchmark baru ProgramBench, yang mengevaluasi 9 model AI terdepan dalam tugas merekonstruksi perangkat lunak nyata, dengan tingkat keberhasilan 0%. Benchmark ini dirilis oleh tim riset AI meta bersama Stanford dan Harvard, dengan tugas meminta agen AI hanya dengan satu file biner yang telah dikompilasi dan dokumentasi penggunaan, untuk membangun dari nol dan mengimplementasikan seluruh kode lengkap, serta mereplikasi perilaku program asli. Benchmark ini mencakup 200 tugas, mulai dari alat CLI kecil hingga proyek besar, hasil pengujian menunjukkan bahwa tidak ada satu pun yang memenuhi standar utama "lulus penuh", Claude Opus 4.7 unggul 3% dalam indikator pendukung "hampir lulus", sementara model lainnya semuanya 0%.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan