DeepSeek V4 Meraih Skor Sempurna pada Putnam-2025, Menyamai Axiom dalam Penalaran Matematika Formal

Berita Gerbang, 24 April — DeepSeek V4 telah mempublikasikan hasil dari evaluasi penalaran matematis formal, meraih skor sempurna 120/120 pada Putnam-2025, menyamai Axiom untuk posisi pertama.

Dalam rezim praktis yang menggunakan LeanExplore dan constrained sampling, V4-Flash-Max mencetak 81.00 pada tolok ukur Putnam-200 Pass@8, secara signifikan mengungguli Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50), dan Seed-1.5-Prover (26.50). Hasil rezim frontier menunjukkan V4 berada di depan Seed-1.5-Prover (110/120) dan Aristotle (100/120).

V4 menggunakan pendekatan hibrida penalaran formal-informal: penalaran informal menghasilkan solusi bahasa alami kandidat, self-verification menyaring hasil, dan agen formal menyelesaikan pembuktian yang ketat di Lean. Hasil rezim frontier memanfaatkan penskalaan komputasi skala besar, sementara skor rezim praktis lebih mencerminkan kemampuan penerapan standar.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Claude Code menambahkan notifikasi push seluler: secara otomatis mengingatkan saat tugas jangka panjang selesai atau saat perlu ditinjau

Claude Code saat ini dapat mengirim notifikasi push melalui ponsel, untuk memberi pengingat saat tugas jangka panjang selesai atau ketika perlu campur tangan pengguna. Syarat pengaktifannya adalah Remote Control dimulai dan di dalam config ada opsi “Push when Claude decides”. Alat push yang mendasarinya telah ditambahkan sejak 15 April versi v2.1.110, dan pengumuman ini termasuk tingkat pemasaran ke pihak luar.

ChainNewsAbmedia23menit yang lalu

Claude mengintegrasikan 8 konektor perangkat lunak kreatif utama seperti Adobe, Blender, dan lainnya

Berdasarkan pengumuman 28 April dari blog resmi Anthropic, Claude meluncurkan program Claude for Creative Work, bekerja sama dengan 8 mitra perangkat lunak kreatif untuk menghadirkan konektor (connectors), dengan tujuan agar Claude dapat berkolaborasi langsung di dalam alat yang sudah digunakan oleh para profesional kreatif. Pada saat yang sama, Anthropic Labs meluncurkan produk baru Claude Design, dan Anthropic juga bergabung sebagai patron dalam Blender Development Fund. 8 konektor perangkat lunak kreatif: dari pemodelan 3D hingga kontrol real-time untuk VJ Daftar perangkat lunak yang menghadirkan connector melalui kolaborasi dengan Anthropic (berdasarkan pengumuman resmi Anthropic disusun dari

ChainNewsAbmedia34menit yang lalu

NVIDIA Meluncurkan Model Multimodal Nemotron 3 Nano Omni dengan Peningkatan Throughput 9x

Kabar Gerbang, 28 April — NVIDIA telah merilis Nemotron 3 Nano Omni, sebuah model multimodal open-source yang menampilkan arsitektur mixture-of-experts 30B-A3B (MoE) dengan dukungan jendela konteks 256K. Model ini menyatukan pemrosesan input video, audio, gambar, dan teks dalam satu kerangka. Dibandingkan

GateNews58menit yang lalu

Jerman Mengecualikan Palantir dari Proyek Cloud Militer karena Kekhawatiran Kedaulatan Data

Pesan Berita Gate, 28 April — Wakil Laksamana Thomas Daum, perwira tertinggi Jerman di bidang siber dan ruang informasi, telah menolak penerapan perangkat lunak Palantir dalam proyek unggulan cloud militer Jerman, dengan alasan kekhawatiran terkait kedaulatan data dan model operasional perusahaan AS. Jerman's

GateNews1jam yang lalu

Startup Rekrutmen AI Dex Menggalang Dana Seed $5,3M yang Dipimpin oleh Notion Capital

Pesan dari Gate News, 28 April — Startup rekrutmen AI Dex mengumumkan penyelesaian putaran pendanaan seed senilai $5,3 juta yang dipimpin oleh Notion Capital, dengan partisipasi dari a16z Speedrun, Concept Ventures, serta investor angel dari OpenAI dan perusahaan lain. Putaran ini membawa total pendanaan Dex menjadi $8,4 juta

GateNews1jam yang lalu

Elon Musk Hadir di Pengadilan Federal Oakland untuk Sidang Gugatan OpenAI

Pesan Berita Gate, 28 April — Elon Musk tiba di Pengadilan Distrik A.S. di Oakland, California, untuk menyampaikan pernyataan pembuka dalam gugatannya terhadap OpenAI.

GateNews1jam yang lalu
Komentar
0/400
Tidak ada komentar