Ketika kompetisi model bahasa besar beralih dari “siapa yang menjawab cepat” ke “siapa yang berpikir lebih dalam”, Google kembali meluncurkan senjata inti generasi baru. Pada 19 Februari, Google secara resmi mengumumkan Gemini 3.1 Pro, yang bukan hanya pembaruan versi dari seri Gemini 3, tetapi juga peningkatan menyeluruh dalam kemampuan penalaran tingkat tinggi. Secara resmi, dikatakan bahwa 3.1 Pro dirancang khusus untuk tugas-tugas kompleks tanpa jawaban standar, dengan target utama penelitian ilmiah, pengembangan teknik, dan skenario pengambilan keputusan berantai panjang.
Berdasarkan data pengujian standar yang dipublikasikan, peningkatan kali ini bukan sekadar teori, melainkan menunjukkan kemajuan yang signifikan dalam berbagai evaluasi tingkat tinggi.
Peningkatan Inti untuk Tugas Kompleks
Dalam pernyataannya, Google menempatkan Gemini 3.1 Pro sebagai “model dasar yang lebih pintar dan mampu”, menekankan lonjakan dalam kemampuan penalaran inti. Model ini merupakan kelanjutan dari hasil riset Gemini 3 Deep Think sebelumnya, yang memperkuat kecerdasan dasar sehingga tampil lebih matang dalam penalaran logika multi-langkah, pemikiran abstrak, dan pemecahan masalah profesional.
Dibandingkan dengan Gemini 3 Pro yang dirilis pada November 2025, 3.1 Pro bukan hanya peningkatan performa, tetapi pertumbuhan struktural dalam kemampuan penalaran.
ARC-AGI-2 Melonjak ke 77.1%: Kemampuan Penalaran Abstrak Melipatganda
Prestasi paling mencolok berasal dari pengujian ARC-AGI-2, yang dianggap sebagai indikator penalaran AI tingkat tinggi. Pengujian ini secara khusus menguji kemampuan model dalam menyelesaikan “pola logika baru”, menghindari ketergantungan pada pengetahuan yang sudah ada.
Berdasarkan data terbuka:
Gemini 3.1 Pro: 77.1% (verifikasi ARC Prize)
Gemini 3 Pro: 31.1%
Sonnet 4.6: 58.3%
Opus 4.6: 68.8%
GPT-5.2: 52.9%
Dibandingkan dengan performa sebelumnya 31.1%, 3.1 Pro hampir dua kali lipat meningkat. Prestasi ini menunjukkan bahwa model memiliki kemampuan penalaran abstrak dan induksi pola yang lebih kuat saat menghadapi masalah yang tidak dikenal.
Peningkatan Pengetahuan Profesional dan Penalaran Ilmiah Secara Bersamaan
Dalam pengujian pengetahuan ilmiah GPQA Diamond, Gemini 3.1 Pro meraih 94.3%, lebih tinggi dari GPT-5.2 yang 92.4%, Opus 4.6 yang 91.3%, dan Sonnet 4.6 yang 89.9%.
Ini menunjukkan bahwa 3.1 Pro tidak hanya mampu menangani logika abstrak, tetapi juga mempertahankan standar tertinggi dalam integrasi pengetahuan profesional dan penalaran ilmiah.
Kemampuan Pemrograman Meningkat Signifikan: Performa Kompetisi yang Membuka Jarak
Dalam pengujian tugas pemrograman dan agen, Gemini 3.1 Pro juga menunjukkan hasil yang mengesankan.
LiveCodeBench Pro: Elo 2887 (GPT-5.2: 2393, Gemini 3 Pro: 2439)
SWE-Bench Verified: 80.6% (GPT-5.2: 80.0%, Opus 4.6: 80.8%)
Terminal-Bench 2.0: 68.5% (GPT-5.2: 54.0%, Sonnet 4.6: 59.1%)
SciCode: 59% (GPT-5.2: 52%, Sonnet 4.6: 47%)
Terutama dalam pengujian kompetisi pemrograman, skor Elo 2887 menunjukkan keunggulan dalam algoritma tingkat tinggi dan logika pemrograman multi-langkah yang semakin jelas.
Kemampuan Multimodal dan Teks Panjang Tetap Berkualitas Tinggi
Dalam pemahaman multimodal dan pengolahan teks panjang, Gemini 3.1 Pro juga menunjukkan performa stabil:
MMMU Pro: 80.5%
MMLU: 92.6%
MRCR v2 (128k): 84.9%
Pointwise teks panjang 1 juta token: 26.3%
Ini berarti model tidak hanya mampu melakukan penalaran, tetapi juga menjaga konsistensi dan akurasi dalam konteks yang sangat besar.
Dari Menjawab Pertanyaan Hingga Menghasilkan Output Langsung
Google menegaskan bahwa nilai dari 3.1 Pro tidak hanya terletak pada skor, tetapi pada kemampuan aplikasi nyata.
Misalnya, model dapat langsung menghasilkan kode SVG animasi yang dapat di-deploy. Output ini berbasis kode murni, bukan piksel gambar, sehingga dapat di-zoom tanpa kehilangan kejernihan, ukuran file jauh lebih kecil dibandingkan format video tradisional, dan dapat langsung disematkan ke situs web.
Kemampuan ini menunjukkan bahwa model sedang bertransformasi dari “alat respons” menjadi “alat kreasi dan pengembangan”.
Peluncuran Serentak di Berbagai Platform, Pengalaman Awal untuk Perusahaan dan Pengembang
Saat ini, Gemini 3.1 Pro telah dibuka dalam bentuk pratinjau:
Pengembang
Gemini API (Google AI Studio)
Gemini CLI
Google Antigravity
Android Studio
Perusahaan
Vertex AI
Gemini Enterprise
Konsumen
Gemini App (Pengguna Pro dan Ultra mendapatkan batas penggunaan lebih tinggi)
NotebookLM (khusus pengguna Pro dan Ultra)
Google menyatakan bahwa fase pratinjau akan terus dioptimalkan, terutama dalam aplikasi lanjutan seperti alur kerja agenik, sebelum peluncuran resmi secara penuh.
Era “Berpikir Mendalam” dalam Kompetisi AI
Berdasarkan berbagai pengujian standar, Gemini 3.1 Pro secara jelas memfokuskan pada kemampuan penalaran tingkat tinggi dan aplikasi profesional. Nilai 77.1% ARC-AGI-2 sangat penting, menandakan terobosan model dalam menghadapi masalah logika yang tidak dikenal.
Dalam kompetisi model besar yang semakin ketat, Google tampaknya memilih untuk mengandalkan “kecerdasan yang lebih dalam”, bukan hanya meningkatkan kecepatan generasi atau kelancaran dialog.
Seiring perusahaan dan pengembang mulai menguji model ini, nilai sebenarnya akan muncul secara bertahap dalam aplikasi nyata. Fokus kompetisi AI mungkin beralih dari kemampuan menghasilkan ke kemampuan berpikir yang lebih komprehensif.
Artikel ini pertama kali muncul di Chain News ABMedia.