
Google DeepMind merilis Gemini 3.1 Pro pada 19 Februari 2026 — model yang mencatat kenaikan skor penalaran abstrak terbesar dalam satu generasi: dari 31,1 persen menjadi 77,1 persen pada benchmark ARC-AGI-2. Namun para analis mengingatkan bahwa tidak ada satu model pun yang menang di semua lini.
SURAKARTA — Google DeepMind merilis Gemini 3.1 Pro dalam mode preview pada 19 Februari 2026, menandai pertama kalinya Google menggunakan penomoran “.1” untuk pembaruan di tengah siklus. Sebelumnya, Google selalu menggunakan “.5” untuk pembaruan semacam ini — perubahan penamaan yang menurut Google sendiri mencerminkan besarnya lompatan kemampuan, khususnya di bidang penalaran.
Dalam blog resminya, Google menyatakan bahwa kecerdasan yang sebelumnya hanya tersedia di Gemini 3 Deep Think — model yang bulan lalu berhasil menyanggah sebuah konjektur matematika berusia satu dekade — kini telah “didistilasi” ke dalam Gemini 3.1 Pro untuk penggunaan sehari-hari. Model ini mulai bergulir ke pengguna Google AI Pro dan Ultra, juga tersedia bagi pengembang melalui Google AI Studio, Vertex AI, Gemini CLI, dan Android Studio.
DATA & BENCHMARK GEMINI 3.1 PRO
Tanggal rilis: 19 Februari 2026 (preview) — Sumber: Google DeepMind
ARC-AGI-2: 77,1% — lebih dari dua kali lipat Gemini 3 Pro (31,1%) — Sumber: Google
GPQA Diamond: 94,3% (pertanyaan setingkat doktor lintas ilmu) — Sumber: Google
SWE-Bench Verified: 80,6% (resolusi bug nyata di GitHub) — Sumber: NxCode/Google
Konteks: hingga 1 juta token — proses PDF 900 halaman atau video 1 jam — Sumber: Google
Unggul di 13 dari 16 benchmark utama yang dilacak — Sumber: DataCamp
Intelligence Index (Artificial Analysis): skor 57, peringkat #1 dari 115 model
Harga API: $2 per 1 juta token input, $12 per 1 juta token output — sama dengan Gemini 3 Pro
Lompatan Penalaran Terbesar dalam Satu Generasi
Kenaikan dari 31,1 persen ke 77,1 persen pada ARC-AGI-2 dalam satu siklus pembaruan disebut oleh beberapa analis sebagai lompatan terbesar yang pernah dicatat oleh satu keluarga model. ARC-AGI-2 dirancang khusus untuk mengukur kemampuan penalaran baru — bukan hafalan — sehingga model tidak bisa sekadar “belajar menghapal” jawaban dari data latih. Google menyebut kemampuan ini sebagai “penalaran efisien”: model memperoleh lebih banyak wawasan per token komputasi dalam rantai penalarannya.
Dalam hal kemampuan koding, Gemini 3.1 Pro mencatat 80,6 persen pada SWE-Bench Verified — tolok ukur yang mengukur kemampuan model menyelesaikan isu nyata dari repositori GitHub secara mandiri — serta meraih peringkat Elo 2887 di LiveCodeBench Pro, jauh di atas GPT-5.2 yang ada di angka 2393. Pada MCP Atlas, yang mengukur koordinasi penggunaan alat digital dalam tugas multi-langkah, Gemini 3.1 Pro mencatat 69,2 persen.
“Dirancang untuk tugas-tugas di mana jawaban sederhana saja tidak cukup.”
— Google, blog resmi peluncuran Gemini 3.1 Pro, 19 Februari 2026
Tidak Ada Model yang Menang di Semua Lini
Meski Gemini 3.1 Pro unggul di 13 dari 16 benchmark utama yang dilacak oleh DataCamp, analisis independen menunjukkan bahwa persaingan di garis depan AI tetap ketat dan terspesialisasi. Claude Opus 4.6 milik Anthropic masih mencatat skor lebih tinggi di SWE-Bench Verified dengan selisih tipis: 80,8 persen berbanding 80,6 persen. Opus 4.6 juga lebih unggul pada GDPval-AA, tolok ukur yang mengukur kemampuan menyelesaikan tugas-tugas perkantoran tingkat ahli.
GPT-5.3-Codex dari OpenAI, sementara itu, masih memimpin pada Terminal-Bench 2.0 dengan skor 77,3 persen — tolok ukur yang berfokus pada pipeline koding berbasis terminal yang sangat spesifik. Ini berarti pilihan model terbaik sangat bergantung pada jenis pekerjaan: Gemini 3.1 Pro lebih kuat untuk penalaran abstrak dan tugas agentic lintas modalitas, Opus 4.6 lebih andal untuk tugas rekayasa perangkat lunak dan perkantoran, sementara GPT-5.3-Codex masih relevan untuk pipeline koding yang sangat terspesialisasi.
Tiga Tingkat Berpikir dan Harga yang Tetap Sama
Salah satu perubahan arsitektur yang menonjol pada Gemini 3.1 Pro adalah pengenalan tiga tingkat berpikir: Rendah (untuk pertanyaan sederhana dan klasifikasi cepat), Menengah (untuk tinjauan kode dan analisis data), dan Tinggi (untuk penalaran mendalam pada masalah kompleks). Sebelumnya, model ini hanya memiliki dua mode. Penambahan tingkat Menengah memungkinkan pengembang mengoptimalkan keseimbangan antara kecepatan respons dan kedalaman penalaran.
Yang menarik perhatian para pengembang adalah keputusan Google mempertahankan harga yang sama dengan Gemini 3 Pro: dua dolar per satu juta token masukan dan 12 dolar per satu juta token keluaran. Ini menjadikan Gemini 3.1 Pro 7,5 kali lebih murah dari Claude Opus 4.6 pada sisi masukan. Artificial Analysis mencatat bahwa model ini juga sangat cepat dalam menghasilkan respons — 114 token per detik setelah token pertama keluar — meski waktu untuk menghasilkan token pertama cukup lama, sekitar 26 hingga 29 detik, akibat proses penalaran internal yang panjang.
Persaingan Februari 2026 yang Tidak Biasa
Menurut DataCamp, Februari 2026 menjadi salah satu bulan paling intens dalam sejarah persaingan model AI. Anthropic merilis Claude Opus 4.6 dan Claude Sonnet 4.6 dalam rentang dua pekan, sebelum Google langsung membalas dengan Gemini 3.1 Pro. Hasilnya adalah lanskap model yang tidak lagi memiliki pemenang tunggal yang jelas, melainkan serangkaian pertukaran kemampuan yang rumit tergantung pada kasus penggunaan.
Google merilis 3.1 Pro dalam status preview — bukan rilis umum penuh — dengan alasan ingin terus memvalidasi pembaruan dan mengembangkan lebih jauh kemampuan agentic sebelum ketersediaan umum. Ini juga berarti benchmark yang dipublikasikan diambil dalam mode Thinking High, sehingga hasil nyata bisa bervariasi tergantung tingkat berpikir dan strategi pemberian instruksi yang digunakan.
Sumber: Google DeepMind Blog (blog.google) · Google DeepMind Model Card · DataCamp (datacamp.com) · Artificial Analysis (artificialanalysis.ai) · NxCode · Digital Applied