Google Luncurkan Gemini Deep Think AI, Model Penalaran yang Uji Banyak Ide Secara Paralel

Google Luncurkan Gemini Deep Think AI, Model Penalaran yang Uji Banyak Ide Secara Paralel

Gemini Deep Think AI dari Google menjelajahi dan mempertimbangkan banyak ide sekaligus untuk memberikan jawaban terbaik.

Gemini Deep Think AI: Inovasi Terbaru dari Google

Google DeepMind baru saja meluncurkan Gemini 2.5 Deep Think, model AI penalaran tercanggih yang mampu menjawab pertanyaan dengan menjelajahi dan mempertimbangkan banyak ide sekaligus. Dengan kemampuan ini, Gemini 2.5 Deep Think dapat memilih jawaban terbaik dari berbagai opsi yang dihasilkan.

Model ini tersedia untuk pelanggan Ultra Google dengan biaya $250 per bulan melalui aplikasi Gemini mulai Jumat ini. Gemini 2.5 Deep Think pertama kali diperkenalkan pada Mei di acara Google I/O 2025 dan menjadi model multi-agen pertama yang tersedia untuk publik. Sistem ini memungkinkan beberapa agen AI untuk menangani pertanyaan secara paralel, yang memerlukan sumber daya komputasi lebih banyak dibandingkan satu agen, tetapi menghasilkan jawaban yang lebih baik.

Prestasi dan Penggunaan Gemini 2.5 Deep Think

Google menggunakan variasi dari Gemini 2.5 Deep Think untuk meraih medali emas di Olimpiade Matematika Internasional (IMO) tahun ini. Selain itu, model yang digunakan di IMO akan dirilis kepada sekelompok matematikawan dan akademisi terpilih. Google berharap model ini dapat meningkatkan upaya penelitian dan mendapatkan masukan untuk memperbaiki sistem multi-agen untuk penggunaan akademis.

Gemini 2.5 Deep Think merupakan peningkatan signifikan dari apa yang diumumkan di I/O. Google juga mengklaim telah mengembangkan teknik pembelajaran penguatan baru untuk mendorong Gemini 2.5 Deep Think memanfaatkan jalur penalarannya dengan lebih baik. 'Deep Think dapat membantu orang menangani masalah yang memerlukan kreativitas, perencanaan strategis, dan perbaikan langkah demi langkah,' kata Google dalam sebuah posting blog yang dibagikan dengan TechCrunch.

Model ini mencapai kinerja terbaik pada Ujian Terakhir Kemanusiaan (HLE) — sebuah tes menantang yang mengukur kemampuan AI untuk menjawab ribuan pertanyaan crowdsourced di bidang matematika, humaniora, dan sains. Google mengklaim modelnya mencetak 34,8% pada HLE (tanpa alat), dibandingkan dengan Grok 4 dari xAI yang mencetak 25,4%, dan o3 dari OpenAI yang mencetak 20,3%.

Selain itu, Gemini 2.5 Deep Think mengungguli model AI dari OpenAI, xAI, dan Anthropic pada LiveCodeBench6, sebuah tes menantang dari tugas pengkodean kompetitif. Model Google mencetak 87,6%, sementara Grok 4 mencetak 79%, dan o3 dari OpenAI mencetak 72%.

Gemini 2.5 Deep Think secara otomatis bekerja dengan alat seperti eksekusi kode dan Google Search, dan perusahaan mengatakan mampu menghasilkan 'respon yang jauh lebih panjang' dibandingkan model AI tradisional. Dalam pengujian Google, model ini menghasilkan tugas pengembangan web yang lebih rinci dan estetis dibandingkan model AI lainnya.

Perusahaan mengklaim model ini dapat membantu peneliti dan 'berpotensi mempercepat jalur menuju penemuan.' Tampaknya beberapa laboratorium AI terkemuka sedang berkumpul di sekitar pendekatan multi-agen. xAI milik Elon Musk baru-baru ini merilis sistem multi-agen mereka sendiri, Grok 4 Heavy, yang diklaim mampu mencapai kinerja terdepan di industri pada beberapa tolok ukur.

Peneliti OpenAI, Noam Brown, mengatakan dalam sebuah podcast bahwa model AI yang belum dirilis yang digunakan perusahaan untuk meraih medali emas di Olimpiade Matematika Internasional tahun ini juga merupakan sistem multi-agen. Sementara itu, agen Penelitian Anthropic, yang menghasilkan ringkasan penelitian yang mendalam, juga didukung oleh sistem multi-agen.

Terlepas dari kinerja yang kuat, tampaknya sistem multi-agen bahkan lebih mahal untuk dilayani dibandingkan model AI tradisional. Itu berarti perusahaan teknologi mungkin akan tetap menyimpan sistem ini di balik rencana langganan termahal mereka, yang telah dipilih oleh xAI dan sekarang Google.

Dalam beberapa minggu mendatang, Google berencana untuk berbagi Gemini 2.5 Deep Think dengan sekelompok penguji terpilih melalui API Gemini. Perusahaan mengatakan ingin lebih memahami bagaimana pengembang dan perusahaan dapat menggunakan sistem multi-agen mereka.


Artikel Terkait