Model Gemini 3 milik Google unggul dalam benchmark tetapi menghadapi masalah keandalan

Google telah mengungkapkan model AI terbarunya, Gemini 3, yang mengungguli rival-rivalnya dalam beberapa benchmark kunci, termasuk skor 37,5 persen pada Humanity’s Last Exam. Perusahaan mengklaim bahwa model ini mencapai penalaran tingkat PhD, namun para ahli memperingatkan bahwa skor tersebut mungkin tidak mencerminkan kemampuan di dunia nyata. Halusinasi yang persisten tetap menjadi kekhawatiran untuk aplikasi praktis.

Dalam posting blog baru-baru ini, eksekutif Google Sundar Pichai, Demis Hassabis, dan Koray Kavukcuoglu mengumumkan peluncuran Gemini 3, menyoroti kinerja superiornya pada tes tingkat pascasarjana. Model tersebut mencetak 37,5 persen pada Humanity’s Last Exam, sekumpulan 2.500 pertanyaan tingkat penelitian di bidang matematika, sains, dan humaniora, mengalahkan GPT-5 milik OpenAI yang mencapai 26,5 persen.

Para ahli seperti Luc Rocher dari Universitas Oxford menekankan keterbatasan benchmark ini. “Jika sebuah model naik dari 80 persen menjadi 90 persen pada benchmark, apa artinya? Apakah itu berarti model tersebut 80 persen tingkat PhD dan sekarang 90 persen tingkat PhD? Saya pikir itu cukup sulit dipahami,” kata Rocher. Ia menambahkan, “Tidak ada angka yang bisa kita berikan untuk menentukan apakah model AI memiliki penalaran, karena ini adalah konsep yang sangat subjektif.” Benchmark sering bergantung pada format pilihan ganda yang tidak memerlukan penjelasan kerja, dan ada risiko bahwa data pelatihan mencakup jawaban tes, memungkinkan model untuk curang secara efektif.

Google menyatakan bahwa peningkatan Gemini 3 akan meningkatkan produksi perangkat lunak, pengorganisasian email, analisis dokumen, dan pencarian Google melalui penambahan grafis dan simulasi. Adam Mahdi dari Universitas Oxford memprediksi manfaat dalam alur kerja pengkodean agentik daripada obrolan santai: “Saya pikir kita mencapai batas atas dari apa yang bisa dilakukan oleh chatbot tipikal, dan manfaat nyata dari Gemini 3 Pro kemungkinan akan ada pada alur kerja yang lebih kompleks, potensial agentik, daripada obrolan sehari-hari.”

Reaksi online mencampur pujian atas kemampuan pengkodean dan penalaran dengan kritik atas kegagalan dalam tugas visual sederhana, seperti melacak panah yang digambar tangan. Google mengakui halusinasi yang sedang berlangsung dan ketidakakuratan faktual dengan tingkat serupa dengan pesaing. Artur d’Avila Garcez dari City St George’s, University of London, memperingatkan, “Masalahnya adalah bahwa semua perusahaan AI telah mencoba mengurangi halusinasi selama lebih dari dua tahun, tapi Anda hanya perlu satu halusinasi yang sangat buruk untuk menghancurkan kepercayaan pada sistem selamanya.” Masalah ini menimbulkan pertanyaan tentang pembenaran investasi besar-besaran dalam infrastruktur AI.

Situs web ini menggunakan cookie

Kami menggunakan cookie untuk analisis guna meningkatkan situs kami. Baca kebijakan privasi kami untuk informasi lebih lanjut.
Tolak