Googles Gemini 3-modell utmärker sig i benchmarks men står inför tillförlitlighetsproblem

Google har presenterat sin senaste AI-modell, Gemini 3, som överträffar konkurrenter på flera nyckelmätningar, inklusive en poäng på 37,5 procent på Humanity’s Last Exam. Företaget hävdar att den uppnår doktorandnivå i resonemang, men experter varnar för att sådana poäng kanske inte speglar verkliga förmågor. Ihållande hallucinationer förblir en oro för praktiska tillämpningar.

I ett nyligen publicerat blogginlägg annonserade Google-cheferna Sundar Pichai, Demis Hassabis och Koray Kavukcuoglu lanseringen av Gemini 3, och framhöll dess överlägsna prestanda på tester på graduate-nivå. Modellen fick 37,5 procent på Humanity’s Last Exam, en samling av 2 500 forskningsnivåfrågor inom matematik, vetenskap och humaniora, vilket överträffar OpenAI:s GPT-5 som uppnådde 26,5 procent.

Experter som Luc Rocher från University of Oxford betonar begränsningarna i dessa benchmarks. “Om en modell går från 80 procent till 90 procent på en benchmark, vad betyder det? Betyder det att en modell var 80 procent doktorandnivå och nu är 90 procent doktorandnivå? Jag tycker det är ganska svårt att förstå”, sa Rocher. Han tillade: “Det finns ingen siffra vi kan sätta på om en AI-modell har resonemang, eftersom det är en mycket subjektiv föreställning.” Benchmarks bygger ofta på flervalfrågor som inte kräver att visa arbetet, och det finns en risk att träningsdata inkluderar test-svar, vilket tillåter modeller att fuska effektivt.

Google anger att Gemini 3:s förbättringar kommer att förbättra mjukvaruproduktion, e-postorganisation, dokumentanalys och Google-sökning genom tillagda grafik och simuleringar. Adam Mahdi från University of Oxford förutspår fördelar i agentiska kodningsarbetsflöden snarare än vardaglig chatt: “Jag tror att vi når övre gränsen för vad en typisk chatbot kan göra, och de verkliga fördelarna med Gemini 3 Pro kommer troligen att ligga i mer komplexa, potentiellt agentiska arbetsflöden, snarare än vardaglig chatt.”

Reaktioner online blandar beröm för kodnings- och resonemangsförmågor med kritik för misslyckanden i enkla visuella uppgifter, som att spåra handritade pilar. Google erkänner pågående hallucinationer och faktiska fel med hastigheter liknande konkurrenter. Artur d’Avila Garcez från City St George’s, University of London, varnar: “Problemet är att alla AI-företag har försökt minska hallucinationer i mer än två år, men du behöver bara en väldigt dålig hallucination för att förstöra förtroendet för systemet för gott.” Dessa problem väcker frågor om att motivera massiva investeringar i AI-infrastruktur.

Denna webbplats använder cookies

Vi använder cookies för analys för att förbättra vår webbplats. Läs vår integritetspolicy för mer information.
Avböj