Sistem AI dari perusahaan terkemuka termasuk Google, OpenAI, Anthropic, dan xAI mengalami kerugian saat bertaruh pada pertandingan sepak bola dalam simulasi musim Liga Primer 2023-24, menurut laporan dari startup General Reasoning. Studi yang disebut KellyBench ini menguji delapan model teratas mengenai kemampuan mereka dalam mengelola risiko dan beradaptasi dari waktu ke waktu. Claude Opus 4.6 milik Anthropic mencatatkan kinerja terbaik dengan rata-rata kerugian 11 persen, sementara Grok 4.20 milik xAI berulang kali gagal.
General Reasoning, startup AI yang berbasis di London, merilis laporan KellyBench minggu ini, menyoroti keterbatasan pada model AI mutakhir. Perusahaan tersebut menyimulasikan satu musim penuh Liga Primer 2023-24 dengan memberikan data historis, statistik tim, serta instruksi kepada AI untuk membangun model taruhan yang memaksimalkan keuntungan sekaligus mengelola risiko. Model-model tersebut bertaruh pada hasil pertandingan dan total gol tanpa akses internet, dan masing-masing diberi tiga kesempatan untuk mendapatkan keuntungan seiring berjalannya musim dengan pembaruan pemain dan peristiwa secara real-time. Tidak ada satu pun yang berhasil secara konsisten, bahkan banyak yang mengalami kebangkrutan. Laporan tersebut menyimpulkan bahwa sistem-sistem ini secara sistematis berkinerja lebih buruk daripada manusia. Setiap model mutakhir mengalami kerugian secara keseluruhan, dan beberapa di antaranya bahkan hancur. Claude Opus 4.6 milik Anthropic hampir mencapai titik impas dalam satu percobaan dengan rata-rata kerugian 11 persen. Gemini 3.1 Pro milik Google sempat meraih keuntungan 34 persen sekali, namun bangkrut pada percobaan lainnya. Grok 4.20 milik xAI bangkrut dalam satu kali percobaan dan gagal menyelesaikan percobaan lainnya. Ross Taylor, kepala eksekutif General Reasoning sekaligus mantan peneliti AI di Meta, mengatakan: “Ada begitu banyak gembar-gembor mengenai otomatisasi AI, namun tidak banyak pengukuran saat AI ditempatkan dalam pengaturan jangka panjang.” Ia mengkritik tolok ukur AI yang umum dianggap terlalu statis, berbeda dengan kekacauan di dunia nyata. Taylor menambahkan: “Jika Anda mencoba AI pada beberapa tugas dunia nyata, kinerjanya sangat buruk.” Makalah ini masih menunggu tinjauan sejawat.