وفقاً لتقرير صادر عن شركة "جنرال ريزونينج" (General Reasoning) الناشئة، خسرت أنظمة ذكاء اصطناعي من شركات رائدة بما فيها "جوجل" (Google)، و"أوبن إيه آي" (OpenAI)، و"أنثروبيك" (Anthropic)، و"إكس إيه آي" (xAI) أموالاً عند المراهنة على مباريات كرة القدم في موسم 2023-2024 بالدوري الإنجليزي الممتاز ضمن بيئة محاكاة. وقد اختبرت الدراسة، التي تحمل اسم "كيلي بنش" (KellyBench)، ثمانية نماذج رائدة حول قدرتها على إدارة المخاطر والتكيف بمرور الوقت، حيث كان نموذج "كلود أوبس 4.6" (Claude Opus 4.6) من "أنثروبيك" هو الأفضل أداءً بخسارة متوسطة بلغت 11 بالمئة، بينما فشل نموذج "جروك 4.20" (Grok 4.20) من "إكس إيه آي" بشكل متكرر.
أصدرت شركة "جنرال ريزونينج"، وهي شركة ذكاء اصطناعي ناشئة مقرها لندن، تقرير "كيلي بنش" هذا الأسبوع، مسلطة الضوء على محدودية نماذج الذكاء الاصطناعي المتقدمة. وقامت الشركة بمحاكاة موسم 2023-2024 الكامل للدوري الإنجليزي الممتاز، حيث زودت نماذج الذكاء الاصطناعي ببيانات تاريخية، وإحصائيات الفرق، وتعليمات لبناء نماذج مراهنات تهدف إلى تعظيم العوائد مع إدارة المخاطر. وضعت النماذج رهانات على نتائج المباريات وإجمالي الأهداف دون الوصول إلى شبكة الإنترنت، وحصل كل منها على ثلاث محاولات لتحقيق الربح مع تطور الموسم وتلقي تحديثات فورية حول اللاعبين والأحداث. وخلص التقرير إلى أن أياً منها لم ينجح بشكل متسق، حيث تعرض العديد منها للإفلاس، وكان أداء الأنظمة أقل من أداء البشر بشكل منهجي. وقد خسرت كافة النماذج المتقدمة الأموال إجمالاً، وعانى العديد منها من تدهور مالي كامل. واقترب نموذج "كلود أوبس 4.6" من "أنثروبيك" من تحقيق نقطة التعادل في إحدى المحاولات، بمتوسط خسارة بلغ 11 بالمئة. بينما حقق نموذج "جيمناي 3.1 برو" (Gemini 3.1 Pro) من "جوجل" ربحاً بنسبة 34 بالمئة في محاولة واحدة، لكنه أفلس في محاولة أخرى. أما نموذج "جروك 4.20" من "إكس إيه آي" فقد أفلس في محاولة واحدة وفشل في إكمال المحاولات الأخرى. وقال روس تايلور، الرئيس التنفيذي لشركة "جنرال ريزونينج" والباحث السابق في "ميتا إيه آي" (Meta AI): "هناك ضجة كبيرة حول أتمتة الذكاء الاصطناعي، ولكن لا يوجد الكثير من القياس حول وضع الذكاء الاصطناعي في بيئة ذات أفق زمني طويل". وانتقد معايير الذكاء الاصطناعي الشائعة واصفاً إياها بأنها ثابتة للغاية ولا تشبه فوضى العالم الحقيقي. وأضاف تايلور: "إذا جربت الذكاء الاصطناعي في بعض مهام العالم الحقيقي، فإنه يبلي بلاءً سيئاً للغاية". ولا تزال الورقة البحثية بانتظار المراجعة من قبل الأقران.