كشفت جوجل عن أحدث نموذج ذكاء اصطناعي لها، جيميناي 3، الذي يتفوق على المنافسين في عدة معايير رئيسية، بما في ذلك درجة 37.5 في المئة في امتحان آخر البشرية. تدعي الشركة أنه يحقق مستوى تفكير دكتوراه، لكن الخبراء يحذرون من أن مثل هذه الدرجات قد لا تعكس القدرات في العالم الحقيقي. الوهميات المستمرة لا تزال مصدر قلق للتطبيقات العملية.
في منشور مدونة حديث، أعلن مدراء تنفيذيو جوجل سوندار بيتشاي، وديميس هاسابيس، وكوراي كافوكجوغلو عن إصدار جيميناي 3، مشددين على أدائه الفائق في الاختبارات على مستوى الدراسات العليا. سجل النموذج 37.5 في المئة في امتحان آخر البشرية، وهو مجموعة من 2500 سؤال على مستوى البحث عبر الرياضيات والعلوم والإنسانيات، متفوقًا على GPT-5 من OpenAI الذي حقق 26.5 في المئة.
يؤكد خبراء مثل لوس روشر من جامعة أكسفورد على قيود هذه المعايير. “إذا انتقل نموذج من 80 في المئة إلى 90 في المئة في معيار، ماذا يعني ذلك؟ هل يعني أن النموذج كان 80 في المئة على مستوى الدكتوراه والآن 90 في المئة على مستوى الدكتوراه؟ أعتقد أنه صعب الفهم جدًا”، قال روشر. وأضاف: “لا يوجد رقم يمكننا وضعه على ما إذا كان نموذج الذكاء الاصطناعي يمتلك تفكيرًا، لأن هذا مفهوم ذاتي جدًا”. تعتمد المعايير غالبًا على تنسيقات الاختيار المتعدد التي لا تتطلب إظهار العمل، وهناك خطر أن تشمل بيانات التدريب إجابات الاختبار، مما يسمح للنماذج بالغش بفعالية.
تؤكد جوجل أن التحسينات في جيميناي 3 ستحسن إنتاج البرمجيات، وتنظيم البريد الإلكتروني، وتحليل الوثائق، وبحث جوجل من خلال إضافة الرسومات والمحاكاة. يتنبأ آدم مهدي من جامعة أكسفورد بفوائد في تدفقات العمل البرمجية الوكيلية بدلاً من الدردشة العابرة: “أعتقد أننا نصل إلى الحد الأعلى لما يمكن لروبوت الدردشة النموذجي فعله، وسوف تكون الفوائد الحقيقية لجيميناي 3 برو ربما في تدفقات عمل أكثر تعقيدًا، محتملة الوكيلية، بدلاً من الدردشة اليومية”.
تختلط الردود عبر الإنترنت بين الثناء على قدرات البرمجة والتفكير مع الانتقادات للفشل في مهام بصرية بسيطة، مثل تتبع الأسهم المرسومة يدويًا. تعترف جوجل بالوهميات المستمرة وعدم الدقة الواقعية بمعدلات مشابهة للمنافسين. يحذر أرتور دافيلا غارسيز من مدينة سانت جورج، جامعة لندن: “المشكلة أن جميع شركات الذكاء الاصطناعي تحاول تقليل الوهميات منذ أكثر من عامين، لكنك تحتاج فقط إلى وهمية واحدة سيئة جدًا لتدمير الثقة في النظام إلى الأبد”. تثير هذه المشكلات أسئلة حول تبرير الاستثمارات الضخمة في بنية تحتية الذكاء الاصطناعي.