كشفت شركة Mistral AI الفرنسية لتطوير الذكاء الاصطناعي عن نموذجين جديدين لتحويل الصوت، مصممين للعمل مباشرة على أجهزة المستخدمين، مع التركيز على الخصوصية والسرعة. يهدف النموذجان، Voxtral Mini Transcribe 2 وVoxtral Realtime، إلى الحفاظ على المحادثات الحساسة خارج الإنترنت. يتيحان تحويل صوتي سريع ودقيق دون الاعتماد على خوادم سحابية.
أعلنت Mistral AI عن أحدث نماذجها لتحويل الصوت يوم الأربعاء، مع التركيز على المعالجة على الجهاز لتعزيز خصوصية المستخدم. هذه الأدوات مناسبة بشكل خاص للسيناريوهات الحساسة، مثل المناقشات مع الأطباء أو المحامين أو المقابلات الصحفية، حيث تكون أمان البيانات أمرًا حاسمًا. يُوصف Voxtral Mini Transcribe 2 بأنه «صغير جدًا، صغير جدًا» من قبل Pierre Stock، نائب رئيس عمليات العلوم في Mistral. تسمح هذه الصغر حجمًا بالعمل على الهواتف أو الحواسيب المحمولة أو حتى الأجهزة القابلة للارتداء مثل الساعات الذكية، مما يلغي الحاجة إلى إرسال الصوت إلى مراكز بيانات بعيدة. النموذج الثاني، Voxtral Realtime، يدعم التحويل الحي مشابهًا للتسميات التوضيحية المغلقة، مع زمن تأخير أقل من 200 مللي ثانية —سريع بما يكفي لمواكبة سرعة القراءة وتجنب التأخيرات لمدة ثانيتين أو ثلاث. أكد Stock فوائد الحوسبة الحافية: «ما تريده هو أن يحدث التحويل الصوتي قريبًا جدًا منك. والأقرب الذي يمكننا العثور عليه هو أي جهاز حافي، مثل حاسوب محمول أو هاتف أو جهاز قابل للارتداء مثل ساعة ذكية، على سبيل المثال». من خلال المعالجة محليًا، تقلل النماذج من التأخير وتحمي الخصوصية، حيث لا تغادر المحادثات الجهاز أبدًا. يدعمان كلا النموذجين 13 لغة ومتاحان عبر API Mistral أو Hugging Face أو AI Studio الخاص بالشركة. في الاختبارات، قام Voxtral Realtime بتحويل الإنجليزية مع بعض الإسبانية بدقة وسرعة، على الرغم من أنه أخطأ أحيانًا في الأسماء الخاصة، مثل تحويل «Mistral AI» إلى «Mr. Lay Eye» و«Voxtral» إلى «VoxTroll». لاحظ Stock أن المستخدمين يمكنهم تخصيص النماذج للتعامل الأفضل مع المصطلحات الخاصة أو الأسماء. سلطت Mistral الضوء على أداء المعايير الذي يظهر معدلات خطأ أقل من المنافسين. كما شرح Stock: «ليس كافيًا القول، حسناً، سأصنع نموذجًا صغيرًا. ما تحتاجه هو نموذج صغير بنفس جودة النماذج الكبيرة، أليس كذلك؟» يجعل هذا التوازن بين الحجم والسرعة والدقة النماذج خطوة متقدمة في تحويل الصوت الذكاء الاصطناعي المتاح.