Mistral AI تكشف عن نماذج تحويل صوتي سريعة وخاصة تعمل على الجهاز

كشفت شركة Mistral AI الفرنسية لتطوير الذكاء الاصطناعي عن نموذجين جديدين لتحويل الصوت، مصممين للعمل مباشرة على أجهزة المستخدمين، مع التركيز على الخصوصية والسرعة. يهدف النموذجان، Voxtral Mini Transcribe 2 وVoxtral Realtime، إلى الحفاظ على المحادثات الحساسة خارج الإنترنت. يتيحان تحويل صوتي سريع ودقيق دون الاعتماد على خوادم سحابية.

أعلنت Mistral AI عن أحدث نماذجها لتحويل الصوت يوم الأربعاء، مع التركيز على المعالجة على الجهاز لتعزيز خصوصية المستخدم. هذه الأدوات مناسبة بشكل خاص للسيناريوهات الحساسة، مثل المناقشات مع الأطباء أو المحامين أو المقابلات الصحفية، حيث تكون أمان البيانات أمرًا حاسمًا. يُوصف Voxtral Mini Transcribe 2 بأنه «صغير جدًا، صغير جدًا» من قبل Pierre Stock، نائب رئيس عمليات العلوم في Mistral. تسمح هذه الصغر حجمًا بالعمل على الهواتف أو الحواسيب المحمولة أو حتى الأجهزة القابلة للارتداء مثل الساعات الذكية، مما يلغي الحاجة إلى إرسال الصوت إلى مراكز بيانات بعيدة. النموذج الثاني، Voxtral Realtime، يدعم التحويل الحي مشابهًا للتسميات التوضيحية المغلقة، مع زمن تأخير أقل من 200 مللي ثانية —سريع بما يكفي لمواكبة سرعة القراءة وتجنب التأخيرات لمدة ثانيتين أو ثلاث. أكد Stock فوائد الحوسبة الحافية: «ما تريده هو أن يحدث التحويل الصوتي قريبًا جدًا منك. والأقرب الذي يمكننا العثور عليه هو أي جهاز حافي، مثل حاسوب محمول أو هاتف أو جهاز قابل للارتداء مثل ساعة ذكية، على سبيل المثال». من خلال المعالجة محليًا، تقلل النماذج من التأخير وتحمي الخصوصية، حيث لا تغادر المحادثات الجهاز أبدًا. يدعمان كلا النموذجين 13 لغة ومتاحان عبر API Mistral أو Hugging Face أو AI Studio الخاص بالشركة. في الاختبارات، قام Voxtral Realtime بتحويل الإنجليزية مع بعض الإسبانية بدقة وسرعة، على الرغم من أنه أخطأ أحيانًا في الأسماء الخاصة، مثل تحويل «Mistral AI» إلى «Mr. Lay Eye» و«Voxtral» إلى «VoxTroll». لاحظ Stock أن المستخدمين يمكنهم تخصيص النماذج للتعامل الأفضل مع المصطلحات الخاصة أو الأسماء. سلطت Mistral الضوء على أداء المعايير الذي يظهر معدلات خطأ أقل من المنافسين. كما شرح Stock: «ليس كافيًا القول، حسناً، سأصنع نموذجًا صغيرًا. ما تحتاجه هو نموذج صغير بنفس جودة النماذج الكبيرة، أليس كذلك؟» يجعل هذا التوازن بين الحجم والسرعة والدقة النماذج خطوة متقدمة في تحويل الصوت الذكاء الاصطناعي المتاح.

مقالات ذات صلة

Realistic illustration of a user experiencing Google's live translation feature via headphones on Android, with multilingual speech bubbles in an airport setting.
صورة مولدة بواسطة الذكاء الاصطناعي

جوجل توسع الترجمة المباشرة إلى أي سماعات رأس

من إعداد الذكاء الاصطناعي صورة مولدة بواسطة الذكاء الاصطناعي

جوجل تقوم بتحديث تطبيق Translate الخاص بها للسماح بترجمات صوتية إلى صوتية في الوقت الفعلي باستخدام أي سماعات رأس متصلة على أجهزة أندرويد. الميزة التجريبية، التي تعمل بواسطة ذكاء جيميني الاصطناعي، تدعم أكثر من 70 لغة وتحسن التعامل مع الأمثال والعامية. يتم طرحها أولاً في الولايات المتحدة والمكسيك والهند، مع دعم iOS مخطط له لاحقاً.

كشفت الشركة الناشئة الفرنسية Mistral AI عن عائلة جديدة من نماذج الذكاء الاصطناعي المصممة للترجمة السريعة. تقدم الشركة هذا الإصدار كتحدٍ للشركات الكبرى الأمريكية في مجال الذكاء الاصطناعي من خلال التركيز على الكفاءة بدلاً من الاستهلاك الشديد للموارد. تؤكد Mistral أن هذه النماذج تمهد الطريق لمحادثات متعددة اللغات سلسة.

من إعداد الذكاء الاصطناعي

الشركة الناشئة الفرنسية Mistral AI أطلقت Devstral 2، وهو نموذج ذكاء اصطناعي مفتوح الأوزان بـ123 مليار معلمة للبرمجة، وحقق 72.2% في معيار SWE-bench Verified. إلى جانبه، قدمت الشركة Mistral Vibe، واجهة سطر أوامر لمهام هندسة البرمجيات الذاتية. كما ظهرت نسخة أصغر، Devstral Small 2، للاستخدام المحلي على أجهزة المستهلكين.

أطلقت OpenAI نموذج ChatGPT-5.2، وهي عائلة جديدة من نماذج الذكاء الاصطناعي مصممة لتعزيز الاستدلال والإنتاجية، خاصة في المهام المهنية. يأتي الإصدار بعد تنبيه داخلي من الرئيس التنفيذي سام ألتمان بشأن المنافسة من Gemini 3 التابع لجوجل. تشمل التحديث ثلاثة إصدارات موجهة لاحتياجات مستخدمين مختلفة، بدءًا من المشتركين المدفوعين.

من إعداد الذكاء الاصطناعي

Chinese AI pioneer SenseTime is leveraging its computer vision roots to lead the next phase of AI, shifting towards multimodal systems and embodied intelligence in the physical world. Co-founder and chief scientist Lin Dahua stated that this approach mirrors Google's, starting with vision capabilities as the core and adding language to build true multimodal systems.

أعلنت جوجل أن نموذجها التجريبي للذكاء الاصطناعي، جيني 3، متاح الآن لمشتركي خطة الذكاء الاصطناعي الأعلى مستوى. تتيح الأداة للمستخدمين إنشاء واستكشاف عوالم ثلاثية الأبعاد تفاعلية باستخدام تعليمات نصية بسيطة. كانت مقتصرة سابقًا على المختبرين الموثوقين، وتشير هذه التوسعة إلى خطوة نحو توافر أوسع للجمهور البالغ من 18 عامًا فما فوق.

من إعداد الذكاء الاصطناعي

وكلاء البرمجة بالذكاء الاصطناعي من شركات مثل OpenAI وAnthropic وGoogle يمكّنون من العمل الممتد على مشاريع البرمجيات، بما في ذلك كتابة التطبيقات وإصلاح الأخطاء تحت إشراف بشري. تعتمد هذه الأدوات على نماذج لغة كبيرة لكنها تواجه تحديات مثل معالجة السياق المحدودة والتكاليف الحوسبية العالية. فهم آلياتها يساعد المطورين على اتخاذ قرارات بشأن نشرها بفعالية.

 

 

 

يستخدم هذا الموقع ملفات تعريف الارتباط

نستخدم ملفات تعريف الارتباط للتحليلات لتحسين موقعنا. اقرأ سياسة الخصوصية الخاصة بنا سياسة الخصوصية لمزيد من المعلومات.
رفض