Mistral AI dévoile des modèles de transcription rapides et privés sur appareil

Le développeur français d'IA Mistral AI a lancé deux nouveaux modèles de transcription conçus pour fonctionner directement sur les appareils des utilisateurs, en priorisant la confidentialité et la vitesse. Les modèles, Voxtral Mini Transcribe 2 et Voxtral Realtime, visent à garder les conversations sensibles hors d'Internet. Ils permettent une transcription rapide et précise sans dépendre de serveurs cloud.

Mistral AI a annoncé ses derniers modèles de transcription mercredi, en se concentrant sur le traitement sur appareil pour améliorer la confidentialité de l'utilisateur. Ces outils sont particulièrement adaptés aux scénarios sensibles, tels que les discussions avec des médecins, des avocats ou des interviews journalistiques, où la sécurité des données est primordiale. Voxtral Mini Transcribe 2 est décrit comme « super, super petit » par Pierre Stock, vice-président des opérations scientifiques de Mistral. Cette compacité lui permet de fonctionner sur des téléphones, des ordinateurs portables ou même des wearables comme des montres connectées, éliminant le besoin d'envoyer l'audio vers des centres de données distants. Le deuxième modèle, Voxtral Realtime, prend en charge la transcription en direct similaire aux sous-titres fermés, avec une latence inférieure à 200 millisecondes — assez rapide pour égaler la vitesse de lecture et éviter des retards de deux ou trois secondes. Stock a souligné les avantages de l'informatique en périphérie : « Ce que vous voulez, c'est que la transcription se produise super, super près de vous. Et le plus proche que nous puissions trouver, c'est n'importe quel appareil périphérique, comme un ordinateur portable, un téléphone, un wearable comme une montre connectée, par exemple. » En traitant localement, les modèles réduisent la latence et protègent la confidentialité, car les conversations ne quittent jamais l'appareil. Les deux modèles prennent en charge 13 langues et sont disponibles via l'API de Mistral, Hugging Face ou l'AI Studio de l'entreprise. Lors de tests, Voxtral Realtime a transcrit de l'anglais avec un peu d'espagnol de manière précise et rapide, bien qu'il ait parfois mal géré les noms propres, comme en rendant « Mistral AI » par « Mr. Lay Eye » et « Voxtral » par « VoxTroll ». Stock a noté que les utilisateurs peuvent personnaliser les modèles pour un meilleur traitement de jargons ou de noms spécifiques. Mistral a mis en avant des performances de benchmarks montrant des taux d'erreur inférieurs à ceux des concurrents. Comme l'a expliqué Stock : « Il ne suffit pas de dire : OK, je vais faire un petit modèle. Ce dont vous avez besoin, c'est un petit modèle ayant la même qualité que les modèles plus grands, n'est-ce pas ? » Cet équilibre entre taille, vitesse et précision positionne les modèles comme une avancée dans la transcription IA accessible.

Articles connexes

Realistic illustration of a user experiencing Google's live translation feature via headphones on Android, with multilingual speech bubbles in an airport setting.
Image générée par IA

Google étend la traduction en direct à n'importe quels écouteurs

Rapporté par l'IA Image générée par IA

Google met à jour son application Translate pour permettre des traductions parole-parole en temps réel en utilisant n'importe quels écouteurs connectés sur des appareils Android. La fonctionnalité bêta, alimentée par Gemini AI, prend en charge plus de 70 langues et améliore la gestion des idioms et de l'argot. Elle est déployée initialement aux États-Unis, au Mexique et en Inde, avec un support iOS prévu plus tard.

La startup française Mistral AI a dévoilé une nouvelle famille de modèles d'IA conçus pour la traduction rapide. L'entreprise positionne cette sortie comme un défi aux grandes firmes d'IA américaines en insistant sur l'efficacité plutôt que sur une utilisation lourde de ressources. Mistral affirme que les modèles ouvrent la voie à des conversations multilingues fluides.

Rapporté par l'IA

La startup française Mistral AI a publié Devstral 2, un modèle d'IA open-weights de 123 milliards de paramètres pour le codage, obtenant 72,2 % sur le benchmark SWE-bench Verified. Parallèlement, l'entreprise a introduit Mistral Vibe, une interface en ligne de commande pour les tâches d'ingénierie logicielle autonomes. Une version plus petite, Devstral Small 2, a également été lancée pour un usage local sur du matériel grand public.

OpenAI a lancé ChatGPT-5.2, une nouvelle famille de modèles d’IA conçus pour renforcer le raisonnement et la productivité, en particulier pour les tâches professionnelles. Ce lancement fait suite à une alerte interne du PDG Sam Altman concernant la concurrence de Gemini 3 de Google. La mise à jour comprend trois variantes adaptées à différents besoins des utilisateurs, à partir des abonnés payants.

Rapporté par l'IA

Chinese AI pioneer SenseTime is leveraging its computer vision roots to lead the next phase of AI, shifting towards multimodal systems and embodied intelligence in the physical world. Co-founder and chief scientist Lin Dahua stated that this approach mirrors Google's, starting with vision capabilities as the core and adding language to build true multimodal systems.

Google a annoncé que son prototype expérimental d'IA, Genie 3, est désormais disponible pour les abonnés de son plan d'IA de niveau supérieur. L'outil permet aux utilisateurs de générer et de naviguer dans des mondes 3D interactifs à l'aide de prompts textuels simples. Précédemment limité aux testeurs de confiance, cette extension marque une étape vers un accès plus large pour le public à partir de 18 ans.

Rapporté par l'IA

Les agents de codage IA de sociétés comme OpenAI, Anthropic et Google permettent un travail prolongé sur des projets logiciels, y compris l'écriture d'applications et la correction de bugs sous surveillance humaine. Ces outils reposent sur de grands modèles de langage mais font face à des défis comme un traitement de contexte limité et des coûts computationnels élevés. Comprendre leur fonctionnement aide les développeurs à décider quand les déployer efficacement.

 

 

 

Ce site utilise des cookies

Nous utilisons des cookies pour l'analyse afin d'améliorer notre site. Lisez notre politique de confidentialité pour plus d'informations.
Refuser