Mistral AI dévoile des modèles de transcription rapides et privés sur appareil

Le développeur français d'IA Mistral AI a lancé deux nouveaux modèles de transcription conçus pour fonctionner directement sur les appareils des utilisateurs, en priorisant la confidentialité et la vitesse. Les modèles, Voxtral Mini Transcribe 2 et Voxtral Realtime, visent à garder les conversations sensibles hors d'Internet. Ils permettent une transcription rapide et précise sans dépendre de serveurs cloud.

Mistral AI a annoncé ses derniers modèles de transcription mercredi, en se concentrant sur le traitement sur appareil pour améliorer la confidentialité de l'utilisateur. Ces outils sont particulièrement adaptés aux scénarios sensibles, tels que les discussions avec des médecins, des avocats ou des interviews journalistiques, où la sécurité des données est primordiale. Voxtral Mini Transcribe 2 est décrit comme « super, super petit » par Pierre Stock, vice-président des opérations scientifiques de Mistral. Cette compacité lui permet de fonctionner sur des téléphones, des ordinateurs portables ou même des wearables comme des montres connectées, éliminant le besoin d'envoyer l'audio vers des centres de données distants. Le deuxième modèle, Voxtral Realtime, prend en charge la transcription en direct similaire aux sous-titres fermés, avec une latence inférieure à 200 millisecondes — assez rapide pour égaler la vitesse de lecture et éviter des retards de deux ou trois secondes. Stock a souligné les avantages de l'informatique en périphérie : « Ce que vous voulez, c'est que la transcription se produise super, super près de vous. Et le plus proche que nous puissions trouver, c'est n'importe quel appareil périphérique, comme un ordinateur portable, un téléphone, un wearable comme une montre connectée, par exemple. » En traitant localement, les modèles réduisent la latence et protègent la confidentialité, car les conversations ne quittent jamais l'appareil. Les deux modèles prennent en charge 13 langues et sont disponibles via l'API de Mistral, Hugging Face ou l'AI Studio de l'entreprise. Lors de tests, Voxtral Realtime a transcrit de l'anglais avec un peu d'espagnol de manière précise et rapide, bien qu'il ait parfois mal géré les noms propres, comme en rendant « Mistral AI » par « Mr. Lay Eye » et « Voxtral » par « VoxTroll ». Stock a noté que les utilisateurs peuvent personnaliser les modèles pour un meilleur traitement de jargons ou de noms spécifiques. Mistral a mis en avant des performances de benchmarks montrant des taux d'erreur inférieurs à ceux des concurrents. Comme l'a expliqué Stock : « Il ne suffit pas de dire : OK, je vais faire un petit modèle. Ce dont vous avez besoin, c'est un petit modèle ayant la même qualité que les modèles plus grands, n'est-ce pas ? » Cet équilibre entre taille, vitesse et précision positionne les modèles comme une avancée dans la transcription IA accessible.

Articles connexes

Realistic illustration of a user experiencing Google's live translation feature via headphones on Android, with multilingual speech bubbles in an airport setting.
Image générée par IA

Google étend la traduction en direct à n'importe quels écouteurs

Rapporté par l'IA Image générée par IA

Google met à jour son application Translate pour permettre des traductions parole-parole en temps réel en utilisant n'importe quels écouteurs connectés sur des appareils Android. La fonctionnalité bêta, alimentée par Gemini AI, prend en charge plus de 70 langues et améliore la gestion des idioms et de l'argot. Elle est déployée initialement aux États-Unis, au Mexique et en Inde, avec un support iOS prévu plus tard.

La startup française Mistral AI a dévoilé une nouvelle famille de modèles d'IA conçus pour la traduction rapide. L'entreprise positionne cette sortie comme un défi aux grandes firmes d'IA américaines en insistant sur l'efficacité plutôt que sur une utilisation lourde de ressources. Mistral affirme que les modèles ouvrent la voie à des conversations multilingues fluides.

Rapporté par l'IA

La startup française Mistral AI a publié Devstral 2, un modèle d'IA open-weights de 123 milliards de paramètres pour le codage, obtenant 72,2 % sur le benchmark SWE-bench Verified. Parallèlement, l'entreprise a introduit Mistral Vibe, une interface en ligne de commande pour les tâches d'ingénierie logicielle autonomes. Une version plus petite, Devstral Small 2, a également été lancée pour un usage local sur du matériel grand public.

Dans une évaluation comparative de modèles d'IA leaders, le Gemini 3.2 Fast de Google a démontré des forces en précision factuelle sur le ChatGPT 5.2 d'OpenAI, particulièrement dans les tâches informationnelles. Les tests, motivés par le partenariat d'Apple avec Google pour améliorer Siri, mettent en lumière l'évolution des capacités de l'IA générative depuis 2023. Bien que les résultats fussent serrés, Gemini a évité des erreurs significatives qui ont miné la fiabilité de ChatGPT.

Rapporté par l'IA

Moxie Marlinspike, créateur de l’application de messagerie Signal, a présenté Confer, un assistant IA open source conçu pour prioriser la confidentialité des utilisateurs dans les conversations avec des modèles de langage de grande taille. L’outil chiffre les données et interactions des utilisateurs afin que seuls les titulaires de compte y aient accès, les protégeant des opérateurs de plateformes, des hackers et des forces de l’ordre. Ce lancement répond aux préoccupations croissantes concernant la collecte de données sur les plateformes IA.

ExpressVPN a découvert une fuite de 3,7 millions de données provenant d'un chatbot d'IA. Les informations divulguées comprennent des messages vocaux et textuels ainsi que des enregistrements audio privés pouvant durer jusqu'à quatre heures. Cette découverte rappelle l'importance du chiffrement.

Rapporté par l'IA

Apple a acquis Q.ai, une startup israélienne développant une technologie de lecture labiale pour les interfaces d'IA dans les wearables. L'accord, évalué à environ 2 milliards de dollars, signale des changements potentiels dans la manière dont les utilisateurs interagissent avec des appareils comme les lunettes et les écouteurs. Ce mouvement s'appuie sur l'historique d'Apple en intégrant des technologies de capteurs avancées dans ses produits.

 

 

 

Ce site utilise des cookies

Nous utilisons des cookies pour l'analyse afin d'améliorer notre site. Lisez notre politique de confidentialité pour plus d'informations.
Refuser