Le développeur français d'IA Mistral AI a lancé deux nouveaux modèles de transcription conçus pour fonctionner directement sur les appareils des utilisateurs, en priorisant la confidentialité et la vitesse. Les modèles, Voxtral Mini Transcribe 2 et Voxtral Realtime, visent à garder les conversations sensibles hors d'Internet. Ils permettent une transcription rapide et précise sans dépendre de serveurs cloud.
Mistral AI a annoncé ses derniers modèles de transcription mercredi, en se concentrant sur le traitement sur appareil pour améliorer la confidentialité de l'utilisateur. Ces outils sont particulièrement adaptés aux scénarios sensibles, tels que les discussions avec des médecins, des avocats ou des interviews journalistiques, où la sécurité des données est primordiale. Voxtral Mini Transcribe 2 est décrit comme « super, super petit » par Pierre Stock, vice-président des opérations scientifiques de Mistral. Cette compacité lui permet de fonctionner sur des téléphones, des ordinateurs portables ou même des wearables comme des montres connectées, éliminant le besoin d'envoyer l'audio vers des centres de données distants. Le deuxième modèle, Voxtral Realtime, prend en charge la transcription en direct similaire aux sous-titres fermés, avec une latence inférieure à 200 millisecondes — assez rapide pour égaler la vitesse de lecture et éviter des retards de deux ou trois secondes. Stock a souligné les avantages de l'informatique en périphérie : « Ce que vous voulez, c'est que la transcription se produise super, super près de vous. Et le plus proche que nous puissions trouver, c'est n'importe quel appareil périphérique, comme un ordinateur portable, un téléphone, un wearable comme une montre connectée, par exemple. » En traitant localement, les modèles réduisent la latence et protègent la confidentialité, car les conversations ne quittent jamais l'appareil. Les deux modèles prennent en charge 13 langues et sont disponibles via l'API de Mistral, Hugging Face ou l'AI Studio de l'entreprise. Lors de tests, Voxtral Realtime a transcrit de l'anglais avec un peu d'espagnol de manière précise et rapide, bien qu'il ait parfois mal géré les noms propres, comme en rendant « Mistral AI » par « Mr. Lay Eye » et « Voxtral » par « VoxTroll ». Stock a noté que les utilisateurs peuvent personnaliser les modèles pour un meilleur traitement de jargons ou de noms spécifiques. Mistral a mis en avant des performances de benchmarks montrant des taux d'erreur inférieurs à ceux des concurrents. Comme l'a expliqué Stock : « Il ne suffit pas de dire : OK, je vais faire un petit modèle. Ce dont vous avez besoin, c'est un petit modèle ayant la même qualité que les modèles plus grands, n'est-ce pas ? » Cet équilibre entre taille, vitesse et précision positionne les modèles comme une avancée dans la transcription IA accessible.