El desarrollador francés de IA Mistral AI ha lanzado dos nuevos modelos de transcripción diseñados para ejecutarse directamente en los dispositivos de los usuarios, priorizando la privacidad y la velocidad. Los modelos, Voxtral Mini Transcribe 2 y Voxtral Realtime, buscan mantener las conversaciones sensibles fuera de internet. Permiten una transcripción rápida y precisa sin depender de servidores en la nube.
Mistral AI anunció sus últimos modelos de transcripción el miércoles, con un enfoque en el procesamiento en el dispositivo para mejorar la privacidad del usuario. Estas herramientas son particularmente adecuadas para escenarios sensibles, como discusiones con médicos, abogados o entrevistas periodísticas, donde la seguridad de los datos es primordial. Voxtral Mini Transcribe 2 es descrito como «súper, súper pequeño» por Pierre Stock, vicepresidente de operaciones científicas de Mistral. Esta compacidad permite que funcione en teléfonos, ordenadores portátiles o incluso wearables como relojes inteligentes, eliminando la necesidad de enviar audio a centros de datos remotos. El segundo modelo, Voxtral Realtime, permite la transcripción en vivo similar a los subtítulos cerrados, con una latencia de menos de 200 milisegundos —lo suficientemente rápido para igualar la velocidad de lectura y evitar retrasos de dos o tres segundos—. Stock enfatizó los beneficios de la computación en el borde: «Lo que quieres es que la transcripción ocurra súper, súper cerca de ti. Y lo más cerca que podemos encontrar de ti es cualquier dispositivo en el borde, como un portátil, un teléfono, un wearable como un reloj inteligente, por ejemplo». Al procesar localmente, los modelos reducen la latencia y protegen la privacidad, ya que las conversaciones nunca abandonan el dispositivo. Ambos modelos soportan 13 idiomas y están disponibles a través de la API de Mistral, Hugging Face o el AI Studio de la compañía. En pruebas, Voxtral Realtime transcribió inglés con algo de español de manera precisa y rápida, aunque ocasionalmente manejó mal nombres propios, como convirtiendo «Mistral AI» en «Mr. Lay Eye» y «Voxtral» en «VoxTroll». Stock señaló que los usuarios pueden personalizar los modelos para un mejor manejo de jerga específica o nombres. Mistral destacó el rendimiento en benchmarks que muestra tasas de error más bajas que las de los competidores. Como explicó Stock: «No es suficiente decir: OK, haré un modelo pequeño. Lo que necesitas es un modelo pequeño que tenga la misma calidad que los modelos grandes, ¿verdad?». Este equilibrio de tamaño, velocidad y precisión posiciona a los modelos como un avance en la transcripción accesible con IA.