Mistral AI lanza modelos de transcripción rápidos y privados en el dispositivo

El desarrollador francés de IA Mistral AI ha lanzado dos nuevos modelos de transcripción diseñados para ejecutarse directamente en los dispositivos de los usuarios, priorizando la privacidad y la velocidad. Los modelos, Voxtral Mini Transcribe 2 y Voxtral Realtime, buscan mantener las conversaciones sensibles fuera de internet. Permiten una transcripción rápida y precisa sin depender de servidores en la nube.

Mistral AI anunció sus últimos modelos de transcripción el miércoles, con un enfoque en el procesamiento en el dispositivo para mejorar la privacidad del usuario. Estas herramientas son particularmente adecuadas para escenarios sensibles, como discusiones con médicos, abogados o entrevistas periodísticas, donde la seguridad de los datos es primordial. Voxtral Mini Transcribe 2 es descrito como «súper, súper pequeño» por Pierre Stock, vicepresidente de operaciones científicas de Mistral. Esta compacidad permite que funcione en teléfonos, ordenadores portátiles o incluso wearables como relojes inteligentes, eliminando la necesidad de enviar audio a centros de datos remotos. El segundo modelo, Voxtral Realtime, permite la transcripción en vivo similar a los subtítulos cerrados, con una latencia de menos de 200 milisegundos —lo suficientemente rápido para igualar la velocidad de lectura y evitar retrasos de dos o tres segundos—. Stock enfatizó los beneficios de la computación en el borde: «Lo que quieres es que la transcripción ocurra súper, súper cerca de ti. Y lo más cerca que podemos encontrar de ti es cualquier dispositivo en el borde, como un portátil, un teléfono, un wearable como un reloj inteligente, por ejemplo». Al procesar localmente, los modelos reducen la latencia y protegen la privacidad, ya que las conversaciones nunca abandonan el dispositivo. Ambos modelos soportan 13 idiomas y están disponibles a través de la API de Mistral, Hugging Face o el AI Studio de la compañía. En pruebas, Voxtral Realtime transcribió inglés con algo de español de manera precisa y rápida, aunque ocasionalmente manejó mal nombres propios, como convirtiendo «Mistral AI» en «Mr. Lay Eye» y «Voxtral» en «VoxTroll». Stock señaló que los usuarios pueden personalizar los modelos para un mejor manejo de jerga específica o nombres. Mistral destacó el rendimiento en benchmarks que muestra tasas de error más bajas que las de los competidores. Como explicó Stock: «No es suficiente decir: OK, haré un modelo pequeño. Lo que necesitas es un modelo pequeño que tenga la misma calidad que los modelos grandes, ¿verdad?». Este equilibrio de tamaño, velocidad y precisión posiciona a los modelos como un avance en la transcripción accesible con IA.

Artículos relacionados

Realistic illustration of a user experiencing Google's live translation feature via headphones on Android, with multilingual speech bubbles in an airport setting.
Imagen generada por IA

Google amplía la traducción en vivo a cualquier auriculares

Reportado por IA Imagen generada por IA

Google está actualizando su app Translate para permitir traducciones en tiempo real de voz a voz utilizando cualquier auriculares conectados en dispositivos Android. La función beta, impulsada por Gemini AI, soporta más de 70 idiomas y mejora el manejo de idiotismos y jerga. Se lanza inicialmente en EE.UU., México e India, con soporte para iOS planeado para más adelante.

La startup francesa Mistral AI ha desvelado una nueva familia de modelos de IA diseñados para la traducción rápida. La empresa posiciona este lanzamiento como un desafío a las grandes firmas de IA estadounidenses al enfatizar la eficiencia sobre el uso intensivo de recursos. Mistral afirma que los modelos allanan el camino para conversaciones multilingües fluidas.

Reportado por IA

La startup francesa Mistral AI ha lanzado Devstral 2, un modelo de IA de pesos abiertos con 123.000 millones de parámetros para codificación, que obtiene un 72,2 % en el benchmark SWE-bench Verified. Junto a él, la compañía presentó Mistral Vibe, una interfaz de línea de comandos para tareas de ingeniería de software autónomas. También debutó una versión más pequeña, Devstral Small 2, para uso local en hardware de consumo.

OpenAI ha lanzado ChatGPT-5.2, una nueva familia de modelos de IA diseñados para mejorar el razonamiento y la productividad, especialmente para tareas profesionales. El lanzamiento sigue a una alerta interna del CEO Sam Altman sobre la competencia de Gemini 3 de Google. La actualización incluye tres variantes dirigidas a diferentes necesidades de usuarios, empezando con los suscriptores de pago.

Reportado por IA

La pionera china en IA SenseTime aprovecha sus raíces en visión por computador para liderar la siguiente fase de la IA, desplazándose hacia sistemas multimodales e inteligencia encarnada en el mundo físico. El cofundador y director científico Lin Dahua afirmó que este enfoque es similar al de Google, comenzando con capacidades de visión como núcleo y añadiendo lenguaje para construir sistemas multimodales verdaderos.

Google ha anunciado que su prototipo experimental de IA, Genie 3, está ahora disponible para los suscriptores de su plan de IA de mayor nivel. La herramienta permite a los usuarios generar y navegar mundos 3D interactivos usando simples indicaciones de texto. Anteriormente limitada a probadores de confianza, esta expansión marca un paso hacia un acceso más amplio para mayores de 18 años.

Reportado por IA

Los agentes de codificación con IA de empresas como OpenAI, Anthropic y Google permiten trabajos prolongados en proyectos de software, incluyendo la escritura de aplicaciones y la corrección de errores bajo supervisión humana. Estas herramientas se basan en modelos de lenguaje grandes pero enfrentan desafíos como el procesamiento limitado de contexto y altos costos computacionales. Comprender su mecánica ayuda a los desarrolladores a decidir cuándo desplegarlos de manera efectiva.

 

 

 

Este sitio web utiliza cookies

Utilizamos cookies para análisis con el fin de mejorar nuestro sitio. Lee nuestra política de privacidad para más información.
Rechazar