A desenvolvedora francesa de IA Mistral AI lançou dois novos modelos de transcrição projetados para rodar diretamente nos dispositivos dos usuários, priorizando privacidade e velocidade. Os modelos, Voxtral Mini Transcribe 2 e Voxtral Realtime, visam manter conversas sensíveis fora da internet. Eles permitem transcrição rápida e precisa sem depender de servidores em nuvem.
A Mistral AI anunciou seus modelos de transcrição mais recentes na quarta-feira, focando no processamento no dispositivo para aprimorar a privacidade do usuário. Essas ferramentas são particularmente adequadas para cenários sensíveis, como discussões com médicos, advogados ou entrevistas jornalísticas, onde a segurança dos dados é primordial. O Voxtral Mini Transcribe 2 é descrito como «super, super pequeno» por Pierre Stock, vice-presidente de operações científicas da Mistral. Essa compactação permite que funcione em telefones, laptops ou até wearables como smartwatches, eliminando a necessidade de enviar áudio para centros de dados remotos. O segundo modelo, Voxtral Realtime, suporta transcrição ao vivo semelhante a legendas fechadas, com latência inferior a 200 milissegundos — rápida o suficiente para acompanhar a velocidade de leitura e evitar atrasos de dois ou três segundos. Stock enfatizou os benefícios da computação de borda: «O que você quer é que a transcrição aconteça super, super perto de você. E o mais próximo que podemos encontrar é qualquer dispositivo de borda, como um laptop, um telefone, um wearable como um smartwatch, por exemplo.» Ao processar localmente, os modelos reduzem a latência e protegem a privacidade, pois as conversas nunca saem do dispositivo. Ambos os modelos suportam 13 idiomas e estão disponíveis via API da Mistral, Hugging Face ou AI Studio da empresa. Em testes, o Voxtral Realtime transcreveu inglês com algum espanhol de forma precisa e rápida, embora ocasionalmente tenha tratado mal nomes próprios, como renderizando «Mistral AI» como «Mr. Lay Eye» e «Voxtral» como «VoxTroll.» Stock observou que os usuários podem personalizar os modelos para melhor manuseio de jargões ou nomes específicos. A Mistral destacou o desempenho em benchmarks mostrando taxas de erro menores que as dos concorrentes. Como explicou Stock: «Não basta dizer, OK, vou fazer um modelo pequeno. O que você precisa é um modelo pequeno com a mesma qualidade dos modelos maiores, certo?» Esse equilíbrio de tamanho, velocidade e precisão posiciona os modelos como um avanço na transcrição de IA acessível.