Mistral AI lança modelos de transcrição rápidos e privados no dispositivo

A desenvolvedora francesa de IA Mistral AI lançou dois novos modelos de transcrição projetados para rodar diretamente nos dispositivos dos usuários, priorizando privacidade e velocidade. Os modelos, Voxtral Mini Transcribe 2 e Voxtral Realtime, visam manter conversas sensíveis fora da internet. Eles permitem transcrição rápida e precisa sem depender de servidores em nuvem.

A Mistral AI anunciou seus modelos de transcrição mais recentes na quarta-feira, focando no processamento no dispositivo para aprimorar a privacidade do usuário. Essas ferramentas são particularmente adequadas para cenários sensíveis, como discussões com médicos, advogados ou entrevistas jornalísticas, onde a segurança dos dados é primordial. O Voxtral Mini Transcribe 2 é descrito como «super, super pequeno» por Pierre Stock, vice-presidente de operações científicas da Mistral. Essa compactação permite que funcione em telefones, laptops ou até wearables como smartwatches, eliminando a necessidade de enviar áudio para centros de dados remotos. O segundo modelo, Voxtral Realtime, suporta transcrição ao vivo semelhante a legendas fechadas, com latência inferior a 200 milissegundos — rápida o suficiente para acompanhar a velocidade de leitura e evitar atrasos de dois ou três segundos. Stock enfatizou os benefícios da computação de borda: «O que você quer é que a transcrição aconteça super, super perto de você. E o mais próximo que podemos encontrar é qualquer dispositivo de borda, como um laptop, um telefone, um wearable como um smartwatch, por exemplo.» Ao processar localmente, os modelos reduzem a latência e protegem a privacidade, pois as conversas nunca saem do dispositivo. Ambos os modelos suportam 13 idiomas e estão disponíveis via API da Mistral, Hugging Face ou AI Studio da empresa. Em testes, o Voxtral Realtime transcreveu inglês com algum espanhol de forma precisa e rápida, embora ocasionalmente tenha tratado mal nomes próprios, como renderizando «Mistral AI» como «Mr. Lay Eye» e «Voxtral» como «VoxTroll.» Stock observou que os usuários podem personalizar os modelos para melhor manuseio de jargões ou nomes específicos. A Mistral destacou o desempenho em benchmarks mostrando taxas de erro menores que as dos concorrentes. Como explicou Stock: «Não basta dizer, OK, vou fazer um modelo pequeno. O que você precisa é um modelo pequeno com a mesma qualidade dos modelos maiores, certo?» Esse equilíbrio de tamanho, velocidade e precisão posiciona os modelos como um avanço na transcrição de IA acessível.

Artigos relacionados

Realistic illustration of a user experiencing Google's live translation feature via headphones on Android, with multilingual speech bubbles in an airport setting.
Imagem gerada por IA

Google expande tradução ao vivo para qualquer fones de ouvido

Reportado por IA Imagem gerada por IA

O Google está atualizando seu app Translate para permitir traduções de fala para fala em tempo real usando qualquer fones de ouvido conectados em dispositivos Android. O recurso beta, alimentado pelo Gemini AI, suporta mais de 70 idiomas e melhora o tratamento de expressões idiomáticas e gíria. É lançado inicialmente nos EUA, México e Índia, com suporte para iOS planejado para depois.

A startup francesa Mistral AI revelou uma nova família de modelos de IA projetados para tradução rápida. A empresa posiciona este lançamento como um desafio às principais empresas de IA dos EUA, enfatizando a eficiência em vez do uso intensivo de recursos. A Mistral afirma que os modelos abrem o caminho para conversas multilingues fluidas.

Reportado por IA

A startup francesa Mistral AI lançou o Devstral 2, um modelo de IA de pesos abertos com 123 bilhões de parâmetros para codificação, registrando 72,2% no benchmark SWE-bench Verified. Ao lado dele, a empresa introduziu o Mistral Vibe, uma interface de linha de comando para tarefas de engenharia de software autônomas. Uma versão menor, Devstral Small 2, também estreou para uso local em hardware de consumo.

Em uma avaliação comparativa de modelos líderes de IA, o Gemini 3.2 Fast do Google demonstrou forças em precisão factual sobre o ChatGPT 5.2 da OpenAI, particularmente em tarefas informacionais. Os testes, motivados pela parceria da Apple com o Google para aprimorar o Siri, destacam as capacidades em evolução da IA generativa desde 2023. Embora os resultados fossem próximos, o Gemini evitou erros significativos que comprometeram a confiabilidade do ChatGPT.

Reportado por IA

Moxie Marlinspike, criador do aplicativo de mensagens Signal, lançou o Confer, um assistente de IA de código aberto projetado para priorizar a privacidade do usuário em conversas com modelos de linguagem grandes. A ferramenta criptografa dados e interações do usuário para que apenas os titulares da conta possam acessá-los, protegendo-os de operadores de plataformas, hackers e forças policiais. Este lançamento aborda preocupações crescentes com a coleta de dados em plataformas de IA.

A ExpressVPN descobriu 3,7 milhões de itens de dados vazados de um chatbot de IA. As informações vazadas incluem mensagens de voz e de texto, bem como gravações de áudio privadas de até quatro horas de duração. A descoberta serve como um lembrete da importância da criptografia.

Reportado por IA

A Apple adquiriu a Q.ai, uma startup israelense que desenvolve tecnologia de leitura labial para interfaces de IA em wearables. O acordo, avaliado em cerca de 2 bilhões de dólares, sinaliza mudanças potenciais na forma como os usuários interagem com dispositivos como óculos e fones de ouvido. Essa jogada se baseia na história da Apple de integrar tecnologias de sensores avançados em seus produtos.

 

 

 

Este site usa cookies

Usamos cookies para análise para melhorar nosso site. Leia nossa política de privacidade para mais informações.
Recusar