Mistral AI lança modelos de transcrição rápidos e privados no dispositivo

A desenvolvedora francesa de IA Mistral AI lançou dois novos modelos de transcrição projetados para rodar diretamente nos dispositivos dos usuários, priorizando privacidade e velocidade. Os modelos, Voxtral Mini Transcribe 2 e Voxtral Realtime, visam manter conversas sensíveis fora da internet. Eles permitem transcrição rápida e precisa sem depender de servidores em nuvem.

A Mistral AI anunciou seus modelos de transcrição mais recentes na quarta-feira, focando no processamento no dispositivo para aprimorar a privacidade do usuário. Essas ferramentas são particularmente adequadas para cenários sensíveis, como discussões com médicos, advogados ou entrevistas jornalísticas, onde a segurança dos dados é primordial. O Voxtral Mini Transcribe 2 é descrito como «super, super pequeno» por Pierre Stock, vice-presidente de operações científicas da Mistral. Essa compactação permite que funcione em telefones, laptops ou até wearables como smartwatches, eliminando a necessidade de enviar áudio para centros de dados remotos. O segundo modelo, Voxtral Realtime, suporta transcrição ao vivo semelhante a legendas fechadas, com latência inferior a 200 milissegundos — rápida o suficiente para acompanhar a velocidade de leitura e evitar atrasos de dois ou três segundos. Stock enfatizou os benefícios da computação de borda: «O que você quer é que a transcrição aconteça super, super perto de você. E o mais próximo que podemos encontrar é qualquer dispositivo de borda, como um laptop, um telefone, um wearable como um smartwatch, por exemplo.» Ao processar localmente, os modelos reduzem a latência e protegem a privacidade, pois as conversas nunca saem do dispositivo. Ambos os modelos suportam 13 idiomas e estão disponíveis via API da Mistral, Hugging Face ou AI Studio da empresa. Em testes, o Voxtral Realtime transcreveu inglês com algum espanhol de forma precisa e rápida, embora ocasionalmente tenha tratado mal nomes próprios, como renderizando «Mistral AI» como «Mr. Lay Eye» e «Voxtral» como «VoxTroll.» Stock observou que os usuários podem personalizar os modelos para melhor manuseio de jargões ou nomes específicos. A Mistral destacou o desempenho em benchmarks mostrando taxas de erro menores que as dos concorrentes. Como explicou Stock: «Não basta dizer, OK, vou fazer um modelo pequeno. O que você precisa é um modelo pequeno com a mesma qualidade dos modelos maiores, certo?» Esse equilíbrio de tamanho, velocidade e precisão posiciona os modelos como um avanço na transcrição de IA acessível.

Artigos relacionados

Realistic illustration of a user experiencing Google's live translation feature via headphones on Android, with multilingual speech bubbles in an airport setting.
Imagem gerada por IA

Google expande tradução ao vivo para qualquer fones de ouvido

Reportado por IA Imagem gerada por IA

O Google está atualizando seu app Translate para permitir traduções de fala para fala em tempo real usando qualquer fones de ouvido conectados em dispositivos Android. O recurso beta, alimentado pelo Gemini AI, suporta mais de 70 idiomas e melhora o tratamento de expressões idiomáticas e gíria. É lançado inicialmente nos EUA, México e Índia, com suporte para iOS planejado para depois.

A startup francesa Mistral AI revelou uma nova família de modelos de IA projetados para tradução rápida. A empresa posiciona este lançamento como um desafio às principais empresas de IA dos EUA, enfatizando a eficiência em vez do uso intensivo de recursos. A Mistral afirma que os modelos abrem o caminho para conversas multilingues fluidas.

Reportado por IA

A startup francesa Mistral AI lançou o Devstral 2, um modelo de IA de pesos abertos com 123 bilhões de parâmetros para codificação, registrando 72,2% no benchmark SWE-bench Verified. Ao lado dele, a empresa introduziu o Mistral Vibe, uma interface de linha de comando para tarefas de engenharia de software autônomas. Uma versão menor, Devstral Small 2, também estreou para uso local em hardware de consumo.

A OpenAI lançou o ChatGPT-5.2, uma nova família de modelos de IA projetados para aprimorar o raciocínio e a produtividade, particularmente para tarefas profissionais. O lançamento segue um alerta interno do CEO Sam Altman sobre a concorrência do Gemini 3 do Google. A atualização inclui três variantes destinadas a diferentes necessidades de usuários, começando pelos assinantes pagos.

Reportado por IA

Chinese AI pioneer SenseTime is leveraging its computer vision roots to lead the next phase of AI, shifting towards multimodal systems and embodied intelligence in the physical world. Co-founder and chief scientist Lin Dahua stated that this approach mirrors Google's, starting with vision capabilities as the core and adding language to build true multimodal systems.

Google anunciou que seu protótipo experimental de IA, Genie 3, agora está disponível para assinantes de seu plano de IA de nível mais alto. A ferramenta permite que os usuários gerem e naveguem por mundos 3D interativos usando prompts de texto simples. Anteriormente limitada a testadores confiáveis, essa expansão marca um passo em direção a um acesso mais amplo para o público a partir de 18 anos.

Reportado por IA

Agentes de codificação com IA de empresas como OpenAI, Anthropic e Google permitem trabalhos prolongados em projetos de software, incluindo a escrita de aplicativos e correção de bugs sob supervisão humana. Essas ferramentas dependem de modelos de linguagem grandes, mas enfrentam desafios como processamento de contexto limitado e altos custos computacionais. Entender sua mecânica ajuda os desenvolvedores a decidir quando implantá-los de forma eficaz.

 

 

 

Este site usa cookies

Usamos cookies para análise para melhorar nosso site. Leia nossa política de privacidade para mais informações.
Recusar