Den franska AI-utvecklaren Mistral AI har släppt två nya transkriptionsmodeller utformade för att köras direkt på användarens enheter, med fokus på integritet och hastighet. Modellerna, Voxtral Mini Transcribe 2 och Voxtral Realtime, syftar till att hålla känsliga samtal borta från internet. De möjliggör snabb och noggrann transkription utan att förlita sig på molnservrar.
Mistral AI tillkännagav sina senaste transkriptionsmodeller på onsdagen, med fokus på enhetsbaserad bearbetning för att förbättra användarens integritet. Dessa verktyg är särskilt lämpade för känsliga situationer, såsom samtal med läkare, advokater eller journalistiska intervjuer, där dataskydd är avgörande. Voxtral Mini Transcribe 2 beskrivs som «super, super liten» av Pierre Stock, Mistral's vice president för vetenskapliga operationer. Denna kompaktitet gör att den kan köras på telefoner, bärbara datorer eller till och med wearables som smartklockor, vilket eliminerar behovet av att skicka ljud till avlägsna datacenter. Den andra modellen, Voxtral Realtime, stöder live-transkription liknande sluten undertextning, med en latens på mindre än 200 millisekunder — tillräckligt snabbt för att matcha läshastighet och undvika förseningar på två eller tre sekunder. Stock betonade fördelarna med edge computing: «Det du vill är att transkriptionen ska ske super, super nära dig. Och det närmaste vi kan hitta är vilken edge-enhet som helst, som en bärbar dator, en telefon, en wearable som en smartklocka, till exempel.» Genom lokal bearbetning minskar modellerna latensen och skyddar integriteten, eftersom samtalen aldrig lämnar enheten. Båda modellerna stöder 13 språk och är tillgängliga via Mistral's API, Hugging Face eller företagets AI Studio. I tester transkriberade Voxtral Realtime engelska med lite spanska korrekt och snabbt, även om den ibland hanterade egna namn fel, som att återge «Mistral AI» som «Mr. Lay Eye» och «Voxtral» som «VoxTroll.» Stock noterade att användare kan anpassa modellerna för bättre hantering av specifik jargong eller namn. Mistral framhöll benchmark-prestanda som visar lägre felgrader än konkurrenter. Som Stock förklarade: «Det räcker inte med att säga, OK, jag gör en liten modell. Du behöver en liten modell med samma kvalitet som större modeller, eller hur?» Denna balans mellan storlek, hastighet och noggrannhet positionerar modellerna som ett steg framåt i tillgänglig AI-transkription.