Mistral AI lanserar snabba privata transkriptionsmodeller på enheten

Den franska AI-utvecklaren Mistral AI har släppt två nya transkriptionsmodeller utformade för att köras direkt på användarens enheter, med fokus på integritet och hastighet. Modellerna, Voxtral Mini Transcribe 2 och Voxtral Realtime, syftar till att hålla känsliga samtal borta från internet. De möjliggör snabb och noggrann transkription utan att förlita sig på molnservrar.

Mistral AI tillkännagav sina senaste transkriptionsmodeller på onsdagen, med fokus på enhetsbaserad bearbetning för att förbättra användarens integritet. Dessa verktyg är särskilt lämpade för känsliga situationer, såsom samtal med läkare, advokater eller journalistiska intervjuer, där dataskydd är avgörande. Voxtral Mini Transcribe 2 beskrivs som «super, super liten» av Pierre Stock, Mistral's vice president för vetenskapliga operationer. Denna kompaktitet gör att den kan köras på telefoner, bärbara datorer eller till och med wearables som smartklockor, vilket eliminerar behovet av att skicka ljud till avlägsna datacenter. Den andra modellen, Voxtral Realtime, stöder live-transkription liknande sluten undertextning, med en latens på mindre än 200 millisekunder — tillräckligt snabbt för att matcha läshastighet och undvika förseningar på två eller tre sekunder. Stock betonade fördelarna med edge computing: «Det du vill är att transkriptionen ska ske super, super nära dig. Och det närmaste vi kan hitta är vilken edge-enhet som helst, som en bärbar dator, en telefon, en wearable som en smartklocka, till exempel.» Genom lokal bearbetning minskar modellerna latensen och skyddar integriteten, eftersom samtalen aldrig lämnar enheten. Båda modellerna stöder 13 språk och är tillgängliga via Mistral's API, Hugging Face eller företagets AI Studio. I tester transkriberade Voxtral Realtime engelska med lite spanska korrekt och snabbt, även om den ibland hanterade egna namn fel, som att återge «Mistral AI» som «Mr. Lay Eye» och «Voxtral» som «VoxTroll.» Stock noterade att användare kan anpassa modellerna för bättre hantering av specifik jargong eller namn. Mistral framhöll benchmark-prestanda som visar lägre felgrader än konkurrenter. Som Stock förklarade: «Det räcker inte med att säga, OK, jag gör en liten modell. Du behöver en liten modell med samma kvalitet som större modeller, eller hur?» Denna balans mellan storlek, hastighet och noggrannhet positionerar modellerna som ett steg framåt i tillgänglig AI-transkription.

Relaterade artiklar

Realistic illustration of a user experiencing Google's live translation feature via headphones on Android, with multilingual speech bubbles in an airport setting.
Bild genererad av AI

Google utökar liveöversättning till valfria hörlurar

Rapporterad av AI Bild genererad av AI

Google uppdaterar sin Translate-app för att möjliggöra realtids tal-till-tal-översättningar med valfria anslutna hörlurar på Android-enheter. Betafunktionen, driven av Gemini AI, stöder över 70 språk och förbättrar hanteringen av idiomatiska uttryck och slang. Den rullas ut initialt i USA, Mexiko och Indien, med iOS-stöd planerat senare.

Det franska startupföretaget Mistral AI har presenterat en ny familj av AI-modeller utformade för snabb översättning. Företaget ställer detta släpp som en utmaning till stora amerikanska AI-företag genom att betona effektivitet framför tung resursanvändning. Mistral hävdar att modellerna banar väg för sömlösa flerspråkiga samtal.

Rapporterad av AI

Det franska startupföretaget Mistral AI har släppt Devstral 2, en öppenvikts-AI-modell med 123 miljarder parametrar för kodning som scorer 72,2 procent på SWE-bench Verified-benchmarken. Tillsammans med den introducerade företaget Mistral Vibe, ett kommandoradsgränssnitt för autonoma mjukvaruutvecklingsuppgifter. En mindre version, Devstral Small 2, debuterade också för lokal användning på konsumenthårdvara.

OpenAI har lanserat ChatGPT-5.2, en ny familj av AI-modeller utformade för att förbättra resonemang och produktivitet, särskilt för professionella uppgifter. Lanseringen följer ett internt varning från VD Sam Altman om konkurrens från Googles Gemini 3. Uppdateringen inkluderar tre varianter anpassade för olika användarbehov, med start för betalande prenumeranter.

Rapporterad av AI

Chinese AI pioneer SenseTime is leveraging its computer vision roots to lead the next phase of AI, shifting towards multimodal systems and embodied intelligence in the physical world. Co-founder and chief scientist Lin Dahua stated that this approach mirrors Google's, starting with vision capabilities as the core and adding language to build true multimodal systems.

Google har meddelat att dess experimentella AI-prototyp, Genie 3, nu är tillgänglig för prenumeranter på företagets högsta AI-plan. Verktyget låter användare skapa och navigera interaktiva 3D-världar med enkla textkommandon. Tidigare begränsat till betrodda testare markerar denna utökning ett steg mot bredare tillgång för personer från 18 år och uppåt.

Rapporterad av AI

AI-kodningsagenter från företag som OpenAI, Anthropic och Google möjliggör utökat arbete på mjukvaruprojekt, inklusive att skriva appar och fixa buggar under mänsklig översyn. Dessa verktyg bygger på stora språkmodeller men står inför utmaningar som begränsad kontextbehandling och höga beräkningskostnader. Att förstå deras mekanik hjälper utvecklare att besluta när de ska användas effektivt.

 

 

 

Denna webbplats använder cookies

Vi använder cookies för analys för att förbättra vår webbplats. Läs vår integritetspolicy för mer information.
Avböj