Pengembang AI Prancis Mistral AI telah meluncurkan dua model transkripsi baru yang dirancang untuk berjalan langsung di perangkat pengguna, memprioritaskan privasi dan kecepatan. Model-model tersebut, Voxtral Mini Transcribe 2 dan Voxtral Realtime, bertujuan menjaga percakapan sensitif di luar internet. Mereka memungkinkan transkripsi cepat dan akurat tanpa bergantung pada server cloud.
Mistral AI mengumumkan model transkripsi terbarunya pada hari Rabu, dengan fokus pada pemrosesan di perangkat untuk meningkatkan privasi pengguna. Alat-alat ini sangat cocok untuk skenario sensitif, seperti diskusi dengan dokter, pengacara, atau wawancara jurnalistik, di mana keamanan data sangat penting. Voxtral Mini Transcribe 2 digambarkan sebagai «super, super kecil» oleh Pierre Stock, wakil presiden operasi sains Mistral. Kekompakan ini memungkinkannya beroperasi di ponsel, laptop, atau bahkan perangkat wearable seperti jam tangan pintar, menghilangkan kebutuhan mengirim audio ke pusat data jarak jauh. Model kedua, Voxtral Realtime, mendukung transkripsi langsung seperti teks tertutup, dengan latensi kurang dari 200 milidetik—cukup cepat untuk menyamai kecepatan membaca dan menghindari penundaan dua atau tiga detik. Stock menekankan manfaat komputasi tepi: «Yang Anda inginkan adalah transkripsi terjadi super, super dekat dengan Anda. Dan yang terdekat yang bisa kami temukan adalah perangkat tepi apa pun, seperti laptop, ponsel, wearable seperti jam tangan pintar, misalnya.» Dengan pemrosesan lokal, model-model tersebut mengurangi latensi dan melindungi privasi, karena percakapan tidak pernah meninggalkan perangkat. Kedua model mendukung 13 bahasa dan tersedia melalui API Mistral, Hugging Face, atau AI Studio perusahaan. Dalam pengujian, Voxtral Realtime mentranskripsi bahasa Inggris dengan sedikit bahasa Spanyol secara akurat dan cepat, meskipun kadang-kadang salah menangani nama proper, seperti merender «Mistral AI» sebagai «Mr. Lay Eye» dan «Voxtral» sebagai «VoxTroll.» Stock mencatat bahwa pengguna dapat menyesuaikan model untuk penanganan jargon atau nama tertentu yang lebih baik. Mistral menyoroti kinerja benchmark yang menunjukkan tingkat kesalahan lebih rendah daripada pesaing. Seperti yang dijelaskan Stock, «Tidak cukup mengatakan, OK, saya akan buat model kecil. Yang Anda butuhkan adalah model kecil dengan kualitas sama seperti model besar, kan?» Keseimbangan ukuran, kecepatan, dan akurasi ini menempatkan model sebagai langkah maju dalam transkripsi AI yang dapat diakses.