Mistral AI meluncurkan model transkripsi cepat dan pribadi di perangkat

Pengembang AI Prancis Mistral AI telah meluncurkan dua model transkripsi baru yang dirancang untuk berjalan langsung di perangkat pengguna, memprioritaskan privasi dan kecepatan. Model-model tersebut, Voxtral Mini Transcribe 2 dan Voxtral Realtime, bertujuan menjaga percakapan sensitif di luar internet. Mereka memungkinkan transkripsi cepat dan akurat tanpa bergantung pada server cloud.

Mistral AI mengumumkan model transkripsi terbarunya pada hari Rabu, dengan fokus pada pemrosesan di perangkat untuk meningkatkan privasi pengguna. Alat-alat ini sangat cocok untuk skenario sensitif, seperti diskusi dengan dokter, pengacara, atau wawancara jurnalistik, di mana keamanan data sangat penting. Voxtral Mini Transcribe 2 digambarkan sebagai «super, super kecil» oleh Pierre Stock, wakil presiden operasi sains Mistral. Kekompakan ini memungkinkannya beroperasi di ponsel, laptop, atau bahkan perangkat wearable seperti jam tangan pintar, menghilangkan kebutuhan mengirim audio ke pusat data jarak jauh. Model kedua, Voxtral Realtime, mendukung transkripsi langsung seperti teks tertutup, dengan latensi kurang dari 200 milidetik—cukup cepat untuk menyamai kecepatan membaca dan menghindari penundaan dua atau tiga detik. Stock menekankan manfaat komputasi tepi: «Yang Anda inginkan adalah transkripsi terjadi super, super dekat dengan Anda. Dan yang terdekat yang bisa kami temukan adalah perangkat tepi apa pun, seperti laptop, ponsel, wearable seperti jam tangan pintar, misalnya.» Dengan pemrosesan lokal, model-model tersebut mengurangi latensi dan melindungi privasi, karena percakapan tidak pernah meninggalkan perangkat. Kedua model mendukung 13 bahasa dan tersedia melalui API Mistral, Hugging Face, atau AI Studio perusahaan. Dalam pengujian, Voxtral Realtime mentranskripsi bahasa Inggris dengan sedikit bahasa Spanyol secara akurat dan cepat, meskipun kadang-kadang salah menangani nama proper, seperti merender «Mistral AI» sebagai «Mr. Lay Eye» dan «Voxtral» sebagai «VoxTroll.» Stock mencatat bahwa pengguna dapat menyesuaikan model untuk penanganan jargon atau nama tertentu yang lebih baik. Mistral menyoroti kinerja benchmark yang menunjukkan tingkat kesalahan lebih rendah daripada pesaing. Seperti yang dijelaskan Stock, «Tidak cukup mengatakan, OK, saya akan buat model kecil. Yang Anda butuhkan adalah model kecil dengan kualitas sama seperti model besar, kan?» Keseimbangan ukuran, kecepatan, dan akurasi ini menempatkan model sebagai langkah maju dalam transkripsi AI yang dapat diakses.

Artikel Terkait

Realistic illustration of a user experiencing Google's live translation feature via headphones on Android, with multilingual speech bubbles in an airport setting.
Gambar dihasilkan oleh AI

Google memperluas terjemahan langsung ke headphone apa pun

Dilaporkan oleh AI Gambar dihasilkan oleh AI

Google sedang memperbarui aplikasi Translate-nya untuk memungkinkan terjemahan ucapan-ke-ucapan secara real-time menggunakan headphone yang terhubung apa pun pada perangkat Android. Fitur beta ini, yang didukung oleh Gemini AI, mendukung lebih dari 70 bahasa dan meningkatkan penanganan idiom dan slang. Diluncurkan pertama kali di AS, Meksiko, dan India, dengan dukungan iOS direncanakan kemudian.

Startup Prancis Mistral AI telah mengumumkan keluarga model AI baru yang dirancang untuk terjemahan cepat. Perusahaan ini memposisikan peluncuran ini sebagai tantangan bagi perusahaan AI besar AS dengan menekankan efisiensi daripada penggunaan sumber daya yang berat. Mistral mengklaim model tersebut membuka jalan untuk percakapan multibahasa yang lancar.

Dilaporkan oleh AI

Startup Prancis Mistral AI telah merilis Devstral 2, model AI open-weights dengan 123 miliar parameter untuk pengkodean, mencetak 72,2 persen pada benchmark SWE-bench Verified. Bersamaan dengan itu, perusahaan memperkenalkan Mistral Vibe, antarmuka baris perintah untuk tugas rekayasa perangkat lunak otonom. Versi yang lebih kecil, Devstral Small 2, juga diluncurkan untuk penggunaan lokal pada perangkat keras konsumen.

Dalam evaluasi perbandingan model AI terkemuka, Gemini 3.2 Fast milik Google menunjukkan kekuatan dalam akurasi faktual dibandingkan ChatGPT 5.2 milik OpenAI, terutama dalam tugas informasional. Tes tersebut, yang dipicu oleh kemitraan Apple dengan Google untuk meningkatkan Siri, menyoroti kemampuan yang berkembang dalam AI generatif sejak 2023. Meskipun hasilnya ketat, Gemini menghindari kesalahan signifikan yang merusak keandalan ChatGPT.

Dilaporkan oleh AI

Moxie Marlinspike, pencipta aplikasi pesan Signal, telah memperkenalkan Confer, asisten AI open-source yang dirancang untuk memprioritaskan privasi pengguna dalam percakapan dengan model bahasa besar. Alat ini mengenkripsi data dan interaksi pengguna sehingga hanya pemegang akun yang dapat mengaksesnya, melindunginya dari operator platform, peretas, dan penegak hukum. Peluncuran ini menangani kekhawatiran yang semakin meningkat tentang pengumpulan data di platform AI.

ExpressVPN telah menemukan 3,7 juta item data yang bocor dari sebuah chatbot AI. Informasi yang bocor mencakup pesan suara dan teks serta rekaman audio pribadi hingga empat jam. Temuan ini berfungsi sebagai pengingat akan pentingnya enkripsi.

Dilaporkan oleh AI

Apple telah mengakuisisi Q.ai, sebuah startup Israel yang mengembangkan teknologi membaca bibir untuk antarmuka AI pada perangkat wearable. Kesepakatan tersebut, bernilai sekitar 2 miliar dolar AS, menandakan perubahan potensial dalam cara pengguna berinteraksi dengan perangkat seperti kacamata dan earbud. Langkah ini membangun sejarah Apple dalam mengintegrasikan teknologi sensor canggih ke dalam produknya.

 

 

 

Situs web ini menggunakan cookie

Kami menggunakan cookie untuk analisis guna meningkatkan situs kami. Baca kebijakan privasi kami untuk informasi lebih lanjut.
Tolak