Mistral AI meluncurkan model transkripsi cepat dan pribadi di perangkat

Pengembang AI Prancis Mistral AI telah meluncurkan dua model transkripsi baru yang dirancang untuk berjalan langsung di perangkat pengguna, memprioritaskan privasi dan kecepatan. Model-model tersebut, Voxtral Mini Transcribe 2 dan Voxtral Realtime, bertujuan menjaga percakapan sensitif di luar internet. Mereka memungkinkan transkripsi cepat dan akurat tanpa bergantung pada server cloud.

Mistral AI mengumumkan model transkripsi terbarunya pada hari Rabu, dengan fokus pada pemrosesan di perangkat untuk meningkatkan privasi pengguna. Alat-alat ini sangat cocok untuk skenario sensitif, seperti diskusi dengan dokter, pengacara, atau wawancara jurnalistik, di mana keamanan data sangat penting. Voxtral Mini Transcribe 2 digambarkan sebagai «super, super kecil» oleh Pierre Stock, wakil presiden operasi sains Mistral. Kekompakan ini memungkinkannya beroperasi di ponsel, laptop, atau bahkan perangkat wearable seperti jam tangan pintar, menghilangkan kebutuhan mengirim audio ke pusat data jarak jauh. Model kedua, Voxtral Realtime, mendukung transkripsi langsung seperti teks tertutup, dengan latensi kurang dari 200 milidetik—cukup cepat untuk menyamai kecepatan membaca dan menghindari penundaan dua atau tiga detik. Stock menekankan manfaat komputasi tepi: «Yang Anda inginkan adalah transkripsi terjadi super, super dekat dengan Anda. Dan yang terdekat yang bisa kami temukan adalah perangkat tepi apa pun, seperti laptop, ponsel, wearable seperti jam tangan pintar, misalnya.» Dengan pemrosesan lokal, model-model tersebut mengurangi latensi dan melindungi privasi, karena percakapan tidak pernah meninggalkan perangkat. Kedua model mendukung 13 bahasa dan tersedia melalui API Mistral, Hugging Face, atau AI Studio perusahaan. Dalam pengujian, Voxtral Realtime mentranskripsi bahasa Inggris dengan sedikit bahasa Spanyol secara akurat dan cepat, meskipun kadang-kadang salah menangani nama proper, seperti merender «Mistral AI» sebagai «Mr. Lay Eye» dan «Voxtral» sebagai «VoxTroll.» Stock mencatat bahwa pengguna dapat menyesuaikan model untuk penanganan jargon atau nama tertentu yang lebih baik. Mistral menyoroti kinerja benchmark yang menunjukkan tingkat kesalahan lebih rendah daripada pesaing. Seperti yang dijelaskan Stock, «Tidak cukup mengatakan, OK, saya akan buat model kecil. Yang Anda butuhkan adalah model kecil dengan kualitas sama seperti model besar, kan?» Keseimbangan ukuran, kecepatan, dan akurasi ini menempatkan model sebagai langkah maju dalam transkripsi AI yang dapat diakses.

Artikel Terkait

Realistic illustration of a user experiencing Google's live translation feature via headphones on Android, with multilingual speech bubbles in an airport setting.
Gambar dihasilkan oleh AI

Google memperluas terjemahan langsung ke headphone apa pun

Dilaporkan oleh AI Gambar dihasilkan oleh AI

Google sedang memperbarui aplikasi Translate-nya untuk memungkinkan terjemahan ucapan-ke-ucapan secara real-time menggunakan headphone yang terhubung apa pun pada perangkat Android. Fitur beta ini, yang didukung oleh Gemini AI, mendukung lebih dari 70 bahasa dan meningkatkan penanganan idiom dan slang. Diluncurkan pertama kali di AS, Meksiko, dan India, dengan dukungan iOS direncanakan kemudian.

Startup Prancis Mistral AI telah mengumumkan keluarga model AI baru yang dirancang untuk terjemahan cepat. Perusahaan ini memposisikan peluncuran ini sebagai tantangan bagi perusahaan AI besar AS dengan menekankan efisiensi daripada penggunaan sumber daya yang berat. Mistral mengklaim model tersebut membuka jalan untuk percakapan multibahasa yang lancar.

Dilaporkan oleh AI

Startup Prancis Mistral AI telah merilis Devstral 2, model AI open-weights dengan 123 miliar parameter untuk pengkodean, mencetak 72,2 persen pada benchmark SWE-bench Verified. Bersamaan dengan itu, perusahaan memperkenalkan Mistral Vibe, antarmuka baris perintah untuk tugas rekayasa perangkat lunak otonom. Versi yang lebih kecil, Devstral Small 2, juga diluncurkan untuk penggunaan lokal pada perangkat keras konsumen.

OpenAI telah meluncurkan ChatGPT-5.2, keluarga model AI baru yang dirancang untuk meningkatkan penalaran dan produktivitas, khususnya untuk tugas profesional. Peluncuran ini menyusul peringatan internal dari CEO Sam Altman tentang persaingan dari Gemini 3 milik Google. Pembaruan ini mencakup tiga varian yang ditargetkan untuk kebutuhan pengguna berbeda, dimulai dengan pelanggan berbayar.

Dilaporkan oleh AI

Chinese AI pioneer SenseTime is leveraging its computer vision roots to lead the next phase of AI, shifting towards multimodal systems and embodied intelligence in the physical world. Co-founder and chief scientist Lin Dahua stated that this approach mirrors Google's, starting with vision capabilities as the core and adding language to build true multimodal systems.

Google mengumumkan bahwa prototipe AI eksperimentalnya, Genie 3, kini tersedia bagi pelanggan paket AI tingkat tertinggi. Alat ini memungkinkan pengguna menghasilkan dan menjelajahi dunia 3D interaktif menggunakan perintah teks sederhana. Sebelumnya terbatas pada penguji tepercaya, perluasan ini menandai langkah menuju akses lebih luas bagi audiens berusia 18 tahun ke atas.

Dilaporkan oleh AI

Agen pengkodean AI dari perusahaan seperti OpenAI, Anthropic, dan Google memungkinkan pekerjaan yang lebih panjang pada proyek perangkat lunak, termasuk menulis aplikasi dan memperbaiki bug di bawah pengawasan manusia. Alat-alat ini bergantung pada model bahasa besar tetapi menghadapi tantangan seperti pemrosesan konteks terbatas dan biaya komputasi tinggi. Memahami mekanismenya membantu pengembang memutuskan kapan menerapkannya secara efektif.

 

 

 

Situs web ini menggunakan cookie

Kami menggunakan cookie untuk analisis guna meningkatkan situs kami. Baca kebijakan privasi kami untuk informasi lebih lanjut.
Tolak