yapay zeka • 28 Mar 2026

Mistral'dan Sesin Hızında Transkripsiyon

Mistral AI, gerçek zamanlı ses transkripsiyonu için iki yeni model sundu.

Mistral AI'ın resmi duyurusuna göre Fransız yapay zekâ şirketi, ses transkripsiyonu alanında iki yeni model yayımladı. Voxtral Transcribe 2 ailesi, hem toplu ses işleme hem de gerçek zamanlı uygulamalar için ayrı çözümler sunuyor.

Voxtral Mini Transcribe V2, dakika başı 0,003 dolar fiyatıyla sektördeki en iyi fiyat-performans dengesini hedefliyor. İngilizce, Çince, Hintçe, Arapça, Almanca ve Türkçe dahil 13 dili destekleyen model; konuşmacı diarizasyonu (kimin ne zaman konuştuğunu etiketleme), kelime düzeyinde zaman damgaları ve özel terimler için bağlam yönlendirme özellikleri sunuyor.

Tek istekte 3 saate kadar ses işleyebiliyor; endüstriyel ortamlar ve kalabalık çağrı merkezleri gibi gürültülü koşullarda da tutarlı doğruluk sağlıyor. Mistral'ın kendi karşılaştırmalarına göre model, GPT-4o mini Transcribe, Gemini 2.5 Flash ve Deepgram Nova'yı doğrulukta geride bırakıyor. Voxtral Realtime ise gerçek zamanlı uygulamalar için tasarlandı.

Gecikmeyi 200 milisaniyenin altına indirebilen akış mimarisiyle canlı altyapı sayesinde ses geldikçe anında transkripsiyon üretiyor. 4 milyar parametreli yapısıyla uç cihazlarda çalışabiliyor ve Apache 2.0 lisansıyla açık ağırlıklar olarak yayımlandı; gizlilik odaklı dağıtımlar için şirket içi kuruluma uygun.

Her iki model de GDPR ve HIPAA uyumlu dağıtımları destekliyor. Voxtral Mini Transcribe V2, API üzerinden ve Mistral Studio'nun yeni ses oyun alanında test edilebiliyor. Voxtral Realtime ise API'ye ek olarak Hugging Face üzerinden de erişilebilir durumda.

Kaynak: Mistral