Mistral'dan Sesin Hızında Transkripsiyon
Mistral AI, gerçek zamanlı ses transkripsiyonu için iki yeni model sundu.
Mistral AI, gerçek zamanlı ses transkripsiyonu için iki yeni model sundu.
Mistral AI'ın resmi duyurusuna göre Fransız yapay zekâ şirketi, ses transkripsiyonu alanında iki yeni model yayımladı. Voxtral Transcribe 2 ailesi, hem toplu ses işleme hem de gerçek zamanlı uygulamalar için ayrı çözümler sunuyor.
Voxtral Mini Transcribe V2, dakika başı 0,003 dolar fiyatıyla sektördeki en iyi fiyat-performans dengesini hedefliyor. İngilizce, Çince, Hintçe, Arapça, Almanca ve Türkçe dahil 13 dili destekleyen model; konuşmacı diarizasyonu (kimin ne zaman konuştuğunu etiketleme), kelime düzeyinde zaman damgaları ve özel terimler için bağlam yönlendirme özellikleri sunuyor.
Tek istekte 3 saate kadar ses işleyebiliyor; endüstriyel ortamlar ve kalabalık çağrı merkezleri gibi gürültülü koşullarda da tutarlı doğruluk sağlıyor. Mistral'ın kendi karşılaştırmalarına göre model, GPT-4o mini Transcribe, Gemini 2.5 Flash ve Deepgram Nova'yı doğrulukta geride bırakıyor. Voxtral Realtime ise gerçek zamanlı uygulamalar için tasarlandı.
Gecikmeyi 200 milisaniyenin altına indirebilen akış mimarisiyle canlı altyapı sayesinde ses geldikçe anında transkripsiyon üretiyor. 4 milyar parametreli yapısıyla uç cihazlarda çalışabiliyor ve Apache 2.0 lisansıyla açık ağırlıklar olarak yayımlandı; gizlilik odaklı dağıtımlar için şirket içi kuruluma uygun.
Her iki model de GDPR ve HIPAA uyumlu dağıtımları destekliyor. Voxtral Mini Transcribe V2, API üzerinden ve Mistral Studio'nun yeni ses oyun alanında test edilebiliyor. Voxtral Realtime ise API'ye ek olarak Hugging Face üzerinden de erişilebilir durumda.
Kaynak: Mistral
Shopify, milyonlarca satıcının ChatGPT, Google ve Microsoft Copilot gibi yapay zekâ platformlarında doğrudan ürün satmasını sağlayan Agentic Storefronts özelliğini kullanıma açtı.
Leiden Üniversitesi araştırmacıları, sensör ya da yazılım olmadan tıpkı canlılar gibi yüzen ve engellere tepki veren mikroskobik robotlar geliştirdi.
OpenAI, Codex için yeniden kullanılabilir iş akışları sunan plugin sistemini duyurdu.
Meta FAIR ekibi, insan beyninin ses, video ve metne verdiği tepkileri yüksek doğrulukla tahmin eden TRIBE v2 modelini yayımladı.
Meta, yapay zekâ altyapısına milyarlarca dolar yatırım yaparken maliyetleri düşürmek adına yüzlerce çalışanla yollarını ayırdı.
Suno, yapay zekâ müzik üretim modelini v5.5'e güncelledi. Yeni sürüm kişisel ses kaydı, özel model eğitimi ve kişiselleştirilmiş zevk analizi özelliklerini bir arada sunuyor.
Los Angeles jürisi Meta ve Google'ı çocuklar için zararlı platformlar tasarlamakla suçlu buldu ve 6 milyon dolar tazminata hükmetti.
İngilizce Wikipedia, büyük dil modellerinin makale içeriği üretmek ya da yeniden yazmak için kullanılmasını yasakladı.