Microsoft'tan Saatlik Ses Tanıma

Microsoft Research, tek geçişte 60 dakikaya kadar ses transkribe eden, konuşmacıları otomatik olarak ayırt eden ve 50'den fazla dili destekleyen VibeVoice ASR modelini duyurdu.

Microsoft Research, konuşma tanıma teknolojisinde önemli bir sınırı aştığını duyurdu. VibeVoice ASR, tek bir geçişte 60 dakikaya kadar kesintisiz ses transkribe edebiliyor ve bunu yaparken kim ne zaman konuştu sorusunu da yanıtlıyor.

Geleneksel ses tanıma sistemleri uzun kayıtları kısa parçalara bölüp ardından birleştirme yoluna gidiyor; bu da bağlamın kaybolmasına ve tutarsızlıklara yol açıyor. VibeVoice ASR bu adımları ortadan kaldırıyor: transkripsiyon, konuşmacı ayrımı ve zaman damgalama tek bir modelde ve tek bir çalıştırmada birleşiyor. Çıktı sadece yazıya dökülmüş metin değil; kimin ne zaman ne söylediğini net biçimde gösteren yapılandırılmış bir transkript. Toplantılar, mülakatlar ve podcast'ler gibi uzun formatlı içerikler için tam da bu yapı gerekiyor.

Model aynı zamanda alan özelinde kelime desteği sunuyor: teknik terimler, özel isimler veya sektöre özgü jargon, transkripsiyon isteğine doğrudan eklenerek doğruluk oranı artırılabiliyor. 50'den fazla dil destekleniyor ve aynı konuşma içinde dil değiştirme yani kod geçişi herhangi bir ek yapılandırma gerektirmeden otomatik olarak yönetiliyor. Teknik altyapı, akustik ve anlamsal ses tokenizer'larını büyük bir dil modeli dekoderıyla birleştiriyor.

Kaynak: Microsoft