Microsoft'tan Saatlik Ses Tanıma
Microsoft Research, tek geçişte 60 dakikaya kadar ses transkribe eden, konuşmacıları otomatik olarak ayırt eden ve 50'den fazla dili destekleyen VibeVoice ASR modelini duyurdu.
Microsoft Research, tek geçişte 60 dakikaya kadar ses transkribe eden, konuşmacıları otomatik olarak ayırt eden ve 50'den fazla dili destekleyen VibeVoice ASR modelini duyurdu.
Microsoft Research, konuşma tanıma teknolojisinde önemli bir sınırı aştığını duyurdu. VibeVoice ASR, tek bir geçişte 60 dakikaya kadar kesintisiz ses transkribe edebiliyor ve bunu yaparken kim ne zaman konuştu sorusunu da yanıtlıyor.
Geleneksel ses tanıma sistemleri uzun kayıtları kısa parçalara bölüp ardından birleştirme yoluna gidiyor; bu da bağlamın kaybolmasına ve tutarsızlıklara yol açıyor. VibeVoice ASR bu adımları ortadan kaldırıyor: transkripsiyon, konuşmacı ayrımı ve zaman damgalama tek bir modelde ve tek bir çalıştırmada birleşiyor. Çıktı sadece yazıya dökülmüş metin değil; kimin ne zaman ne söylediğini net biçimde gösteren yapılandırılmış bir transkript. Toplantılar, mülakatlar ve podcast'ler gibi uzun formatlı içerikler için tam da bu yapı gerekiyor.
Model aynı zamanda alan özelinde kelime desteği sunuyor: teknik terimler, özel isimler veya sektöre özgü jargon, transkripsiyon isteğine doğrudan eklenerek doğruluk oranı artırılabiliyor. 50'den fazla dil destekleniyor ve aynı konuşma içinde dil değiştirme yani kod geçişi herhangi bir ek yapılandırma gerektirmeden otomatik olarak yönetiliyor. Teknik altyapı, akustik ve anlamsal ses tokenizer'larını büyük bir dil modeli dekoderıyla birleştiriyor.
Kaynak: Microsoft
WhatsApp, iOS beta sürümünde gelen mesajları otomatik olarak çeviren yeni bir özelliği test ediyor. 21 dil desteği sunan sistem, tüm çevirileri cihaz üzerinde işleyerek uçtan uca şifrelemeyi koruyor.
WordPress.com, yapay zekâ ajanlarının sitede içerik oluşturmasına, düzenlemesine ve yönetmesine olanak tanıyan yazma yeteneklerini tüm ücretli planlara açtı.
Elon Musk, Tesla, SpaceX ve xAI ortaklığıyla yılda 1 terawatt çip üretmeyi hedefleyen TERAFAB projesini duyurdu. Hedef: uzayda güneş enerjisi, milyonlarca Optimus robotu ve galaktik bir uygarlık.
Anthropic, Cowork'e yeni bir özellik ekledi: Telefondaki görev, bilgisayarda tamamlanıyor. Claude artık cihazlar arasında tek bir sürekli konuşma yürütebiliyor.
OpenAI, milyonlarca Python geliştiricisinin kullandığı açık kaynak araçların arkasındaki şirket Astral'ı satın alarak Codex'i tam kapsamlı bir geliştirici platformuna dönüştürmeyi hedefliyor.
Google, yapay zekâ destekli tasarım aracı Stitch'i köklü bir güncellemeyle tam kapsamlı bir tasarım platformuna dönüştürdü.
Google AI Studio, yeni tam yığın vibe coding deneyimiyle birlikte Antigravity kodlama ajanını ve Firebase entegrasyonunu kullanıma sundu. Artık tek bir prompt'tan üretim hazır uygulama geliştirmek mümkün.
Spotify, Windows masaüstü uygulamasına 'Exclusive Mode' özelliğini ekledi. Sistem ses işlemesini devre dışı bırakarak müziği tam anlamıyla masterlanmış haliyle dinlemeye imkân tanıyor.