OpenAI'dan Konuşurken Düşünen Üç Yeni Ses Modeli
OpenAI, API'sine GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper olmak üzere üç yeni ses modeli ekledi.
OpenAI, API'sine GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper olmak üzere üç yeni ses modeli ekledi.
OpenAI, 7 Mayıs 2026'da geliştirici API'sine eklenen üç yeni ses modelini duyurdu. Şirketin resmi blog yazısına göre GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper ses uygulamaları için yeni bir nesli temsil ediyor; sistem sıradan komut-yanıt ilişkisinden çıkıp konuşma sırasında akıl yürütebilen, çeviri yapabilen ve transkript çıkartabilen yapılara dönüşüyor.
Üç model farklı senaryolara hitap ediyor. GPT-Realtime-2, OpenAI'ın GPT-5 sınıfı akıl yürütme yeteneğine sahip ilk ses modeli olarak tanımlanıyor; karmaşık talepleri anlayabiliyor, sohbeti doğal biçimde sürdürebiliyor ve aynı anda araç çağrıları yapıyor. Big Bench Audio kıyaslamasında önceki sürüm GPT-Realtime-1.5'e kıyasla yüzde 15,2 daha yüksek skor; Audio MultiChallenge testinde yüzde 13,8 iyileşme gösteriyor.
GPT-Realtime-Translate, 70'i aşkın giriş dilini 13 çıkış diline gerçek zamanlı olarak çevirebiliyor; konuşmacının temposuna ayak uydurması ve doğal akışı koruması en dikkat çekici özelliği. GPT-Realtime-Whisper ise canlı transkripsiyon yapan akış tabanlı konuşma-metne dönüştürme modeli olarak öne çıkıyor; konuşmacı konuşurken metin anında üretiliyor. Modellerin pratik kullanımı oldukça geniş: kısa hazırlık ifadeleri ile sistemin işleme aldığını sinyal veren özellik, paralel araç çağrıları ve hata kurtarma mekanizmaları gibi yenilikler devrede.
Erken kullanım örnekleri arasında Zillow GPT-Realtime-2 ile karmaşık ses etkileşimleri kurarken çağrı başarı oranını ve uyum sağlamlığını önemli ölçüde artırdı; Deutsche Telekom ise GPT-Realtime-Translate'i çok dilli müşteri etkileşimleri için pilot olarak kullanıyor. Fiyatlandırma açısından GPT-Realtime-2; 1 milyon ses giriş token'ı için 32 dolar, çıkış için 64 dolar olarak belirlendi; Translate dakikası 0,034 dolar, Whisper ise dakikası 0,017 dolar seviyesinde. AB Veri İkametgâhı desteği ve kurumsal gizlilik taahhütleri korunuyor; aktif sınıflandırıcılar zararlı içerikleri tespit ederek konuşmayı durdurabiliyor.
Kaynak: OpenAI
Anthropic, Claude for Excel, PowerPoint ve Word entegrasyonlarının genel kullanıma açıldığını duyurdu.
OpenAI, ChatGPT için 'Trusted Contact' adlı yeni güvenlik özelliğini duyurdu.
OpenAI, kod ajanı Codex'i macOS ve Windows için Chrome tarayıcısına entegre etti.
Google, NBA şampiyonu Stephen Curry ile birlikte tasarladığı özel sürüm Fitbit Air'i duyurdu.