OpenAI'dan Konuşurken Düşünen Üç Yeni Ses Modeli

OpenAI, API'sine GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper olmak üzere üç yeni ses modeli ekledi.

OpenAI'dan Konuşurken Düşünen Üç Yeni Ses Modeli

OpenAI, 7 Mayıs 2026'da geliştirici API'sine eklenen üç yeni ses modelini duyurdu. Şirketin resmi blog yazısına göre GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper ses uygulamaları için yeni bir nesli temsil ediyor; sistem sıradan komut-yanıt ilişkisinden çıkıp konuşma sırasında akıl yürütebilen, çeviri yapabilen ve transkript çıkartabilen yapılara dönüşüyor.

Üç model farklı senaryolara hitap ediyor. GPT-Realtime-2, OpenAI'ın GPT-5 sınıfı akıl yürütme yeteneğine sahip ilk ses modeli olarak tanımlanıyor; karmaşık talepleri anlayabiliyor, sohbeti doğal biçimde sürdürebiliyor ve aynı anda araç çağrıları yapıyor. Big Bench Audio kıyaslamasında önceki sürüm GPT-Realtime-1.5'e kıyasla yüzde 15,2 daha yüksek skor; Audio MultiChallenge testinde yüzde 13,8 iyileşme gösteriyor.

GPT-Realtime-Translate, 70'i aşkın giriş dilini 13 çıkış diline gerçek zamanlı olarak çevirebiliyor; konuşmacının temposuna ayak uydurması ve doğal akışı koruması en dikkat çekici özelliği. GPT-Realtime-Whisper ise canlı transkripsiyon yapan akış tabanlı konuşma-metne dönüştürme modeli olarak öne çıkıyor; konuşmacı konuşurken metin anında üretiliyor. Modellerin pratik kullanımı oldukça geniş: kısa hazırlık ifadeleri ile sistemin işleme aldığını sinyal veren özellik, paralel araç çağrıları ve hata kurtarma mekanizmaları gibi yenilikler devrede.

Erken kullanım örnekleri arasında Zillow GPT-Realtime-2 ile karmaşık ses etkileşimleri kurarken çağrı başarı oranını ve uyum sağlamlığını önemli ölçüde artırdı; Deutsche Telekom ise GPT-Realtime-Translate'i çok dilli müşteri etkileşimleri için pilot olarak kullanıyor. Fiyatlandırma açısından GPT-Realtime-2; 1 milyon ses giriş token'ı için 32 dolar, çıkış için 64 dolar olarak belirlendi; Translate dakikası 0,034 dolar, Whisper ise dakikası 0,017 dolar seviyesinde. AB Veri İkametgâhı desteği ve kurumsal gizlilik taahhütleri korunuyor; aktif sınıflandırıcılar zararlı içerikleri tespit ederek konuşmayı durdurabiliyor.

Kaynak: OpenAI