yapay zeka • 08 May 2026

OpenAI'dan Konuşurken Düşünen Üç Yeni Ses Modeli

OpenAI, API'sine GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper olmak üzere üç yeni ses modeli ekledi.

OpenAI, 7 Mayıs 2026'da geliştirici API'sine eklenen üç yeni ses modelini duyurdu. Şirketin resmi blog yazısına göre GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper ses uygulamaları için yeni bir nesli temsil ediyor; sistem sıradan komut-yanıt ilişkisinden çıkıp konuşma sırasında akıl yürütebilen, çeviri yapabilen ve transkript çıkartabilen yapılara dönüşüyor.

Üç model farklı senaryolara hitap ediyor. GPT-Realtime-2, OpenAI'ın GPT-5 sınıfı akıl yürütme yeteneğine sahip ilk ses modeli olarak tanımlanıyor; karmaşık talepleri anlayabiliyor, sohbeti doğal biçimde sürdürebiliyor ve aynı anda araç çağrıları yapıyor. Big Bench Audio kıyaslamasında önceki sürüm GPT-Realtime-1.5'e kıyasla yüzde 15,2 daha yüksek skor; Audio MultiChallenge testinde yüzde 13,8 iyileşme gösteriyor.

GPT-Realtime-Translate, 70'i aşkın giriş dilini 13 çıkış diline gerçek zamanlı olarak çevirebiliyor; konuşmacının temposuna ayak uydurması ve doğal akışı koruması en dikkat çekici özelliği. GPT-Realtime-Whisper ise canlı transkripsiyon yapan akış tabanlı konuşma-metne dönüştürme modeli olarak öne çıkıyor; konuşmacı konuşurken metin anında üretiliyor. Modellerin pratik kullanımı oldukça geniş: kısa hazırlık ifadeleri ile sistemin işleme aldığını sinyal veren özellik, paralel araç çağrıları ve hata kurtarma mekanizmaları gibi yenilikler devrede.

Erken kullanım örnekleri arasında Zillow GPT-Realtime-2 ile karmaşık ses etkileşimleri kurarken çağrı başarı oranını ve uyum sağlamlığını önemli ölçüde artırdı; Deutsche Telekom ise GPT-Realtime-Translate'i çok dilli müşteri etkileşimleri için pilot olarak kullanıyor. Fiyatlandırma açısından GPT-Realtime-2; 1 milyon ses giriş token'ı için 32 dolar, çıkış için 64 dolar olarak belirlendi; Translate dakikası 0,034 dolar, Whisper ise dakikası 0,017 dolar seviyesinde. AB Veri İkametgâhı desteği ve kurumsal gizlilik taahhütleri korunuyor; aktif sınıflandırıcılar zararlı içerikleri tespit ederek konuşmayı durdurabiliyor.

Kaynak: OpenAI

İlginizi Çekebilir

Claude Excel, PowerPoint ve Word'de Resmen Yayında

ChatGPT'ye Acil Durumlarda Yakın Bilgilendirme Geldi

OpenAI Codex Doğrudan Chrome İçinde Çalışmaya Başladı

Stephen Curry Tasarımlı Fitbit Air Ön Siparişe Açıldı