OpenAI, üç yeni gerçek zamanlı ses modelini Realtime API üzerinden yayınladı

OpenAI, 7 Mayıs 2026'da Realtime API üzerinden üç yeni gerçek zamanlı ses modeli yayınladı: sesli muhakeme için GPT-Realtime-2, canlı çeviri için GPT-Realtime-Translate ve akışlı transkripsiyon için GPT-Realtime-Whisper. Şirket aynı anda Realtime API'yi beta aşamasından çıkararak genel kullanıma açtı. Bu adımla birlikte sesli yapay zekâ uygulamaları, basit soru-cevap döngüsünden çıkıp aynı oturum içinde dinleyebilen, muhakeme yapabilen, çeviri yapabilen ve eyleme geçebilen sistemlere doğru evriliyor.

Yeni modellerin merkezinde yer alan GPT-Realtime-2, OpenAI'nin "GPT-5 sınıfı muhakeme" olarak tanımladığı ilk ses modeli olarak konumlandırılıyor. Modelin bağlam penceresi 32 binden 128 bin tokena çıkarıldı; geliştiriciler artık asgari, düşük, orta, yüksek ve çok yüksek olmak üzere beş muhakeme seviyesi arasından seçim yapabiliyor; varsayılan seviye düşük olarak ayarlandı. Modele eklenen yeni konuşma özellikleri arasında "bir saniye kontrol edeyim" gibi kısa ön ifadeler, paralel araç çağrılarının sesli olarak duyurulması ve hata durumunda diyaloğu koparmadan kurtarma davranışı yer alıyor. GPT-Realtime-2 fiyatlandırması 1 milyon ses girişi tokeni için 32 dolar, 1 milyon ses çıkışı tokeni için 64 dolar olarak belirlendi; önbelleğe alınmış giriş ise 1 milyon token başına 40 cent. Canlı çeviri sunan GPT-Realtime-Translate dakika başına 0,034 dolar, akışlı transkripsiyon yapan GPT-Realtime-Whisper ise dakika başına 0,017 dolardan ücretlendiriliyor; çeviri modeli 70'i aşkın giriş dilini 13 çıkış diline aktarabiliyor.

Bağımsız değerlendirmelerde GPT-Realtime-2, ses muhakemesini ölçen Big Bench Audio testinde yüksek muhakeme seviyesinde yüzde 96,6 puan alarak önceki sürüm GPT-Realtime-1.5'in yüzde 81,4 skoruna kıyasla 15,2 puanlık iyileşme kaydetti. Talimat takibini ölçen Audio MultiChallenge testinde model, çok yüksek muhakeme seviyesinde yüzde 34,7'den yüzde 48,5'e çıkarak 13,8 puanlık artış sağladı. Artificial Analysis raporlarına göre GPT-Realtime-2'nin yüksek varyantı, Google'ın Gemini 3.1 Flash Live Preview High modeliyle aynı puanı paylaşıyor; Step-Audio R1.1 Realtime ve Grok Voice Think Fast 1.0 modelleri ise aynı testte küçük farklarla öne geçmiş durumda. Modelin asgari varyantı, dönüşümlü konuşma akışını ölçen Full Duplex Bench testinde yüzde 96,1 ile listenin başında yer aldı.

Erken kurumsal denemelerden gelen veriler de dikkat çekici. Emlak platformu Zillow, GPT-Realtime-2 ile en zorlu adversarial test setinde çağrı başarı oranını yüzde 69'dan yüzde 95'e çıkardığını bildirdi; bu 26 puanlık bir sıçrama. Kurumsal arama şirketi Glean iç değerlendirmelerde önceki sürüme kıyasla yüzde 42,9 göreli yararlılık artışı raporladı, Genspark ise Call for Me adlı sesli ajanını yeni modele güncelledikten sonra etkili konuşma oranında yüzde 26 artış gözlemledi. Deutsche Telekom, Priceline ve Vimeo gibi şirketler de modelleri sırasıyla çok dilli müşteri desteği, seyahat asistanlığı ve canlı video dublajı senaryolarında deniyor. Modeller aynı gün Microsoft Foundry üzerinden de geliştiricilerin kullanımına açıldı. Yeni modeller şimdilik yalnızca Realtime API üzerinden erişilebiliyor; ChatGPT içindeki sesli mod için aynı güncelleme henüz duyurulmadı.

Kategoriler

Dil

OpenAI, üç yeni gerçek zamanlı ses modelini Realtime API üzerinden yayınladı

Kategoriler

Dil

OpenAI, üç yeni gerçek zamanlı ses modelini Realtime API üzerinden yayınladı

📬 Bültenimize Abone Olun