Google, yönlendirilebilir ses modeli Gemini 3.1 Flash TTS'i önizlemeye açtı

Google, yapay zeka birimi DeepMind aracılığıyla 15 Nisan 2026'da yeni metinden sese modeli Gemini 3.1 Flash TTS'i önizleme olarak kullanıma sundu. Model, metin girdisinin içine yerleştirilen doğal dil komutlarıyla ses stilini, temposunu ve sunumunu yönlendirmeyi mümkün kılıyor. Şirket modeli geliştiriciler için Gemini API ve Google AI Studio, kurumsal müşteriler için Vertex AI ve Workspace kullanıcıları için Google Vids üzerinden erişime açtı.

Modelin ayırt edici özelliği, köşeli parantez içinde metne yerleştirilen 200'den fazla ses etiketi. Geliştiriciler [fısıldıyor], [gülüyor], [heyecanla], [yavaş] ve [uzun duraklama] gibi etiketleri cümle ortasında kullanarak sunumu anlık olarak değiştirebiliyor. Sistem 70'ten fazla dili ve Brixton, RP, "Valley", Southern ve Transatlantic gibi bölgesel aksanları destekliyor; 30 hazır temel ses ve çoklu konuşmacı diyalog desteği de paketin içinde yer alıyor. Tek bir API çağrısında birden fazla karakterin konuşma akışı bozulmadan seslendirilmesi mümkün. Google, modeli tanıtırken stüdyoda yayın yapan kurgusal bir Londra radyo DJ'inin profilini sahne, duruş ve ses tınısına kadar tarif eden oldukça uzun bir örnek prompt da yayımladı.

Gemini 3.1 Flash TTS, binlerce kör insan tercihine dayanan Artificial Analysis TTS sıralamasında 1.211 Elo puanıyla genel ikinci sıraya yerleşti ve aynı analizde "en cazip çeyrek" olarak adlandırılan kalite-maliyet dengesi bölgesinde konumlandırıldı. İfadeli metinden sese pazarında uzun süredir hakim olan ElevenLabs ve OpenAI'nin TTS API'si yeni modelin doğrudan rakipleri arasında; Google bu servislerle doğrudan karşılaştırma yayımlamadı. Lansman, şirketin üç hafta önce tanıttığı gerçek zamanlı diyalog modeli Gemini 3.1 Flash Live'ın ardından geldi ve Google'ın iki uzmanlaşmış ses modeliyle farklı senaryolara yöneldiğini gösterdi. Modelin fiyatlandırması henüz açıklanmadı.

Google, modelin ürettiği tüm ses dosyalarını yapay zeka kaynaklı içeriğin tespitine yönelik geliştirilen SynthID filigranıyla işaretlediğini bildirdi; şirket bu adımın dezenformasyonla mücadeleye katkı sağlamasını hedefliyor. Resmi model kartına göre giriş belirteç sınırı 8.192, çıkış belirteç sınırı 16.384 olarak belirlendi; bilgi kesim tarihi Ocak 2025. Erken dönemde modeli deneyen bağımsız geliştirici Simon Willison, model için kısa bir deneme arayüzünü Gemini 3.1 Pro ile kodladığını blogunda paylaştı. Modelin sesli asistanlardan sesli kitaplara, oyun seslendirmesinden erişilebilirlik uygulamalarına kadar geniş bir alanda kullanılması bekleniyor.

Kategoriler

Dil

Google, yönlendirilebilir ses modeli Gemini 3.1 Flash TTS'i önizlemeye açtı

Kategoriler

Dil

Google, yönlendirilebilir ses modeli Gemini 3.1 Flash TTS'i önizlemeye açtı

📬 Bültenimize Abone Olun