Zonos-v0.1, açık kaynaklı bir metinden konuşmaya (TTS) modeli olarak dikkat çekiyor. Önde gelen TTS sağlayıcılarıyla yarışan veya onları aşan ses kalitesi ve ifade gücü sunuyor.
Model, sadece 5 ila 30 saniyelik bir ses kaydıyla yüksek kaliteli ses klonlama yapabiliyor. Konuşma hızı, perde değişimi, ses kalitesi ve duygu durumu (mutluluk, korku, öfke vb.) gibi faktörlere göre özelleştirilebiliyor. 44 kHz doğal ses çıkışı sunan Zonos, yaklaşık 200.000 saatlik İngilizce ağırlıklı bir veri kümesiyle eğitildi.
Öne çıkan özellikleri:
🔹 Sıfır atış (zero-shot) TTS: Kısa bir ses örneği ile yüksek kaliteli ses üretimi
🔹 Ses ön ekleri (audio prefix): Daha gerçekçi konuşma üretimi için ses ön ekleriyle çalışma
🔹 Çok dilli destek: İngilizce, Japonca, Çince, Fransızca ve Almanca dillerini kapsıyor
🔹 Hızlı çalışma: RTX 4090 GPU’da yaklaşık 2 kat gerçek zamanlı performans sunuyor
🔹 Kolay kurulum ve kullanım: Docker ile basit kurulum ve Gradio arayüzü desteği
Zonos, doğal ve gerçekçi konuşma üretmek isteyenler için güçlü bir seçenek olarak öne çıkıyor.