Alibaba'dan Devrim Niteliğinde Hamle: Qwen3.5-Omni, 113 Dilde Konuşan ve Ses Klonlayan Yapay Zeka Modeli Yayınlandı

Alibaba Cloud bünyesindeki Qwen ekibi, 30 Mart 2026 tarihinde yapay zeka dünyasında ses getirecek yeni modeli Qwen3.5-Omni'yi resmi olarak duyurdu. Qwen3-Omni'nin halefi olan bu model, metin, görüntü, ses ve videoyu eş zamanlı olarak işleyebilen ve gerçek zamanlı konuşma çıktısı üretebilen tam anlamıyla "omnimodal" bir yapay zeka sistemi olarak tanımlanıyor. Plus, Flash ve Light olmak üzere üç farklı boyutta sunulan model, 256 bin token uzunluğunda bağlam penceresini destekliyor; bu da 10 saatten fazla ses girişi ve 720P çözünürlükte yaklaşık 400 saniyelik görüntülü-sesli video işleme kapasitesi anlamına geliyor.

Qwen3.5-Omni'nin en dikkat çekici özelliklerinden biri çok dilli yeteneklerindeki devasa sıçrama. Bir önceki nesil Qwen3-Omni'de 19 dille sınırlı olan konuşma tanıma desteği 113 dil ve lehçeye, 10 dille sınırlı olan konuşma üretimi ise 36 dile çıkarıldı. Hem Thinker hem de Talker bileşenlerinde Hybrid-Attention MoE (Mixture of Experts) mimarisi benimsenirken, model 100 milyon saatten fazla sesli-görüntülü veri üzerinde doğal omnimodal ön eğitimden geçirildi. Bu sayede modelin algılama ve üretim yetenekleri önceki nesle kıyasla önemli ölçüde güçlendirildi.

Etkileşim tarafında da ciddi yenilikler bulunuyor. Qwen3.5-Omni, "semantik kesme" (semantic interruption) özelliğiyle kullanıcının gerçekten söz almak istediği anları arka plan gürültüsünden ayırt edebiliyor. Buna ek olarak, ses klonlama teknolojisi sayesinde özelleştirilmiş sesli yapay zeka asistanları oluşturmak mümkün hale geliyor. Alibaba ekibinin "Audio-Visual Vibe Coding" adını verdiği özellik ise modelin bir ekran kaydını veya kodlama videosunu izleyerek, herhangi bir metin komutu olmaksızın işlevsel kod yazabilmesini sağlıyor. Bu yaklaşım, yapay zekanın iş akışının yanında değil doğrudan içinde çalışacağı bir geleceğin habercisi olarak değerlendiriliyor.

Performans açısından da Qwen3.5-Omni-Plus, ses ve sesli-video anlama, akıl yürütme ve etkileşim görevlerinde 215 SOTA sonucu elde etti. Çok dilli ses stabilitesi benchmark'larında ElevenLabs, GPT-Audio ve MiniMax gibi güçlü rakipleri 20 dilde geride bıraktı. Gerçek zamanlı web arama desteği de eklenen model, güncel haber ve piyasa verilerine anında erişim sağlayabiliyor. Tüm bu özellikler, Qwen3.5-Omni'yi yalnızca bir dil modeli değil, insana yakın etkileşim sunan kapsamlı bir yapay zeka platformu konumuna taşıyor.

Kategoriler

Dil

Alibaba'dan Devrim Niteliğinde Hamle: Qwen3.5-Omni, 113 Dilde Konuşan ve Ses Klonlayan Yapay Zeka Modeli Yayınlandı

📬 Bültenimize Abone Olun