
Google DeepMind, metin komutlarından gerçek zamanlı, etkileşimli ve yüksek tutarlılığa sahip sanal dünyalar üreten yeni dünya modeli Genie 3’ü duyurdu. Genie 3, kullanıcıların saniyede 24 kare hızında ve 720p çözünürlükte, birkaç dakika boyunca tutarlılığını koruyan dinamik ortamlarda gezinmesine imkân veriyor. Model, daha önceki temelleri oluşturan Genie 1 ve Genie 2’ye kıyasla hem gerçekçilik hem de etkileşim açısından sıçrama yaparak, dünya simülasyonlarında anlık kontrolü ilk kez bu düzeyde mümkün kılıyor.
Derin fizik ve çevresel etkileşimler
Genie 3; su, ışık, rüzgâr ve karmaşık yüzey etkileşimleri gibi doğal olguları modelleyebiliyor. Volkanik arazide arazi robotu sürüşü, kasırga yaklaşırken kıyı yolunda yürüyüş ya da dar kanyonlarda drone uçuşu gibi senaryolarda fiziksel tutarlılığı sürdürebiliyor.
Doğal ve kurgusal dünyalar
Model, canlı ekosistemler ve bitki örtüsünden, fantastik canlılar ve animasyon estetiğine uzanan geniş bir yelpazede içerik üretebiliyor. Zen bahçeleri, Alp vadileri, Venedik kanalları ya da Knossos Sarayı gibi tarihi ve coğrafi ortamlar da gerçek zamanlı olarak gezilebilir hâle geliyor.
Uzun ufukta tutarlılık ve gerçek zamanlılık
Oto-regresif olarak kare kare dünya üretimi, hataların birikmesi nedeniyle zorlu bir problem. DeepMind, Genie 3’te görsel belleği yaklaşık bir dakika geriye referans verebilecek şekilde optimize ederek sahnelerin birkaç dakika boyunca anlamlı ve fiziksel olarak mantıklı kalmasını sağlamış durumda. Bu da kullanıcının aynı bölgeye yeniden döndüğünde çevresel detayların korunması gibi zorlu durumlarda dahi süreklilik oluşturuyor. NeRF ve Gaussian Splatting gibi yöntemler tutarlı 3B gezinti sunarken açık 3B temsillere ihtiyaç duyuyor; Genie 3 ise kullanıcı eylemleri ve metinsel tanımlara dayanarak kare bazlı, daha dinamik dünyalar kuruyor.
“Promptable world events” ile sahne içi kontrol
Model, yalnızca yönlendirme ve gezinme komutlarına değil, metinle tetiklenen olaylara da yanıt veriyor. Kullanıcılar hava koşullarını değiştirebiliyor, yeni nesneler ve karakterler ekleyebiliyor. Bu yetenek, karşı-olgusal “ya şöyle olsaydı?” senaryolarının kapsamını genişleterek, deneyimden öğrenen ajanların beklenmedik durumları ele almasına yardımcı oluyor.
Ajan araştırmalarına yakıt
DeepMind, Genie 3’ün SIMA gibi genelci 3B ajanlarla uyumluluğunu test etti. Tutarlılık ve gerçek zamanlı kontrol sayesinde ajanlar daha uzun eylem dizilerini uygulayarak daha karmaşık hedeflere ulaşabiliyor. Ekip, bunun hem generatif medya hem de yapay zekâ araştırmalarında—özellikle AGI yolculuğunda—kritik bir rol oynayacağını vurguluyor.
Sorumlu geliştirme ve erişim
Teknolojinin açık uçlu ve gerçek zamanlı yapısının doğurduğu güvenlik riskleri nedeniyle Genie 3, önce sınırlı bir araştırma ön izlemesi kapsamında akademisyenlere ve içerik üreticilerine sunuluyor. DeepMind, sorumlu geliştirme ilkeleri doğrultusunda geri bildirim toplayarak modeli geniş kitlelere açmayı planlıyor. Eğitim ve uzman eğitimi, robotik ve otonom sistemlerin test edilmesi, performans değerlendirme ve zayıflık analizi gibi alanlar olası kullanım senaryoları arasında gösteriliyor.