
Google, 10 Haziran 2026'da metin üretiminde alışılmış yaklaşımı değiştiren deneysel açık modeli DiffusionGemma'yı duyurdu. Apache 2.0 lisansıyla yayımlanan 26 milyar parametreli Mixture-of-Experts (MoE) model, geleneksel büyük dil modellerinin tek tek kelime üreten ardışık (autoregressive) yöntemi yerine, metni bloklar halinde aynı anda üretiyor. Şirket, bu sayede dedike GPU'larda 4 kata kadar daha hızlı üretim elde edildiğini bildirdi. Modelin araştırmasını yürüten Brendan O'Donoghue ve Sebastian Flennerhag, modelin Gemma 4 ailesi üzerine ve Gemini Diffusion araştırmalarına dayanılarak geliştirildiğini açıkladı.
Google'ın paylaştığı verilere göre DiffusionGemma, tek bir NVIDIA H100 üzerinde saniyede 1000'den fazla, NVIDIA GeForce RTX 5090 üzerinde ise saniyede 700'den fazla token üretebiliyor. Model toplam 26 milyar parametreye sahip olsa da çıkarım (inference) sırasında yalnızca 3,8 milyar parametre aktif oluyor; nicemlendiğinde (quantized) 18 GB VRAM'e sığarak üst seviye tüketici ekran kartlarında çalışabiliyor. Her ileri geçişte 256 token'ı paralel üreten model, çift yönlü dikkat (bi-directional attention) mekanizması sayesinde her token'ın diğerlerini görmesine olanak tanıyor. Bu özellik, satır içi düzenleme, kod doldurma ve matematiksel yapılar gibi doğrusal olmayan görevlerde avantaj sağlıyor.
DiffusionGemma'nın çalışma mantığı, görsel üreten yapay zeka modellerine benziyor. Model, rastgele yer tutucu token'lardan oluşan bir "tuval" ile başlıyor, ardından birden fazla geçişte doğru token'ları sabitleyerek ve bunları bağlam ipucu olarak kullanarak metni adım adım netleştiriyor. Araştırma topluluğu yıllardır difüzyon tabanlı metin üretimini incelese de bu yaklaşımın büyük modellere uygulanması bir zorluk olarak kalmıştı. Google, ardışık modellerin bulutta binlerce isteği gruplayarak verimli çalıştığını, ancak tek bir kullanıcı için yerel olarak çalıştırıldığında donanımı yeterince kullanamadığını; DiffusionGemma'nın ise işlemciye tek seferde daha büyük bir iş yükü vererek bu verimsizliği tersine çevirdiğini belirtti.
Şirket, hız ve paralel üretime öncelik verdiği için modelin genel çıktı kalitesinin standart Gemma 4'ün altında kaldığını açıkça vurguladı ve maksimum kalite gerektiren üretim işleri için hâlâ ardışık Gemma 4 modellerini önerdi. DiffusionGemma'nın ağırlıkları Hugging Face üzerinden indirilebiliyor; model MLX, vLLM ve Hugging Face Transformers ile çalıştırılabiliyor. Google, NVIDIA ile iş birliği yaparak modeli RTX 5090 ve 4090 ekran kartları için nicemledi ve NVFP4 desteğiyle Hopper ile Blackwell sistemlerinde performansı optimize etti. Duyuru, Google'ın son haftalarda Gemma 4 12B ve Gemma 4 QAT gibi açık model çıkışlarını yoğunlaştırdığı bir döneme denk geldi.