Google, Çoklu Modalite Destekli Gemini Embedding 2 Modelini Kullanıma Sundu

12 Mart 2026Yapay Zeka
Google, Çoklu Modalite Destekli Gemini Embedding 2 Modelini Kullanıma Sundu

Google, yapay zeka altyapı ekosistemindeki en kritik bileşenlerden biri olan embedding teknolojisinde büyük bir adım attı. 10 Mart 2026'da duyurulan Gemini Embedding 2, şirketin Gemini mimarisi üzerine inşa edilmiş ilk tam multimodal embedding modeli olarak Gemini API ve Vertex AI üzerinden genel önizleme statüsünde kullanıma sunuldu. Model, daha önce yalnızca metin tabanlı çalışan embedding sistemlerinin ötesine geçerek metin, görsel, video, ses ve PDF dokümanlarını tek bir birleşik vektör uzayına haritalıyor.


Modelin en dikkat çekici özelliklerinden biri, farklı veri türlerini tek bir istekte birlikte işleyebilme yeteneği. Geliştiriciler örneğin bir görselle birlikte bir metin parçasını aynı anda modele gönderebiliyor ve model bu farklı medya türleri arasındaki anlamsal ilişkileri yakalayabiliyor. Teknik kapasite açısından model; 8.192 tokena kadar metin, istek başına 6 görsele kadar PNG/JPEG, 120 saniyeye kadar MP4/MOV video, transkripsiyon gerektirmeden doğrudan ses işleme ve 6 sayfaya kadar PDF doküman desteği sunuyor. 100'den fazla dilde anlamsal niyet yakalama kapasitesine sahip olan model, RAG, semantik arama, duygu analizi ve veri kümeleme gibi çok çeşitli kullanım alanlarını destekliyor.


Gemini Embedding 2, Matryoshka Representation Learning (MRL) tekniğini de bünyesinde barındırıyor. Bu yaklaşım, embedding vektörlerinin boyutlarının esnek biçimde ölçeklenmesine olanak tanıyor. Varsayılan çıktı boyutu 3.072 olmakla birlikte, geliştiriciler performans ve depolama maliyetleri arasında denge kurmak için 1.536 veya 768 boyutlarına da düşürebiliyor. Google, modelin metin, görsel ve video görevlerinde mevcut öncü modelleri geride bıraktığını ve özellikle konuşma yetenekleriyle yeni bir performans standardı belirlediğini açıkladı.


Model şu anda LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB ve Vector Search gibi popüler framework ve vektör veritabanı araçlarıyla entegre olarak kullanılabiliyor. Google'ın erken erişim ortaklarından gelen geri bildirimler, özellikle video arama senaryolarında çarpıcı sonuçlar ortaya koyuyor. Multimodal embedding teknolojisinin bu denli kapsamlı bir şekilde tek bir modelde sunulması, RAG pipeline'ları ve semantik arama sistemleri geliştiren ekipler için önemli bir kolaylık ve performans artışı vaat ediyor.

📬 Bültenimize Abone Olun

En son blog yazılarımızdan ve güncellemelerimizden haberdar olun.

Türkçe

*Dilediğiniz zaman abonelikten çıkabilirsiniz.