
Apple, yapay zeka alanındaki çalışmalarını hız kesmeden sürdürüyor. Şirket, özellikle yüksek çözünürlüklü görsellerle çalışırken yaşanan verimlilik sorunlarını çözmeyi hedefleyen yeni nesil bir Görüntü ve Dil Modeli (VLM) olan FastVLM'i duyurdu. CVPR 2025 konferansında tanıtılan FastVLM, geleneksel VLM'lerin karşılaştığı "doğruluk-gecikme" ikilemini yenilikçi bir yaklaşımla ele alıyor.
FastVLM'in temelinde, yüksek çözünürlüklü görseller için özel olarak tasarlanmış hibrit bir görsel kodlayıcı olan FastViTHD yatıyor. Geleneksel olarak, görüntü çözünürlüğü arttıkça VLM'lerin doğruluğu artsa da, bu durum hem görsel kodlayıcının işlem süresini uzatıyor hem de daha fazla görsel token üretilmesine neden olarak büyük dil modellerinin (LLM) ön dolum süresini artırıyordu. FastViTHD ise bu soruna, çok ölçekli havuzlama (multi-scale pooling), ek öz-dikkat katmanları (self-attention layers) ve aşağı örnekleme (downsampling) gibi tekniklerle, daha az sayıda ancak daha kaliteli görsel token üreterek çözüm getiriyor. Örneğin, 336 çözünürlükte FastViT'e göre 4 kat, ViT-L/14'e göre ise 16 kat daha az token üretebiliyor.
Bu yenilikçi mimari sayesinde FastVLM, yüksek doğruluk seviyelerini korurken önemli ölçüde daha yüksek verimlilik sağlıyor. Yapılan karşılaştırmalarda, aynı 0.5B LLM ile LLaVa-OneVision'a kıyasla, özellikle TTFT (Time-to-First-Token) sürelerinde 85 kat daha hızlı olduğu ve görsel kodlayıcısının 3.4 kat daha küçük olduğu belirtiliyor. Bu üstün performans, FastVLM'i özellikle akıllı gözlükler gibi gerçek zamanlı etkileşim gerektiren ve cihaz üzerinde çalışan uygulamalar için ideal bir teknoloji haline getiriyor.
Apple, FastVLM ile birlikte Hugging Face platformunda kaynak kodunu ve model ağırlıklarını da paylaşarak araştırmacıların ve geliştiricilerin bu teknolojiyi daha yakından incelemesine olanak tanımış durumda. Ayrıca, MLX üzerine kurulu bir iOS/macOS demo uygulaması da yayınlanarak, FastVLM'in iPhone gibi mobil cihazlarda yerel olarak çalıştırılabildiği gösterildi. Bu gelişmeler, mobil yapay zeka deneyimlerinde yeni bir çığır açma potansiyeli taşıyor.