DeepSeek'ten Yapay Zekada Yeni Çığır: Görsel Algı ile Metinleri Sıkıştırıyor

6 Kasım 2025Yapay Zeka
DeepSeek'ten Yapay Zekada Yeni Çığır: Görsel Algı ile Metinleri Sıkıştırıyor

Yapay zeka alanında yenilikçi adımlar atmaya devam eden Çin merkezli DeepSeek, metin verilerini işleme biçimimizde devrim yaratacak yeni bir teknolojiye imza attı. DeepSeek-OCR adını taşıyan açık kaynaklı model, uzun ve karmaşık metinleri çok daha az hesaplama birimiyle (token) analiz edebilmek için görsel algıyı bir bilgi aktarım ortamı olarak kullanıyor. Bu çığır açan yaklaşım, büyük dil modellerinin (LLM) devasa miktarda metin verisini analiz ederken işlem maliyetlerini önemli ölçüde düşürmesini ve verimliliği artırmasını hedefliyor. DeepSeek'in bu hamlesi, yapay zeka verimliliğini en üst düzeye çıkarma ve maliyetleri düşürme stratejisinin bir parçası olarak öne çıkıyor. Daha önce piyasaya sürülen V3 ve R1 modellerinde de benzer verimlilik odaklı yaklaşımlar benimsenmişti.


DeepSeek-OCR, temel olarak iki ana bileşenden oluşuyor: DeepEncoder ve DeepSeek3B-MoE-A570M. Modellerinin çekirdeği olan DeepEncoder, yüksek çözünürlüklü girdilerle çalışırken düşük aktivasyon düzeyini koruyarak dikkat çekici token azaltma oranlarına ulaşıyor. Bu, karmaşık belgelerin bile daha az bellek kullanımıyla işlenebilmesi anlamına geliyor. Çözücü (decoder) kısmı ise, 570 milyon parametreye sahip bir Karışım Uzmanları (Mixture-of-Experts - MoE) mimarisiyle çalışarak, verileri farklı uzman alt ağlara bölüp orijinal metnin yüksek doğrulukla yeniden oluşturulmasını sağlıyor. Bu karmaşık yapı, modelin sadece metin verilerini değil, aynı zamanda tablolar, matematiksel formüller ve geometrik diyagramlar gibi yüksek yapısal içeriğe sahip verileri de etkili bir şekilde çözümlemesini mümkün kılıyor; bu da özellikle finans ve bilim gibi alanlarda büyük faydalar sağlayacak bir özellik olarak görülüyor.


Yapılan benchmark testleri, DeepSeek-OCR'ın performansını net bir şekilde ortaya koyuyor. Metin token sayısının, görsel token boyutunun 10 katı veya daha az olduğu senaryolarda model, %97'lik etkileyici bir doğruluk oranı yakaladı. Sıkıştırma oranı 20 kata yükseldiğinde dahi, sistem yaklaşık %60 doğruluk oranını koruyarak, bilginin aşırı sıkıştırma altında bile kaybolmadığını kanıtladı. OmniDocBench gibi belge anlama testlerinde DeepSeek-OCR, GOT-OCR 2.0 ve MinerU 2.0 gibi önde gelen OCR modellerini geride bırakarak, çok daha az token kullanarak daha yüksek doğruluk elde etti. Bu yetenek, şirketin belirttiğine göre, sistemin tek bir Nvidia A100-40G GPU üzerinde günde 200.000’den fazla sayfa eğitim verisi üretebilmesiyle pekişiyor. Bu ölçeklenebilirlik, ultra uzun bağlam işleme kapasitesinin ne kadar mümkün olduğunu gösteriyor.


DeepSeek-OCR'ın getirdiği yenilikçi "görsel algı ile metin sıkıştırma" paradigması, LLM'lerin bilgi işleme yeteneklerini temelden değiştirebilir. Yakın zamandaki içerikleri yüksek çözünürlükte, daha eski bağlamları ise daha az hesaplama kaynağıyla işleyerek, bilgi korunumu ve hesaplama verimliliği arasında teorik olarak sınırsız bağlam mimarilerine kapı aralıyor. Bu teknoloji, sadece yapay zeka modellerinin performansını artırmakla kalmıyor, aynı zamanda daha sürdürülebilir ve erişilebilir yapay zeka çözümlerinin önünü açıyor. DeepSeek'in bu alandaki çalışmaları, yapay zekanın geleceğinin, verimlilik ve yaratıcı problem çözme üzerine inşa edileceği fikrini güçlendiriyor.

📬 Bültenimize Abone Olun

En son blog yazılarımızdan ve güncellemelerimizden haberdar olun.

Türkçe

*Dilediğiniz zaman abonelikten çıkabilirsiniz.