Anthropic, Claude Opus 4.1’i duyurdu: Kodlama doğruluğu yüzde 74,5’e çıktı, güvenli ajansal arama güçlendi

Anthropic, Claude ailesinin en üst segmentinde yer alan Claude Opus 4.1’i duyurdu. Şirket, yeni sürümün özellikle gerçek dünya kodlama görevleri, ajansal arama ve gerekçelendirme (reasoning) kabiliyetlerinde anlamlı iyileştirmeler içerdiğini belirtiyor. Opus 4.1, SWE-bench Verified değerlendirmesinde yüzde 74,5 doğruluk elde ederek önceki nesil modellere göre çıtayı yükseltti. Bu sonuç, Claude Sonnet 3.7’nin yüzde 62,3’lük performansına ve Opus 4’ün üzerinde raporlanan değerlere kıyasla kayda değer bir artışı işaret ediyor.

Model; detay takibi, uzun soluklu araştırma ve veri analizi süreçlerinde daha tutarlı sonuçlar üretmek üzere optimize edildi. Ajansal arama tarafında geliştirilen yetenekler, çok adımlı görevlerde daha iyi planlama ve araç kullanımıyla birleşerek yazılım mühendisliği iş akışlarını hızlandırmayı hedefliyor. Anthropic’e göre Opus 4.1, kompleks AI ajanları, ileri seviye kodlama projeleri ve ayrıntı odaklı, uzun ufuklu otonom görevler gibi “doğruluk ve yetenek” gerektiren zorlu kullanım senaryoları için öneriliyor.

Kurumlardan gelen erken geri bildirimler de iyileşmeyi destekliyor: GitHub, Opus 4.1’in çok dosyalı kod refaktoring’inde belirgin ilerleme kaydettiğini; Rakuten Group ise büyük kod tabanlarında gereksiz değişiklik yapmadan, hata eklemeden nokta atışı düzeltmeler üretebildiğini aktarıyor. Geliştirici aracı Windsurf, junior geliştirici benchmark’ında Opus 4’e kıyasla bir standart sapma seviyesinde sıçrama bildirdi; bu da Sonnet 3.7’den Sonnet 4’e geçişte görülen kazanımlara benzer bir adımı işaret ediyor.

Opus 4.1, ücretli Claude kullanıcılarına ve Claude Code içinde sunuluyor; ayrıca Anthropic API’sinde, Amazon Bedrock ve Google Cloud’un Vertex AI platformlarında da erişilebilir. Fiyatlandırma, Opus 4 ile aynı seviyede korunuyor. Geliştiriciler, API üzerinden “claude-opus-4-1-20250805” model kimliğiyle geçiş yapabiliyor. Anthropic, yakın haftalarda daha büyük model iyileştirmeleri yayınlamayı planladığını vurgularken, özellikle SWE-bench ve TAU-bench gibi değerlendirmelerde kullanılan metodolojileri ve “extended thinking” modunun kapsamını şeffaf biçimde paylaşıyor.

Kullanıcı tarafında ise Claude Code aboneliği kullananların, ccusage gibi araçlarla gerçek kullanım ve maliyet takibi yapabildiğine dair topluluk paylaşımları öne çıkıyor. Temel plan kullanıcılarının, bağlam temizliği alışkanlıkları edindikten sonra token sınırlarına daha az takıldığı da ifade ediliyor. Tüm bu gelişmelerle birlikte Opus 4.1, artan popülerlik ve talebin getirdiği ölçeklenme gereksinimlerine güvenlik ve güvenilirlik vurgusunu koruyarak yanıt verme iddiasında.

Kategoriler

Dil

Anthropic, Claude Opus 4.1’i duyurdu: Kodlama doğruluğu yüzde 74,5’e çıktı, güvenli ajansal arama güçlendi

Kategoriler

Dil

Anthropic, Claude Opus 4.1’i duyurdu: Kodlama doğruluğu yüzde 74,5’e çıktı, güvenli ajansal arama güçlendi

📬 Bültenimize Abone Olun