Yazılım geliştirme dünyasının önde gelen firmalarından JetBrains, kodlama odaklı ilk açık kaynak büyük dil modeli Mellum-4b-base'i tanıttı. Tam 4 milyar parametreli ve LLaMA mimarisi tabanlı olan Mellum, 4 trilyondan fazla token üzerinde eğitildi ve 8192 token’lık bağlam penceresiyle birden fazla programlama dilinde kod tamamlama görevine odaklandı. JetBrains Mellum’u başta Python olmak üzere Java, Kotlin, Go, PHP, C, C++, C#, JavaScript, TypeScript, CSS, HTML, Rust ve Ruby dilleri için kod tamamlayıcı olarak optimize ettiğini duyurdu.
Hem taban model (Mellum-4b-base) hem de Python için özel olarak ince ayar yapılmış Mellum-4b-sft-python modeli Hugging Face platformunda Apache 2.0 lisansı ile ücretsiz erişime açıldı. Şirket, bu hamleyle araştırmacılara, eğitimcilere ve ileri seviye ekiplerine gelişmiş bir kodlama modeli üzerinde çalışıp özelleştirme şansı sunmak istiyor. Mellum'un henüz son kullanıcıya doğrudan hitap etmediği, fakat ileri düzey ekiplerin ve araştırmacıların kendi özel kullanım senaryolarına özgü şekilde ince ayarlarla fayda sağlayabileceği vurgulanıyor.
Mellum, insan değerlendirmeleri ve çeşitli benchmark testlerinde rakip kod odaklı büyük dil modelleriyle karşılaştırıldı. Python ve Java dillerinde çeşitli testlerden geçen Mellum, en uzun kod bağlamı testlerinde dahi istikrarlı sonuçlar verdi. Özellikle Python için ince ayar yapılmış versiyonu, tek satırlık kod tamamlama görevlerinde %80’in üzerinde başarı gösterdi. Mellum’un küçük, verimli ve özelleştirilebilir yapısı, genel amaçlı modellerin eksik kaldığı noktalarda uzman çözümler sunmayı amaçlıyor.
JetBrains, Mellum’u açık kaynak yapma nedenini “şeffaflık, işbirliği ve paylaşılan ilerleme” olarak açıklarken, modelin kod üretimi ve anlaşılması konusunda hem sektöre hem de akademiye kapılar açmasını bekliyor. Şirket, Mellum ailesini gelecekte diff tahmini gibi daha fazla kodlama görevine odaklanmış yeni modellerle genişletmeyi planlıyor.