2023 yılında kurulan DeepSeek, elde ettiği sonuçları rakiplerinin nakit ve hesaplama gücünün çok az bir kısmıyla elde etti.
DeepSeek'in geçen hafta yayınlanan “akıl yürütme” R1 modeli, araştırmacılar arasında heyecan, yatırımcılar arasında şok ve yapay zekanın ağır toplarından tepkilere neden oldu. Şirket, 28 Ocak'ta metnin yanı sıra görüntülerle de çalışabilen bir modelle devam etti.
Peki DeepSeek ne yaptı ve bunu nasıl yaptı?
DeepSeek Ne Yaptı
DeepSeek Aralık ayında V3 modelini yayınladı. Bu model OpenAI'nin GPT-4o ve Anthropic'in Claude 3.5 modellerine benzer düzeyde performans gösteren çok güçlü bir “standart” büyük dil modelidir.
Bu modeller hataya meyilli olsalar ve bazen kendi gerçeklerini uydursalar da, soruları yanıtlama, kompozisyon yazma ve bilgisayar kodu üretme gibi görevleri yerine getirebilirler. Bazı problem çözme ve matematiksel muhakeme testlerinde ortalama bir insandan daha iyi puanlar alıyorlar.
V3 yaklaşık 5,58 milyon ABD doları maliyetle eğitilmiştir. Bu, örneğin geliştirilmesi 100 milyon ABD Dolarından daha pahalıya mal olan GPT-4'ten önemli ölçüde daha ucuzdur.
DeepSeek ayrıca V3'ü yaklaşık 2.000 özel bilgisayar çipi, özellikle de NVIDIA tarafından üretilen H800 GPU'ları kullanarak eğittiğini iddia etmektedir. Bu rakam, daha güçlü olan H100 çiplerinden 16.000'e kadar kullanmış olabilecek diğer şirketlerden çok daha azdır.
20 Ocak'ta DeepSeek, R1 adı verilen başka bir modeli piyasaya sürdü. Bu model, karmaşık problemleri adım adım çözmeye çalışan “akıl yürütme” modelidir. Bu modellerin, okuduğunu anlama ve stratejik planlama gibi bağlam gerektiren ve birbiriyle ilişkili birden fazla parçası olan birçok görevde daha iyi olduğu görülüyor.
R1 modeli, V3'ün takviyeli öğrenme adı verilen bir teknikle değiştirilmiş bir versiyonudur. R1, OpenAI'nin geçen yıl piyasaya sürdüğü o1 ile benzer bir seviyede çalışıyor gibi görünüyor.
DeepSeek aynı tekniği ev bilgisayarlarında çalışabilen küçük açık kaynaklı modellerin “akıl yürütme” versiyonlarını yapmak için de kullandı.
Bu sürüm DeepSeek'e olan ilgide büyük bir artışa yol açarak V3 destekli chatbot uygulamasının popülerliğini arttırdı ve yatırımcıların yapay zeka sektörünü yeniden değerlendirmesiyle teknoloji hisselerinde büyük bir fiyat düşüşünü tetikledi. Bu yazının yazıldığı sırada, çip üreticisi NVIDIA yaklaşık 600 milyar ABD doları değer kaybetmiştir.
DeepSeek Nasıl Başardı?
DeepSeek'in atılımları daha fazla verimlilik elde etme konusunda olmuştur: daha az kaynakla iyi sonuçlar elde etmek. Özellikle DeepSeek'in geliştiricileri, yapay zeka araştırmacıları tarafından daha geniş çapta benimsenebilecek iki tekniğe öncülük etmiştir.
Bunlardan ilki “seyreklik” adı verilen matematiksel bir fikirle ilgilidir. YZ modelleri, girdilere verdikleri yanıtları belirleyen çok sayıda parametreye sahiptir (V3 yaklaşık 671 milyar parametreye sahiptir), ancak herhangi bir girdi için bu parametrelerin yalnızca küçük bir kısmı kullanılır.
Ancak hangi parametrelere ihtiyaç duyulacağını tahmin etmek kolay değildir. DeepSeek bunu yapmak için yeni bir teknik kullandı ve ardından yalnızca bu parametreleri eğitti. Sonuç olarak, modelleri geleneksel bir yaklaşıma göre çok daha az eğitime ihtiyaç duydu.
Diğer bir numara ise V3'ün bilgileri bilgisayar belleğinde nasıl sakladığı ile ilgilidir. DeepSeek, ilgili verileri sıkıştırmak için akıllıca bir yol buldu, böylece depolamak ve hızlı bir şekilde erişmek daha kolay.
Bu Ne Anlama Geliyor
DeepSeek'in modelleri ve teknikleri ücretsiz MIT Lisansı altında yayınlandı, bu da herkesin bunları indirebileceği ve değiştirebileceği anlamına geliyor.
Bu durum, serbestçe kullanılabilen güçlü modellerin varlığı nedeniyle kârları erozyona uğrayabilecek bazı YZ şirketleri için kötü bir haber olsa da, daha geniş YZ araştırma topluluğu için harika bir haber.
Şu anda, birçok YZ araştırması muazzam miktarda bilgi işlem kaynağına erişim gerektiriyor. Benim gibi üniversitelerde (ya da büyük teknoloji şirketleri dışında herhangi bir yerde) çalışan araştırmacıların test ve deney yapma olanakları sınırlı.
Daha verimli modeller ve teknikler durumu değiştiriyor. Deneme ve geliştirme artık bizim için önemli ölçüde daha kolay olabilir.
Tüketiciler için de YZ'ye erişim daha ucuz hale gelebilir. Daha fazla YZ modeli, abonelik ücreti karşılığında “bulutta” çalıştırılmak yerine, dizüstü bilgisayarlar veya telefonlar gibi kullanıcıların kendi cihazlarında çalıştırılabilir.
Zaten çok fazla kaynağa sahip olan araştırmacılar için daha fazla verimliliğin etkisi daha az olabilir. DeepSeek'in yaklaşımının genel olarak daha iyi performansa sahip modellerin mi yoksa sadece daha verimli modellerin mi oluşturulmasına yardımcı olacağı belli değil.
Tongliang Liu, Makine Öğrenimi Doçenti ve Sydney Yapay Zeka Merkezi Direktörü, Sydney Üniversitesi
Bu yazı SCIENCEALERT’ de yayınlanmıştır.
0 yorum