Bir zamanlar bize sürücüsüz arabalar ve robot hizmetçiler vaat edilmişti. Bunun yerine, satrançta bizi yenebilen, devasa metin yığınlarını analiz edebilen ve soneler yazabilen yapay zekâ sistemleri ortaya çıktı. Bu, modern çağın en büyük sürprizlerinden biri oldu: İnsanlar için kolay olan fiziksel görevler robotlar için çok zor çıkarken, algoritmalar giderek zekâmızı taklit etmede daha yetkin hale geliyor.
Araştırmacıları uzun süredir şaşırtan başka bir durum da bu algoritmaların tuhaf bir tür yaratıcılık sergilemesi.
DALL·E, Imagen ve Stable Diffusion gibi görsel üretim araçlarının belkemiğini oluşturan difüzyon modelleri, aslında eğitildikleri görsellerin birebir kopyalarını üretmek için tasarlandı. Ancak pratikte, sanki doğaçlama yapıyormuş gibi davranıyorlar; görsellerdeki unsurları harmanlayarak yeni bir şey üretiyorlar — sadece anlamsız renk yığınları değil, semantik anlam taşıyan tutarlı görseller. Paris École Normale Supérieure’den yapay zekâ araştırmacısı ve fizikçi Giulio Biroli’nin dediği gibi bu, difüzyon modellerinin ardındaki “paradoks”: “Eğer mükemmel çalışsalardı, sadece ezberlemeleri gerekirdi,” diyor. “Ama etmiyorlar — aslında yeni örnekler üretebiliyorlar.”
Görselleri üretmek için difüzyon modelleri "gürültü giderme" (denoising) denen bir süreç kullanıyor. Bir görseli dijital gürültüye (düzensiz pikseller yığınına) dönüştürüyorlar, sonra onu yeniden bir araya getiriyorlar. Bu, bir tabloyu tekrar tekrar kağıt öğütücüsünden geçirip geriye sadece ince toz kalana kadar parçalamaya, ardından bu parçaları yeniden birleştirmeye benziyor. Araştırmacılar yıllardır şunu merak ediyordu: Eğer modeller sadece yeniden birleştiriyorsa, yenilik nereden geliyor? Bu, parçalanmış tablonu yepyeni bir sanat eserine dönüştürmeye benziyor.
Şimdi ise iki fizikçi çarpıcı bir iddiada bulundu: Yaratıcılık, gürültü giderme sürecindeki teknik kusurların doğrudan sonucu. 2025 Uluslararası Makine Öğrenimi Konferansı’nda sunulacak makalelerinde ikili, eğitilmiş difüzyon modellerinin matematiksel bir modelini geliştirdi ve sözde yaratıcılığın aslında deterministik bir süreç olduğunu — mimarilerinin doğrudan, kaçınılmaz bir sonucu olduğunu gösterdi.
Difüzyon modellerinin kara kutusunu aydınlatan bu yeni araştırma, gelecekteki yapay zekâ çalışmaları için — ve belki de insan yaratıcılığını anlamamız için — büyük sonuçlar doğurabilir. Hollanda Radboud Üniversitesi’nden bilgisayar bilimci Luca Ambrogioni şöyle diyor: “Bu makalenin gerçek gücü, çok sıra dışı bir şey hakkında son derece doğru tahminler yapabilmesi.”
Stanford Üniversitesi’nde uygulamalı fizik yüksek lisans öğrencisi ve makalenin başyazarı Mason Kamb, uzun süredir morfogenezle ilgileniyor: canlı sistemlerin kendiliğinden nasıl şekillendiği süreçleriyle.
İnsan ve diğer hayvan embriyolarının gelişimini anlamanın yollarından biri, 20. yüzyıl matematikçisi Alan Turing’in adını taşıyan “Turing deseni” kavramıdır. Turing desenleri, hücre gruplarının nasıl farklı organlara ve uzuvlara organize olabileceğini açıklar. Önemli olan, bu koordinasyonun tamamen yerel düzeyde gerçekleşmesidir. Trilyonlarca hücrenin nihai plana uyum sağlamasını denetleyen bir CEO yoktur. Hücreler, yani, önceden hazırlanmış bir beden planına sahip değildir; sadece komşularından gelen sinyallere tepki vererek hareket ederler. Bu tabandan yukarıya sistem genellikle sorunsuz işler ama bazen şaşar — örneğin fazladan parmak oluşumuna yol açar.
İlk yapay zekâ görselleri çevrimiçi belirmeye başladığında, çoğu sürrealist resimlere benziyordu; insanları fazladan parmaklarla resmediyorlardı. Bu, Kamb’a hemen morfogenez hatalarını hatırlattı: “Bu, [tabandan yukarıya] bir sistemin vermesini bekleyeceğiniz türden bir hata kokusundaydı,” dedi.
Araştırmacılar o noktaya kadar, difüzyon modellerinin görsel üretiminde bazı teknik kestirmeler kullandığını biliyordu. İlki “yerellik” (locality) olarak biliniyor: Modeller yalnızca bir piksel grubuna, yani bir “yamaya” odaklanıyor. İkincisi ise katı bir kurala uyuyorlar: Bir görseli birkaç piksel kaydırırsanız, model de çıktısında aynı kaymayı otomatik olarak uygular. Bu özellik, “öteleme denkliği” (translational equivariance) olarak bilinir ve yapının bütünlüğünü korumanın bir yoludur; olmadan gerçekçi görseller üretmek çok daha zordur.
Kısmen bu özellikler yüzünden, difüzyon modelleri belirli bir yamanın nihai görselde nereye uyacağını umursamıyor. Onlar sadece tek bir yamayı üretmeye odaklanıyor, sonra bunları yerine oturtmak için “skor fonksiyonu” adı verilen matematiksel bir model kullanıyor. Bu da dijital bir Turing deseni olarak düşünülebilir.
Araştırmacılar uzun süre yerellik ve denkliği sadece gürültü giderme sürecinin sınırlamaları olarak görmüştü — modellerin mükemmel kopyalar oluşturmasını engelleyen teknik tuhaflıklar. Onları yaratıcılıkla bağdaştırmıyorlardı. Yaratıcılığın daha üst düzey bir olgu olduğu düşünülüyordu.
Ama yanıldıkları ortaya çıktı.
Yerelde olarak üretilmiş
Kamb, 2022’de Stanford’da Surya Ganguli’nin laboratuvarında yüksek lisansına başladı. OpenAI aynı yıl ChatGPT’yi yayınladı ve bugün “üretken yapay zekâ” denen alan büyük bir ilgi gördü. Teknoloji geliştiricileri giderek daha güçlü modeller inşa etmeye çalışırken, akademisyenler bu sistemlerin iç işleyişini anlamaya odaklandı.
Kamb sonunda şu hipotezi geliştirdi: Yerellik ve denkliğin kendisi yaratıcılığa yol açıyor. Bu, cazip bir deneysel ihtimali doğurdu: Eğer sadece yerellik ve denklik için optimize edilmiş bir sistem geliştirebilirse, bu sistemin bir difüzyon modeli gibi davranması gerekirdi. Bu deney, Ganguli ile birlikte yazdığı yeni makalesinin kalbinde yer aldı.
Kamb ve Ganguli sistemlerine “denk yerel skor” (equivariant local score, ELS) makinesi adını verdi. Bu, eğitilmiş bir difüzyon modeli değil; yalnızca yerellik ve denklik mekaniklerine dayalı olarak gürültü giderilmiş görsellerin bileşimini analitik olarak öngörebilen bir denklem seti. Daha sonra, dijital gürültüye dönüştürülmüş görselleri hem ELS makinesiyle hem de ResNet ve UNet gibi güçlü difüzyon modelleriyle işlettiler.
Sonuçlar “şok ediciydi,” dedi Ganguli: Her durumda, ELS makinesi, eğitilmiş difüzyon modellerinin çıktılarıyla %90 oranında aynı sonuçları üretti — bu, “makine öğreniminde duyulmamış bir şey.”
Sonuçlar Kamb’ın hipotezini destekliyor gibiydi. “Yerelliği dayatır dayatmaz, [yaratıcılık] otomatik olarak ortaya çıkıyordu; dinamiklerin içinden tamamen doğal şekilde çıkıyordu,” dedi. Gürültü giderme sürecinde modellerin dikkat penceresini kısıtlayan — onları bağlamdan bağımsız olarak tek tek yamalara odaklanmaya zorlayan — aynı mekanizmalar, aynı zamanda yaratıcılığı mümkün kılıyordu. Difüzyon modellerinde görülen fazla parmak olgusu da, modellerin bağlamdan kopuk bir şekilde yalnızca yerel piksel yamaları üretmeye takıntı yapmalarının doğrudan yan ürünüydü.
Uzmanlar, Kamb ve Ganguli’nin makalesi difüzyon modellerindeki yaratıcılığın mekanizmalarını aydınlatıyor olsa da hâlâ gizemli noktalar bulunduğunu kabul ediyor. Örneğin büyük dil modelleri ve diğer yapay zekâ sistemleri de yaratıcılık sergiliyor, ama yerellik ve denklikten yararlanmıyorlar.
“Bence bu hikâyenin çok önemli bir parçası,” diyor Biroli, “[ama] tamamı değil.”
Yaratıcılığı yaratmak
Araştırmacılar ilk kez, difüzyon modellerinin yaratıcılığının bizzat gürültü giderme sürecinin bir yan ürünü olarak düşünülebileceğini, bunun matematiksel olarak formüle edilip eşi benzeri görülmemiş bir doğrulukla tahmin edilebileceğini gösterdi. Bu, insan sanatçıları bir beyin tarayıcısına koyup yaratıcılıklarının ortak sinirsel mekanizmasının denklemler halinde yazılabildiğini görmek gibi bir şey.
Bu benzetme belki de sadece mecazla sınırlı değil: Kamb ve Ganguli’nin çalışması insan zihninin kara kutusuna da ışık tutabilir. Georgia Institute of Technology ve IBM Research’te difüzyon modelleri üzerine çalışan makine öğrenimi araştırmacısı Benjamin Hoover şöyle diyor: “İnsan ve yapay zekâ yaratıcılığı belki de o kadar farklı değil. Biz deneyimlerimize, hayallerimize, gördüklerimize, duyduklarımıza ve arzularımıza göre bir şeyler birleştiriyoruz. Yapay zekâ da, gördüklerinden ve istenenden aldığı yapı taşlarını bir araya getiriyor.” Bu bakış açısına göre hem insan hem de yapay yaratıcılık, dünyanın eksik bir anlayışına dayanıyor olabilir: Hepimiz elimizden geldiğince boşlukları doldurmaya çalışıyoruz ve bazen yeni ve değerli bir şey üretiyoruz. Belki de biz buna “yaratıcılık” diyoruz.
Bu yazı LIVESCIENCE’ de yayınlanmıştır.
0 yorum