Ancak bilim insanları, olağanüstü çeşitlilikleri ve hızla evrimleşme yetenekleri nedeniyle virüslerin çevrelerini nasıl etkilediğine dair henüz tam bir resme sahip değiller.
Mikrop topluluklarının laboratuvar ortamında incelenmesi zordur. Birçok mikrobun yetiştirilmesi zordur ve doğal ortamları, bilim insanlarının bir laboratuvarda kopyalayabileceğinden çok daha fazla başarı veya başarısızlıklarını etkileyen özelliklere sahiptir.
Bu nedenle benim gibi sistem biyologları genellikle bir numunede (örneğin bir hastadan alınan dışkı numunesi) bulunan tüm DNA'yı sıralar, viral DNA dizilerini ayırır ve ardından viral genomun proteinleri kodlayan bölümlerine açıklama ekler.
Genlerin konumu, yapısı ve diğer özelliklerine ilişkin bu notlar, araştırmacıların virüslerin çevrede yerine getirebileceği işlevleri anlamalarına ve farklı virüs türlerini tanımlamalarına yardımcı olur.
Araştırmacılar, bir örnekteki viral dizileri, viral genetik dizilerin halka açık veritabanlarında bulunan daha önce eklenmiş dizilerle eşleştirerek virüslere açıklama eklerler.
Ancak bilim insanları, çevreden toplanan DNA'lardaki viral dizileri, bu genleri açıklama yeteneğimizi çok aşan bir oranda tanımlıyorlar. Bu da araştırmacıların mikrobiyal ekosistemlerdeki virüslerle ilgili bulguları, mevcut verilerin kabul edilemeyecek kadar küçük bir kısmını kullanarak yayınladıkları anlamına geliyor.
Araştırmacıların dünyanın dört bir yanındaki virüsleri inceleme becerilerini geliştirmek için ekibim ve ben yapay zeka kullanarak viral dizilere açıklama eklemek için yeni bir yaklaşım geliştirdik.
ChatGPT gibi büyük dil modellerine benzeyen ancak proteinlere özgü protein dil modelleri sayesinde, daha önce görülmemiş viral dizileri sınıflandırmayı başardık. Bu, araştırmacılara sadece virüsler hakkında daha fazla bilgi edinmek için değil, aynı zamanda mevcut tekniklerle cevaplanması zor olan biyolojik soruları ele almak için de kapı açıyor
Yapay Zekâ ile Virüslere Açıklık Getirme
Büyük dil modelleri, cevabı açıkça “öğretilmeyen” sorulara potansiyel cevaplar sağlamak için büyük metin veri kümelerindeki kelimeler arasındaki ilişkileri kullanır.
Örneğin bir chatbot'a “Fransa'nın başkenti neresidir?” diye sorduğunuzda, model cevabı bir başkentler tablosunda aramaz. Bunun yerine, cevabı çıkarmak için devasa belge ve bilgi veri kümeleri üzerindeki eğitimini kullanıyor: “Fransa'nın başkenti Paris'tir.”
Benzer şekilde, protein dil modelleri, dünyanın dört bir yanındaki ortamlardan gelen milyarlarca protein dizisi arasındaki ilişkileri tanımak için eğitilmiş yapay zeka algoritmalarıdır. Bu eğitim sayesinde, viral proteinlerin özü ve işlevleri hakkında bir şeyler çıkarabilirler.
Protein dili modellerinin bu soruya cevap verip veremeyeceğini merak ettik: “Açıklanmış tüm viral genetik diziler göz önüne alındığında, bu yeni dizinin işlevi nedir?”
Kavram kanıtımızda, sinir ağlarını önceden öğretilmiş protein dili modellerinde önceden eklenmiş viral protein dizileri üzerinde eğittik ve daha sonra bunları yeni viral protein dizilerinin ek açıklamasını tahmin etmek için kullandık.
Yaklaşımımız, modelin belirli bir ek açıklamaya yol açan belirli bir viral dizide “ne gördüğünü” araştırmamızı sağlar. Bu, özel işlevlerine veya genomlarının nasıl düzenlendiğine bağlı olarak ilgilenilen aday proteinlerin belirlenmesine yardımcı olur ve geniş veri kümelerinin arama alanını daraltır.
Protein dili modelleri, daha uzaktan ilişkili viral gen işlevlerini tanımlayarak, mikrobiyolojiye yeni bakış açıları sağlamak için mevcut yöntemleri tamamlayabilir.
Örneğin, ekibim ve ben modelimizi, küresel olarak bol miktarda bulunan deniz pikosiyanobakterileri Prochlorococcus ve Synechococcus'ta daha önce tanınmayan bir integrazı - genetik bilgiyi hücrelerin içine ve dışına taşıyabilen bir protein türü - keşfetmek için kullanabildik.
Özellikle, bu entegraz okyanuslardaki bu bakteri popülasyonlarının içinde ve dışında genleri taşıyabilir ve bu mikropların değişen ortamlara daha iyi adapte olmasını sağlayabilir.
Dil modelimiz ayrıca küresel okyanuslarda yaygın olan yeni bir viral kapsid proteini tanımladı. Genlerinin nasıl düzenlendiğine dair ilk resmi ürettik ve bu virüsün bulunduğu ortamda farklı işlevlere hizmet ettiğini gösterdiğine inandığımız farklı gen setleri içerebileceğini gösterdik.
Bu ön bulgular, yaklaşımımızın sağladığı binlerce ek açıklamadan yalnızca ikisini temsil etmektedir.
Bilinmeyeni Analiz Etmek
Yeni keşfedilen yüz binlerce virüsün çoğu sınıflandırılmamıştır. Birçok viral genetik dizilim, bilinen bir işlevi olmayan veya daha önce hiç görülmemiş protein aileleriyle eşleşmektedir. Çalışmamız, benzer protein dili modellerinin, gezegenimizin karakterize edilmemiş birçok virüsünün tehdit ve vaatlerini incelemeye yardımcı olabileceğini göstermektedir.
Çalışmamız küresel okyanuslardaki virüslere odaklanmış olsa da, viral proteinlerin daha iyi açıklanması, virüslerin insan vücudunda sağlık ve hastalıkta oynadığı rolü daha iyi anlamak için kritik öneme sahiptir.
Biz ve diğer araştırmacılar, insan bağırsak mikrobiyomundaki viral aktivitenin hasta olduğunuzda değişebileceği varsayımında bulunduk. Bu da virüslerin mikrobiyal topluluklardaki stresin belirlenmesine yardımcı olabileceği anlamına geliyor.
Ancak bizim yaklaşımımız da sınırlı çünkü yüksek kaliteli ek açıklamalar gerektiriyor. Araştırmacılar, daha güçlü hale getirmek için eğitimlerinin bir parçası olarak diğer “görevleri”, özellikle de benzer proteinleri tespit etmek için protein yapılarını tahmin etmeyi içeren yeni protein dili modelleri geliştiriyorlar.
Tüm YZ araçlarının FAIR Veri İlkeleri (bulunabilir, erişilebilir, birlikte çalışabilir ve yeniden kullanılabilir veriler) aracılığıyla kullanılabilir hale getirilmesi, araştırmacıların insan sağlığına fayda sağlayan keşiflere yol açan protein dizilerini açıklamanın bu yeni yollarının potansiyelini fark etmelerine yardımcı olabilir.
Libusha Kelly, Sistem ve Hesaplamalı Biyoloji, Mikrobiyoloji ve İmmünoloji Doçenti, Albert Einstein Tıp Fakültesi
Bu yazı SCIENCEALERT’ de yayınlanmıştır.
0 yorum