Ocak ayında sizlerle Google AI’ın, meme kanserini tespit etmekte doktorlardan daha iyi performans gösterdiğine dair bir araştırma paylaşmıştık. 90 bin hastanın mamogram filmini tarayan Google’ın yeni yapay zeka algoritmasının, yanlış negatifleri yüzde 9.4 oranında azaltığı belirtilmişti.
Ancak bugün Google’ın araştırmasına karşı McGill Üniversitesi, the City University of New York (CUNY), Harvard Üniversitesi ve Stanford Üniversitesinden 19 yazarın ortak olarak kaleme aldığı bir makale yayınladı. Makalede Google’ın araştırmasında detaylı metodların ve kodun yer almadığı belirtilerek; bu durumun araştırmanın bilimsel değerini azalttığını öne sürdü.
Google araştırmasına gelmeden önce bilimin tekrarlanabilirlik konusundaki problemlerinde de bahsetmekte fayda var. Bir araştırmanın geçerliliğinin ve bilimselliğinin doğrulanmasının yollarından biri de; araştırmanın aynı veriler ve yöntemlerle farklı bilim insanları tarafından yeniden üretilerek test edilebilmesi. Örneğin 2016 yapılan bir ankete katılan, 1500 bilim insanın yüzde 70’i en az bir diğer bilim adamının deneyini yeniden üretmeyi denediğini ancak başarısız olduğunu bildirdi.
Yapay zeka alanında da benzer bir problemle çok daha sık bir şekilde karşı karşıya kalındığını söyleyelim. Örneğin ICML 2019’da (International Conference on Machine Learning) yazarların yüzde 30’u konferansın başlangıcına kadar yazılarıyla birlikte kodlarını gönderemedi. Araştırmalar genellikle kaynak kodu yerine kıyaslama sonuçları sunuyor. Bu da kıyaslamaların bütünlüğü sorgulandığında araştırmanın doğruluğu konusunda soru işaretleri doğruruyor.
Yakın tarihli bir rapor, doğal dil işleme modelleri tarafından verilen cevapların yüzde 60 ila yüzde 70’inin kıyaslama eğitim setlerinde bir yere gömüldüğünü ve modellerin genellikle basitçe cevapları ezberlediğini gösterdi.
3.000’den fazla yapay zeka makalesinin meta analizi olan başka bir çalışma ise yapay zeka ve makine öğrenimi modellerini karşılaştırmak için kullanılan ölçümlerin tutarsız, düzensiz bir şekilde takip edildiğini ve özellikle bilgilendirici olmadığını buldu.
Makale yazarları Google’ın meme kanseri modeli araştırmasının, model geliştirme aşamalarının tanımlanması, kullanılan veri işleme ve eğitim süreci belirtilmesi yönünden eksik olduğunu söylüyor.
Google araştırmada modelin mimarisinde kullanılan birkaç hiperparametre tanımına yer vermiyor. Bu hiperparametreleri model tarafından teşhis tahminlerini yapmak için kullanılan değişkenler olarak da tanımlayabiliriz. Buna ek olarak araştırmada modelin eğitildiği ve veri kümesini artırmak için kullanılan değişkenleri açıklanmadığını da ekleyelim.
Nature ortak yazarlarına göre bu, araştırma sonuçlarını ve performansı “önemli ölçüde” etkileyebilir. Örnek vermek gerekirse, Google’ın kullandığı veri artırmalarından biri; aynı hastanın birden fazla örneğiyle sonuçlanarak nihai sonuçlarda önyargı yaratabilir.
Yukarıda da bahsettiğimiz gibi, Google’ın araştırmasının tekrarlanabilir olmaması; bilimselliğini olumsuz önde etkiliyor.
Eleştirilere karşılık Google, modeli eğitmek için kullanılan kodun, dahili araçlara, altyapıya ve donanıma bir dizi bağımlılığı olduğunu ve bu nedenle yayınlanmasının imkan dahilinde olmadığını söyledi.
Şirket ayrıca, iki eğitim veri setinin tescilli doğasını (her ikisi de lisanslı) ve hasta sağlığı verilerinin gizliliğini öne sürerek bunları yayınlamama kararının nedenini açıkladı.
Yine de eleştriyi kaleme alan yazarlar, 2000’li yılların başlarında % 1’in altında olan ham verilerin paylaşım oranının, bugün% 20’ye çıkarak, biyomedikal literatürde daha yaygın hale geldiğini belirtiyor. Buna ek olarak model tahminlerinin ve veri etiketlerinin kişisel bilgilerin gizliliğini ihlal etmeden yayınlanabileceğini de ifade ediyorlar.
Özellikle bu araştırmaların uzun vadede ürünleşerek halk sağlığında söz sahibi olacağını düşünürsek; eleştirmenlerin de belirttiği gibi verilerin ve eğitim aşamalarının şeffaflığı önemli. Aksi halde, yanlış tehşisler ve bunun beraberinde eksik tedaviler de söz konusu olabilir.
Örneğin; Birleşik Krallık’ta faaliyet gösteren bir araştırma ekibi, göz hastalıklarını algılaması adına yapay zeka algoritmalarını eğitmek için kullanılan 94 veri setini analiz etti. 500 binden fazla görsel bulunan bu veri setinin neredeyse hepsinin Kuzey Amerika, Avrupa ve Çin’deki hastalardan elde edildiğini, yalnızca 4 veri setinin Güney Asyadan, iki veri setinin Güney Amerika’dan ve sadece bir setin Afrika’dan geldiğini buldu. Okyanusya’dan veya Orta Doğu’dan veri kullanılmaması; veri setinde yer almayan bölge insanlarına karşı, yapay zekanın tehşis yeteneklerini zayıflatıyor.
Bu durum sadece araştırma sürecinde değil uygulamada da problemlere yol açabilir. Bu nedenle eleştirmenler, tıp alanındaki yapay zeka araştırmalarının, üçüncü tarafların da doğrulamalarına tabi tutulması gerektiğini belirtiliyor.
Veri politikasındaki amaçlarla sınırlı ve mevzuata uygun şekilde çerez konumlandırmaktayız. Detaylar için veri politikamızı inceleyebilirsiniz.