Bilgisayarla görme tarihi – 6

Lale Akarun
Bilgisayarla görme tarihi – 6

Daha büyük veri, daha derin öğrenme, daha yüksek bilgisayar gücü

Bilgisayarla görme, 50 senede, bilim kurgunun konusu olmaktan çıkıp, teknolojik olarak olgunlaştı. Artık bu konuda şirketler çalışıyor. Bilgisayarla görme tarihi bitmese de başka bir evreye geçtik.

2010’lu yıllar, “derin öğrenme” denen devrimin yılları. Artık bilgisayar kapasite ve performansları milyonlarca parametreye sahip sinir ağlarını eğitmeye yetecek seviyeye gelmişti. Yapay sinir ağları, görüntü tanımada başarılıydı: Görüntünün piksellerini girdi olarak veriyorsunuz, çeşitli katmanlardan geçtikten sonra, çıktıda görüntüdeki nesnenin hangi sınıftan olduğunu söylüyor. Örneğin “araba”. Bunu nasıl yapıyor? Yapay sinir ağının katmanlarında parametreler var. Bu parametrelerin “araba” demek için eğitilmeleri gerekiyor. Aynı arabayı gösterip “Bak oğlum, araba” dediğiniz bir bebek gibi, yapay sinir ağına da verdiğiniz görüntünün sınıfını söylemeniz gerekiyordu. Bu yönteme denetimli öğrenme adı veriliyor. Çok sayıda görüntünüz olmalı, bu görüntülerde ne olduğu belli olmalı. Mesela bir milyon görüntü.


Milyonlarca görüntü bulmak artık kolaydı, internette bol bol resim vardı. Ancak milyonlarca görüntünün içeriğini işaretlemek öyle değil. Resimde birden çok nesne olabilir, ayrıca yüzlerce sınıf var, ev kedisi mi vahşi kedi mi? Zıplayan kedi mi; çamaşır makinesinin içine kıvrılmış yatan kedi mi? İlk çalışmalarda, öğrenciler, gözleri bozulana kadar bu görüntüleri işaretliyordu; ancak mil- yonlarca görüntü söz konusu olunca, yeni bir mekanizma gerekti: Küçük paralar karşılığı, üçüncü dünya ülkelerinden pek çok insana imgelerdeki nesneleri işaretletmek: Buna Kitlekaynak adı verildi.

2010’ların başında, bu konuda artık altyapı ve yöntemlerin yeterince geliştiği, eksik olanın yeterince çok sayıda işaretlenmiş imge olduğu gözleminden hareketle, ImageNet adlı projede, 14 milyon imgeyi Kitlekaynak yöntemiyle işaretlemeye girişildi: Yıllar içinde 14 milyondan fazla imge, 20 bin kategoriye ayrılarak işaretlendi. İşaretçi, resimde örneğin bir kedi varsa, bunun alt kategorilerine inip, “ev kedisi” diyor; kediyi içine alan kutuyu işaretliyordu. İşaretçilerin doğru işaretlediğinden emin olmak için birden çok işaretçiye aynı imge gönderiliyordu. İşaretçiler, resim başına birkaç sent kazansa da, bu iş için milyonlarca dolar harcandı. Sonuç, yapay sinir ağı bazlı tanıma performanslarında büyük bir iyileşme oldu.

Atılımın 3 ayağı

Bu dönemdeki büyük atılımın üç ayağı derin yapay sinir ağları, bilgisayar performanslarındaki artış ve büyük miktarda veri olsa da, dördüncü bir ayaktan bahsetmeden olmaz: Açık bilim ve yarışmalar. ImageNet projesinde toplanan veri, herkese açıldı; bu veriyi kullanarak nesne tanıma alanında her yıl yarışmalar düzenlendi. Aynı zamanda, bu alandaki en iyi konferansta yayınlanan tüm makaleler, açık kaynak olarak herkese ücretsiz sunuldu. Bilginin paylaşımı ve en iyiye ulaşmak için yarışmalar, mükemmele ulaşmayı sağladı. 2010’lu yılların sonuna gelindiğinde, artık bilgisayarla görme teknolojik olarak olgunlaşmış bir alan olarak, bu konuda çalışan binlerce şirketin ilgi konusuydu.

Şirketler bilgisayarla görme alanında büyük araştırmacı ekipler kurdular ve kuvvetli bilgisayar kaynakları tahsis ettiler. Daha fazla parametreli, daha derin yapay sinir ağları kullanmaya başladılar. Bilgisayarla görme dersini aldığım 80’li yıllarda eğittiğim ilk sinir ağının yüzden az parametresi vardı. Şimdi binler, milyonlar değil, milyarlarca parametreden bahsediyoruz. Bu ağları eğitmek için gerekli kaynakları elde etmek, çok zor. Üniversitelerdeki ekipler, şirketlerle yarışmakta zorlanmaya başladı. Çoğu üniversite hocası, şirketlere geçti, ya da onlarla ortak çalışmaya başladı.

Bilgisayarla görme, çözülmüş bir problem mi? Pek tabii ki hayır. Ancak 50 senede, bilim kurgunun konusu olmaktan çıkıp, teknolojik olarak olgunlaştı. Artık bu konuda şirketler çalışıyor. Bilgisayarla görme tarihi bitmese de başka bir evreye geçtik. Daha büyük veri, daha derin öğrenme, daha yüksek bilgisayar gücü her şeyi çözen sihirli değnek olarak görülüyor. Bundan sonraki atılımlar nereden gelecek, yaşayıp göreceğiz.

Lale Akarun

*Bu yazı, HBT Dergi 392. sayıda yayınlanmıştır.

Mercan Bursali