Bilgisayarla görme, yapay zekanın önemli bir alt alanı. Bilgisayarla görme dediğimizde ne kastediyoruz? Bilgisayarların görüntü veya videolardaki nesneleri, ortamları tanımaları, neler olduğunu anlamaları, çıkarımlar yapmaları...
Yani bir insan bu görüntüye bakınca ne anlıyorsa ne çıkarımlar yapıyorsa, benzer işleri yapması. 40 senedir bilgisayarla görme konularıyla ilgileniyorum; 30 senedir de dersini veriyorum. Zaten bu alanın geçmişi de yaklaşık 40-50 yıl. Dolayısıyla, bilgisayarla görmenin tarihini anlatabilecek bir konumdayım.
Araştırmacılar ilk önce bu işi kolay zannetmişler: Bir kameradan gelen görüntüyü bilgisayara aktarsak, sonra onu işleriz, olur biter demişler. 1966 yılında Boston’daki mühendislik okulu MIT’de bir profesör, bunu bir yaz dönemi projesi olarak lisans öğrencilerine vermiş. İşin o kadar kolay olmadığı biraz üstünde çalışınca ortaya çıkmış: Her şeyden önce, görüntüleri oluşturan imgelerin dijitalleştirilmesi gerekli: Görüntüler gri seviyeli ya da renkli piksellerden oluşur. Bir imgede kaç piksel olduğu, imgenin çözünürlüğünü bilirler.
Diyelim ki yatay ve dikey yönde biner piksel olsun. Bu durumda, imge bir milyon pikselden oluşur. Eğer görüntü gri seviyeli ise, her bir piksel sekiz bitten oluşan bir bayt ile gösterilebilir. Renkli resimler ise, kırmızı yeşil ve mavi renkleri gösteren birer bayt ile temsil edilirler. Dolayısıyla, bine bin çözünürlükte renkli bir imge 3 milyon bayt büyüklüğündedir. 1960’ların sonu, 1970’lerin başında, bu büyüklükte bir imgeyi işlemek için nasıl bir bilgisayar lazımdı?
O yıllarda kullanılan bilgisayarlar, bir oda büyüklüğünde, sunucu bilgisayarlardı. Bu bilgisayarların bellekleri, o zamanlar kilobayt, yani bin bayt ile ölçülürdü; mesela 128 bin bayt, 256 bin bayt gibi. Bu belleğe hem programların hem de programların işleyeceği verinin sığması gerekirdi. Dolayısıyla, 1960’larda, bilgisayarla görme için ilk adım olan görüntünün bilgisayarın belleğine yüklenmesi mümkün değildi; ancak küçük bir kısmı sığabilirdi. Düşünün ki, bir görüntüde ne olduğunu anlamaya çalışıyorsunuz ama görüntü bir kapının arkasında, siz ancak anahtar deliğinden bakarak delikten gördüğünüz kadarını yorumlayabiliyorsunuz. Onun gibi bir iş!
1980’lerde başladı
Bu dönemlerde araştırmacılar ne yapıyordu? Nasıl oluyor da imgeleri belleğe bile alamadan analiz etmeyi hedefleyebiliyorlardı? O dönemin yöntemleri, veriyi küçültmeyi hedefleyen basit yöntemlerdi: Veriyi siyah-beyaz hale getirelim; çözünürlüğünü düşürelim, nesnelerin kenarlarını bulalım; özet bilgiler çıkaralım. 1970’lerdeki bu ilk adımlar, bu basit işlemlerden ibaretti.
Dolayısıyla, bilgisayarla görme çalışmalarının 1980’lerde başladığını söylemek yanlış olmaz. Bu dönemde Ballard ve Brown tarafından yazılan ilk bilgisayarla görme ders kitabı çıktı; ben de aldığım ilk bilgisayarla görme dersinde bu kitabı okudum. 1987 yılında, imgeler hala kullandığımız bilgisayarların ana belleğine sığmıyordu; ilk iki satırını yüklüyor, onun üzerinde çalışıyor; sonra bir sonraki satırları bir öncekilerin üzerine yazıyor; onlar üzerinde çalışmaya devam ediyorduk. Ancak temel yöntemler, temel yaklaşımlar yerleşmişti; yapay sinir ağı eğitiyor, sınıflama yapabiliyorduk. Ancak yapay sinir ağlarının düğüm sayısı şimdiki gibi yüzlerce milyon değil, yirmi, otuz tane oluyordu! Yine de bu yirmi-otuz düğümlü ağı eğitmek saatler sürüyordu.
Bu dönemlerde bilgisayarla görme ile ne gibi programlar çözülebiliyordu? Nesnelerin kenarları bulunuyor; nesnelerin yerleri tespit ediliyordu. Bu yolla üretim hatlarında kalite kontrolü ya da otomasyon uygulamaları yapılabiliyordu. Bunun dışında, basılı harflerin okunması yaygın çalışılan önemli bir problemdi. Basılı harflerin okunması, el yazısı okumaya göre daha kolaydır; çünkü herkesin el yazısı değişik olsa da belli bir harf karakterinde basılmış harfler standarttır ve tanınmaları daha kolaydır. El yazısı tanıma ve yüz bulma gibi daha kompleks problemlerin çözülmesi, 90’larda oldu. Bir sonraki yazımda buradan devam edeceğim.
Lale Akarun
*Bu yazı, HBT Dergi 382. sayıda yayınlanmıştır.