Bilgisayarla görme tarihi – 1

31 Ekim 2023

Bilgisayarla görme, yapay zekanın önemli bir alt alanı. Bilgisayarla görme dediğimizde ne kastediyoruz? Bilgisayarların görüntü veya videolardaki nesneleri, ortamları tanımaları, neler olduğunu anlamaları, çıkarımlar yapmaları...

Yani bir insan bu görüntüye bakınca ne anlıyorsa ne çıkarımlar yapıyorsa, benzer işleri yapması. 40 senedir bilgisayarla görme konularıyla ilgileniyorum; 30 senedir de dersini veriyorum. Zaten bu alanın geçmişi de yaklaşık 40-50 yıl. Dolayısıyla, bilgisayarla görmenin tarihini anlatabilecek bir konumdayım.

Araştırmacılar ilk önce bu işi kolay zannetmişler: Bir kameradan gelen görüntüyü bilgisayara aktarsak, sonra onu işleriz, olur biter demişler. 1966 yılında Boston’daki mühendislik okulu MIT’de bir profesör, bunu bir yaz dönemi projesi olarak lisans öğrencilerine vermiş. İşin o kadar kolay olmadığı biraz üstünde çalışınca ortaya çıkmış: Her şeyden önce, görüntüleri oluşturan imgelerin dijitalleştirilmesi gerekli: Görüntüler gri seviyeli ya da renkli piksellerden oluşur. Bir imgede kaç piksel olduğu, imgenin çözünürlüğünü bilirler.

Diyelim ki yatay ve dikey yönde biner piksel olsun. Bu durumda, imge bir milyon pikselden oluşur. Eğer görüntü gri seviyeli ise, her bir piksel sekiz bitten oluşan bir bayt ile gösterilebilir. Renkli resimler ise, kırmızı yeşil ve mavi renkleri gösteren birer bayt ile temsil edilirler. Dolayısıyla, bine bin çözünürlükte renkli bir imge 3 milyon bayt büyüklüğündedir. 1960’ların sonu, 1970’lerin başında, bu büyüklükte bir imgeyi işlemek için nasıl bir bilgisayar lazımdı?

O yıllarda kullanılan bilgisayarlar, bir oda büyüklüğünde, sunucu bilgisayarlardı. Bu bilgisayarların bellekleri, o zamanlar kilobayt, yani bin bayt ile ölçülürdü; mesela 128 bin bayt, 256 bin bayt gibi. Bu belleğe hem programların hem de programların işleyeceği verinin sığması gerekirdi. Dolayısıyla, 1960’larda, bilgisayarla görme için ilk adım olan görüntünün bilgisayarın belleğine yüklenmesi mümkün değildi; ancak küçük bir kısmı sığabilirdi. Düşünün ki, bir görüntüde ne olduğunu anlamaya çalışıyorsunuz ama görüntü bir kapının arkasında, siz ancak anahtar deliğinden bakarak delikten gördüğünüz kadarını yorumlayabiliyorsunuz. Onun gibi bir iş!

1980’lerde başladı

Bu dönemlerde araştırmacılar ne yapıyordu? Nasıl oluyor da imgeleri belleğe bile alamadan analiz etmeyi hedefleyebiliyorlardı? O dönemin yöntemleri, veriyi küçültmeyi hedefleyen basit yöntemlerdi: Veriyi siyah-beyaz hale getirelim; çözünürlüğünü düşürelim, nesnelerin kenarlarını bulalım; özet bilgiler çıkaralım. 1970’lerdeki bu ilk adımlar, bu basit işlemlerden ibaretti.

Dolayısıyla, bilgisayarla görme çalışmalarının 1980’lerde başladığını söylemek yanlış olmaz. Bu dönemde Ballard ve Brown tarafından yazılan ilk bilgisayarla görme ders kitabı çıktı; ben de aldığım ilk bilgisayarla görme dersinde bu kitabı okudum. 1987 yılında, imgeler hala kullandığımız bilgisayarların ana belleğine sığmıyordu; ilk iki satırını yüklüyor, onun üzerinde çalışıyor; sonra bir sonraki satırları bir öncekilerin üzerine yazıyor; onlar üzerinde çalışmaya devam ediyorduk. Ancak temel yöntemler, temel yaklaşımlar yerleşmişti; yapay sinir ağı eğitiyor, sınıflama yapabiliyorduk. Ancak yapay sinir ağlarının düğüm sayısı şimdiki gibi yüzlerce milyon değil, yirmi, otuz tane oluyordu! Yine de bu yirmi-otuz düğümlü ağı eğitmek saatler sürüyordu.

Bu dönemlerde bilgisayarla görme ile ne gibi programlar çözülebiliyordu? Nesnelerin kenarları bulunuyor; nesnelerin yerleri tespit ediliyordu. Bu yolla üretim hatlarında kalite kontrolü ya da otomasyon uygulamaları yapılabiliyordu. Bunun dışında, basılı harflerin okunması yaygın çalışılan önemli bir problemdi. Basılı harflerin okunması, el yazısı okumaya göre daha kolaydır; çünkü herkesin el yazısı değişik olsa da belli bir harf karakterinde basılmış harfler standarttır ve tanınmaları daha kolaydır. El yazısı tanıma ve yüz bulma gibi daha kompleks problemlerin çözülmesi, 90’larda oldu. Bir sonraki yazımda buradan devam edeceğim.

Lale Akarun

*Bu yazı, HBT Dergi 382. sayıda yayınlanmıştır.