Bilgisayarla görme tarihi – 5

Lale Akarun
Bilgisayarla görme tarihi – 5

Yüz tanıma teknolojileri ve bizim yaptıklarımız

İnsanların niye iki gözü var? Bir gözümüz olsa yeterli olmaz mıydı? İki gözün en az iki faydası var: İkinci göz, birincinin görmediği yerleri de görüyor; böylece görüş alanımız genişliyor. İnsanların yaklaşık 210 derece görüş alanı var. Gözleri kafasının yanında olan tavşanlar gibi kafamızın arkasını göremesek de, iki gözümüzün aynı yöne bakması, ikinci bir fayda sağlıyor: Bu sayede üç boyutlu görebiliyor; cisimlerin uzaklığını algılayabiliyoruz...

Dünya üç boyutlu; oysa kameralar iki boyutlu görüntüler oluşturuyorlar. İki boyutlu görüntülerden üç boyutlu nesneleri tanımak, pek çok zorluğa yol açıyor. Karşıdan çekilmiş bir resimden yüzleri tanımak kolay. Oysa profil resminde görüntü oldukça farklı oluyor. Poz değişikliği, görüntüyü büyük oranda değiştiriyor. Bu nedenle pasaport için, “biyometrik fotoğraf” denilen bir resim çektirmemizi istiyorlar: İki kulağınız da gözükmeli: Böylece pozun tam karşıdan olması sağlanıyor. Dişleriniz gözükmeyecek; ifadesiz bir resim olacak. Bu resmi pasaportunuzun içindeki çipe koyuyorlar; böylece pasaportunuzu kullanan kişinin gerçekten siz olup olmadığı kontrol edilebiliyor.


Maskeli yüzleri tanıdık

2000’li yılların başında, Berk Gökberk ile poz değişikliklerinin yüz tanımaya etkisini ölçen bir çalışma yaptıktan sonra, üç boyutlu yüz tanıma konusunda çalışmaya karar verdik. Bunun için üç boyutlu bir sensöre ihtiyacımız vardı: İnsan beyni, iki gözden gelen stereo görüntüleri birleştirerek üç boyuta ulaşıyordu ama bilgisayarlar aynı işi yapmakta henüz başarılı değildi. Üç boyutlu sensörler yeni ve çok pahalıydı. En hassas üç boyutlu sensörler, nesneye bir lazer ışını gönderip geri yansıma zamanını ölçerek derinliği hesaplıyordu. Bu sensörlerin fiyatları yüzbin doların üstünde ve bizim proje bütçemizin sınırları dışındaydı.

Bir alt segmentte, nesneye ışık gönderip stereo kamera ile bunu algılayan, bu yolla derinlik hesaplayan sensörler vardı. Bunların dezavantajı, nesneye gönderilen ışığın fotoğrafta çıkmaması için, nesnenin hareketsiz durması, ışık söndükten sonra aynı pozda ikinci bir resim çekilmesiydi. Örneğin insan fotoğrafı çekecekseniz, deneğinizin çok hareketsiz olması gerekiyordu. Yeni kurulmuş bir girişimin nesneye kızılötesi, yani normal kamerada görünmeyen ışık gönderen bir üç boyutlu sensörü vardı ve bahsettiğim hareketsiz durma dezavantajından etkilenmiyordu. Bu sensörü bir grup lisansüstü öğrenci geliştirip girişimci firmayı kurmuştu. Bu sensörü almaya niyetlendiysek de satıcılar çalıştıramadılar; biz de almaktan vazgeçtik. Bu başarılı tasarımın çalışır bir ürün haline gelmesi için aradan beş yıl geçecek ve 2010’larda Kinect adıyla üç boyutlu görüntülemede bir devrime yol açacaktı.

Erken buluşlar ilgi dışı

Biz ise görünür ışık kullanan bir sensörde karar kıldık ve çeşitli maceralardan sonra yurtdışı alımını yaptık. 2006 yazında, üç boyutlu yüz veri tabanımızı oluşturmaya hazırdık. O dönemde çözülemeyen problemleri belirledik: Yüz ifadeleri; poz değişiklikleri, el, saç, gözlük gibi yüzü örterek tanımayı zorlaştıran nesneler. Bunları içeren bir üç boyutlu yüz veritabanı topladık: Bosphorus 3B Yüz Veritabanı. Bu veri tabanı üzerinde, üç boyutlu yüz tanımada ifade tanıma, ifade altında yüz tanıma, örtme altında yüz tanıma üzerine Berk Gökberk, Neşe Alyüz, Albert Ali Salah, Hamdi Dibeklioğlu pek çok çalışma yaptı.

Bu çalışmalardan bazıları yapıldığı dönemde çok yenilikçiydi. 2006 yılında çalışır bir 3B yüz tanıma prototipimiz vardı. 2012 yılında maskeli yüzleri tanıyabiliyorduk. O dönem bir sanayi kuruluşu ile bu çalışmalarımızı ürüne dönüştürmeye çok gayret ettik, çünkü çok yenilikçiydi ve dünyada ilkti. Daha sonra tekrar tekrar gözlemleyeceğimiz üzere, zamanından önce yapılmış çalışmaların sanayinin ilgisini çekmediğini gördük. Bu çalışmalar serbest buluş haline geldi, yayınlandı ve çok sayıda atıf aldı; ancak ekonomik değere dönüşmedi.

Lale Akarun

*Bu yazı, HBT Dergi 390. sayıda yayınlanmıştır.

Lale Akarun