2000: Bilgisayar içinde yeni bir yüzyıl
2000 yılı önemli bir tarih. 20. yüzyıl bitti, 21. yüzyıl başladı. Bilgisayarlar açısından da 2000 yılı, yeni bir yüzyılı müjdeliyordu: Artık internet hayatımızda baş köşeye yerleşti, veri iletimi hızlandı.
İlk iPhone 2007’de piyasaya çıksa da 2002’den beri öncü akıllı telefonlar piyasadaydı. Peki, bir telefonu akıllı yapan nedir? Hesaplama üniteleri ve yazılım ile telefon ve iletişim özelliklerini birleştirmesi desek de, kamerası olmayan bir akıllı telefonu düşünemeyiz. Dolayısıyla bilgisayarla görme, akıllı telefonun önemli bir parçası olmuştu.
Bir önceki on yılda, yani 1990’larda, bilgisayarla görmede, yüz bulma, tanıma, basılı ve el yazısı harfleri tanıma gibi problemler çözülmüştü. Basılı harfleri tanıyabiliyorsanız, örneğin tüm basılı kaynakları dijitale çevirebilirsiniz. E-bankacılık, e-devlet, dijital kütüphaneler. Bu teknoloji tüm bunlara kapı açmıştı. Bu dönemlerde mezunumuz Furkan Kıraç, bir plaka tanıma yazılımı geliştirmişti. Yavaş yavaş bilgisayarla görme teknolojisi olgunlaşıyor, ekonomik değer yaratıyordu.
Artık internette multimedya içerik yaygınlaşmıştı; e-ticaret dediğimiz internet üzerinden satış yapma uygulaması, tüm dünyada yaygınlaşıyordu. Arama motorları, hayatımızın vazgeçilmez bir parçası olmuştu. İnternette ayakkabı satın almak mı istiyorsunuz: “Yazlık ayakkabı fiyat” dediğinizde size bu ürünü satan siteleri getiriyordu. Ancak diyelim bir ayakkabı gördünüz, beğendiniz; bana buna benzer bir ayakkabı getir demek mümkün değildi. Bunun için iki görüntü arasındaki benzerliği bulan bir yazılım gerekliydi. Bunu ilk yapanlardan birisi, 1999 mezunumuz Salih Burak Göktürk, 2005’te ABD’de like.com adlı bir girişim kurmuştu. 2010 yılında girişimini Google’a sattı; kendisi de şirkete katıldı.
Nesneleri bilgisayara tanıtmak
Bir görüntüde ne gibi nesneler olduğunu tanımak iki resim arasındaki benzerliği bulmaktan oldukça daha zordur: Her şeyden önce, tüm nesnelerin bir envanteri gerekir: Diyelim ayakkabı. Tek bir tip ayakkabı yok ki; bot var, çizme var, sandalet var, terlik var. Bunların hepsini ayrı ayrı mı tanıyacağız yoksa “ayakkabı” diye kategorisini mi söyleyeceğiz?
Ya da internetin en popüler görüntüsüne, kedilere odaklanalım: Ev kedisi var, sokak kedisi var, vahşi kediler var. Sarmanı var, tekiri var, Van kedisi var. Ayrıca kediler resimlere öyle güzelce poz vermezler; kıvrılıp yatanı var, ağaca çıkanı var, havada uçanı var. Kedi deyip geçecek miyiz, ne yaptığını da mı söyleyeceğiz? Yatan kedi mi diyeceğiz, yoksa iskemlenin üstünde ya da şemsiyenin altında yatan kedi mi diyeceğiz? Bütün bunları bilgisayarlara nasıl tanıtacağız?
Bu dönemde, nesne kategorileri ve bunlara ait imgelerden oluşan pek çok veri tabanı oluşturuldu. Bu veri tabanlarını oluşturmak, ne olduklarını etiketlemek, aralarındaki ilişkileri betimlemek için ontolojiler, semantik betimleyiciler oluşturuldu. Standart veri tabanları üzerinde tanıma yarışmaları düzenlendi; bu yarışmalara hem akademik kuruluşlardan araştırmacılar hem de şirketler girdi. Bilgisayarla görme teknolojisinin gelişmesi için bu organize eforlar çok etkili oldu.
21. yüzyılın ilk on yılının sonlarına doğru, sosyal ağlar hayatımıza girmişti. 2004 yılında kurulan Facebook, içlerinden en yaygınıydı ve kullanıcılar, kendilerinin ve arkadaşlarının resimlerini sayfalarına yükleyip kim olduklarını etiketliyorlardı. Yüz tanıma teknolojisinin gelişip kullanılmasıyla, birkaç yıl sonra Facebook, resimlerde daha önce etiketlenmiş kullanıcıları bulup otomatik olarak etiketlemeye başladı. 2009 yılında bir konferansta Facebook kullanıcılarının sayfalarındaki resimlerinden oluşan veritabanı üzerinde testler yayınlandığında, sosyal ağlarda mahremiyet ihlalleri konusu hayatımıza yeni giriyordu.
Bu dönem, kabaca kimlik tanıma diye tanımlanan biyometri alanında da büyük atılımlar yapıldı. Benim çalışma alanım olduğundan, bu konuyu bir sonraki yazımda ayrıntılı olarak ele alacağım.
Lale Akarun
*Bu yazı, HBT Dergi 388. sayıda yayınlanmıştır.