Yapay zekanın henüz çözemediği problem

Lale Akarun Y
Yapay zekanın henüz çözemediği problem

Çalışma alanım, yapay zekanın bir alt alanı, bilgisayarla görme. 2014 senesinde, alanımızda bir konferanstan davet aldım: Önümüzdeki 10 yılda bilgisayarla görme ne konularda çalışmalı? Çözülmedik hangi problemler var? Ne alanda çalışmalıyız? Bu konuda bir konuşma yapmak üzere düşünüp, işaret dili tanıma konusunu seçtim.

1980’li yıllarda, yüksek lisans tezimi konuşma tanıma konusunda yapmıştım. O zamanlar bilgisayarların hesaplama kapasiteleri çok kısıtlıydı ve ancak az sayıda kelimeyi tanıyabiliyorlardı. Doktoramı bitirdiğim 1992 senesinde, konuşma tanımada büyük gelişmeler kaydedilmiş ve bu konuda çalışan şirketler ortaya çıkmıştı.

Aradan 30 yıl geçti; konuşma tanıma, doğal dil tanıma, değişik dillerden birbirine tercüme konularında büyük gelişmeler kaydedildi. Artık bilgisayar konuşmamızı tanıyabiliyor; yazıya çevirebiliyor ve cevap da veriyor. Dilden dile çeviri müthiş ilerledi; bilmediğiniz bir dildeki yazıyı, bildiğiniz bir dile çevirebiliyorsunuz. İşaret dili de bir dil; niye daha zor olsun?


Mümkün mü?

İşaret dili, sağır ve dilsizlerin anadili. Görsel bir dil: El şekillerini, hareketlerini, yüz ifadelerini ve üst vücut işmarlarını (jestlerini) kullanıyor. Televizyonda belli programlar, bir çevirmen tarafından işaretleniyor; ekranın altında çevirmenin işaretlerini görüyoruz ancak pek azımız işaret dili anlıyor. Bilgisayarlar da henüz işaret dili anlamıyor; çünkü bu alanda kaynak çok az. Bunun nedenlerinden birisi, işaret dilinin bir dil olarak tanınmasının, oldukça geç, 10- 15 yıl önce gerçekleşmesi. Bunun sonucu olarak, elimizde çok az malzeme var. Çözülmesi gereken problem ise oldukça zor: İnsan vücudu izlenecek; el hareketleri bulunacak, yüz ifadeleri, vücut işmarları tanınacak, bunların işaret ettiği anlamlar bulunacak, sözlü dile çeviri yapılacak.

Dolayısıyla, 2014 yılında, çözülmemiş, üstünde 10 yıl çalışılsa belki çözülebilecek bir problem olarak işaret dilini seçtim; bu konuda bir konuşma yaptım. Konuşma tanıma ile paralellikleri anlattım; problemin ne kadar ilginç, üstünde çalışmaya değer bir problem olduğunu göstermeye çalıştım.

Üstünden sekiz yıl geçti: Geçtiğimiz haftalarda bilgisayarla görme alanındaki büyük konferanslardan birisi yapıldı; içinde özelleşmiş bir oturum, işaret dili tanıma üzerineydi; orada bu alanda çalışanlar, son gelişmeleri anlattı; ben de çalışmalarımızı anlattım. Peki bu sekiz senede problem çözüldü mü?

Öncü çalışmalar

Aradan geçen sekiz yılda, işaret dili tanımada büyük ilerlemeler oldu: Öncelikle, insan vücudu iskeletine ek olarak, el iskeletini de görüntülerde bulup çıkarabiliyoruz. Bu konudaki öncü çalışmalardan birisini Boğaziçi Üniversitesinde doktora öğrencilerim yaptı. İlerleyen yıllarda, iskeleti kullanarak zaman içinde yapılan işaretleri sınıflayabilen değişik yapay sinir ağları geliştirildi. Bunları kullanarak yapılan izole işaretleri tanıyan sistemler geliştirildi. Artık 30 sene önce konuşma tanımada gelinen yere gelmiş gibi görünüyoruz. Ancak daha önümüzde çok yol var ve problem, konuşma tanımadan oldukça daha zor. Daha onlarca yıl bizi meşgul edecek gibi görünüyor.

İşaret dili niye daha zor? Her şeyden önce, işaret dilinin bir alfabesi yok. Konuşulan dillerin alfabeleri var; yazıya dönüştürülen metinler, kütüphaneler dolduruyor. Kütüphanelerdeki kitapların dijital hale dönüştürülmesi, teknoloji ile mümkün hale geldi; tarayıcılarla taranan kitaplar, karakter tanıma yazılımlarıyla sayısallaştırılıyor. Böylece aynı kitabın değişik dillerdeki tercümelerini bulabiliyoruz.

İşaret dillerinde yazılı kaynak oluşturma çabaları olsa da oldukça sınırlı. Eldeki en büyük kaynak, televizyon programlarının işaretlenmiş halleri. Elimizde konuşma, altyazı ve ekranda gördüğümüz işaret dili çevirmeni var. Bu, bize, konuşulan dilden işaret diline çeviri için değerli bir kaynak sağlıyor. BBC ile Oxford Üniversitesinin milyonlarca cümle içeren bir veri tabanı konferansta tanıtıldı. Bu veri tabanını kullanarak, işaret dili tanımaya çalışmak, önümüzdeki 10 yıl boyunca araştırmacıları meşgul edecek gibi görünüyor.

Lale Akarun / akarun@boun.edu.tr

Bu yazı HBT'nin 345. sayısında yayınlanmıştır.

Lale Akarun