Dev veri ve derin öğrenme (1)

3 Şubat 2020

Teknoloji alanındaki ilerlemeler, internet dünyasındaki köklü değişimler ve sosyal medya devrimi gibi gelişmeler iş hayatı ve anlayışına yeni bir boyut kazandırarak, bilginin günümüzde en değerli kaynak haline gelmesini sağlamıştır. İçinde bulunduğumuz dönemde, firmalar arası rekabette fark yaratabilmenin yolu, veriye ulaşmak ve onu etkin olarak kullanabilmekten geçmektedir. Son yıllarda sıklıkla duyduğumuz, “Dev Veri” ya da “Büyük Veri” (Big Data), “Derin Öğrenme” (Deep learning) ile birlikte bilişim dünyası ve endüstride en çok ilgi gören konuların başında geliyor. Dev veri üstel olarak artan, çok büyük boyutlarda olan, alışılagelen yazılım araçları ve teknolojiler ile işlenmesi ve yönetilmesi çok zor hatta imkansız olan sayısal veri olarak tanımlanmaktadır. Diğer deyişle dev veri, verinin sadece “diskte fazla yer kaplaması” tanımından çok verinin işlenmesinde kullanılan geleneksel yöntemlerin etkisiz kaldığı veriyi temsil etmektedir.

Dev veri 5V olarak tanımlanan beş temel özelliğe sahiptir. Bunlardan ilki verinin miktarını temsil eden hacim (Volume) özelliğidir. NSA’ya (National Security Agency) göre internet üzerinde bir günde işlenen veri boyutu 1,826 Petabyte olarak verilmektedir. 2011 yılında sayısal veri miktarı 5 yıllık bir süre dikkate alındığında 9 kat artış göstermiştir. 2020 yılında bu miktarın yaklaşık olarak 40 trilyon gigabyte olması beklenmektedir. Dünyada yaklaşık olarak 7 milyar insanın yaşadığı ve artan cep telefonu kullanımı ile sosyal ağların sürekli genişlemesi gibi faktörler göz önünde bulundurulduğunda veri hacmi artışındaki hızlanma ve süreklilik beklenen bir durumdur. Hız (Velocity) bileşeni, yeni üretilen verinin belirli bir akış hızında ve sürekli olarak gelmesini ifade eder. Verinin gerçek zamanlı olarak yakalanıp işlenmesi önemlidir. Bu özelliğe örnek olarak borsalar verilebilir. Örneğin New York borsası bir seansta Terrabyte (TB) ile ifade edilen ticari veriye erişmektedir. Çeşitlilik (Variety) bileşeni verinin hem yapısal (structured) hem de yapısal olmayan (unstructured) unsurların bileşiminden oluşmasını açıklar. Günlük olarak atılan milyonlarca Tweet ve Facebook’ta paylaşılan farklı yapıdaki milyonlarca içerik bu farklılığı net olarak açıklamaktadır. Gerçeklik ya da doğruluk (Veracity) ise verinin bir diğer bileşenidir. Bu bileşen verinin doğruluğundaki belirsizliği, karmaşıklık ve düzensizliği ortaya koyar. Örneğin sözü edilen milyonlarca tweet, içeriğinde kısaltmalar ve etiketler gibi temizlenmesi gereken bileşenleri barındırmaktadır. Analiz sonuçlarının negatif anlamda etkilenmemesi için verideki kirlilik giderilmelidir. Dev veri yöntemleri bu yapıdaki veri üzerinde çalışmayı olanaklı kılmaktadır. Veri aynı zamanda kullanıldığı alanda bir değer (Value) yaratmalıdır. Özellikle stratejik sayılan devlet kurumlarında, sağlık ya da askerlik gibi alanlarda önemli kararların zamanında ve doğru olarak verilebilmesinde hayati öneme sahiptir.

Bu denli büyük verinin kaynağı nedir ve nerede saklanıyor? Sayısal veri farklı yapı ve boyutlarda olup, çok büyük bir hızda artış göstermektedir. Günümüzde büyük veri çok farklı ortamlardan gelmektedir. Örneğin, radyo frekansı kullanarak nesneleri tekil ve otomatik olarak tanıma yöntemi olan RFID ve sensör teknolojilerinin yaygınlaşması sonucunda, bağlı bulundukları ortamlar veriyi sürekli toplamaktadır. Tüm bu ortamlardan gelen, finansal, medikal ya da trafik verileri birleştiğinde dev veriyi oluşturmaktadır. İnternette gerçekleştirdiğimiz her bir tıklama önemli bir veri iken bu verinin nasıl saklandığı da konunun önemli bir diğer boyutunu oluşturmaktadır. Teknolojinin sürekli gelişmesinin donanım maliyetlerini düşürmesi beklenirken, yaşanan ikilem depolama alanına olan gereksinimin çok daha hızlı şekilde artıyor olmasından kaynaklanmaktadır. Bu durumun sonucunda gerekli donanım maliyetlerinin de yükselmesi beklenen ve kaçınılmaz bir durumdur. Dev veri günümüzde petabyte, exabyte ve zettabyte birimleri ile ifade edilmektedir. Facebook, Twitter ve bazı kurumlar günlük ve hatta saatlik olarak TB büyüklüğündeki verileri saklamaktadır. Uygulanacak saklama çözümü olarak çok pahalı donanımların kullanılması yerine daha basit donanımların maliyeti düşük açık kaynaklı dağıtık dosya sistemlerinin birleşimiyle oluşan dev veri çözümleriyle saklanması tercih edilmektedir.

Dev veri nasıl işlenmektedir? Yüksek hacimli bir arama motoru hizmeti veren herhangi bir firma hergün yapılan milyonlarca arama ve tıklamaya cevap vermektedir. Klasik yöntemler kullanılarak bu, milyonlarca dolarlık donanım üzerinde çalışan çok yüksek maliyetli veritabanı sistemleri gereksinimini ortaya çıkarmaktadır. Böyle bir sisteme sahip olunması durumunda, SQL ile sözcüklerin ilintisini ortaya koymak üzere yapılacak bir sorgu çok mümkün olmayacaktır. Sonuç alınsa bile kullanılan süre büyük olasılıkla cevabın anlamlılığını yitireceği ölçüde uzun olacaktır. Aynı zamanda dev veri ile sözü edilen verinin yapısal olmaması klasik yöntemlerle işlenebilmesi bakımından ayrıca zorluklar ortaya koymaktadır. Tüm bu bulgular dev verinin kendine özgü çözümlerle işlenmesi gerekliliğini ortaya koymaktadır.

Dev veri çözümleri nelerdir? Dev veriyi başarılı olarak kullanabilen projelerden bazıları Apache projeleri olarak ortaya çıkan Lucene, Solr, Hadoop ve HBase gibi projelerdir. Bu alanda en popüler firmalardan biri olan Google, tercihini klasik yöntemleri kullanmak yerine gereksinim duyduğu teknolojiyi geliştirmekten yana kullanarak başarıya ulaşmıştır. Google milyarlarca sayfaya ait veriyi Google File System üzerinde tutuyor, veritabanı olarak Big Table, verinin işlenmesinde ise Map Reduce kullanıyor. Kullanılan teknolojilerin tamamı düşük maliyetli binlerce bilgisayardan oluşan kümeler üzerinde çalışıyor.

Dev verinin kullanıma hazır olması ve sağladığı avantajlar yanında, bu verinin işlenmesi ve yönetilmesi için disiplinler arası çalışmaların yürütülmesi kaçınılmaz olmaktadır. Günümüzde kullanılan Makine Öğrenimi (Machine Learning) yöntemleri ve gelişen teknolojinin sunduğu hızlı işlem gücü dev verinin işlenmesi ve bilgi çıkarımında önemli katkıya sahiptir. Yapay zekanın bir alt alanı olan makine öğrenimi ise bu noktada devreye giriyor. Yazının ikinci bölümünde değineceğimiz makine öğrenimi yaklaşımlarını, bu boyutta bir veri üzerinde anlamlı örüntüleri çıkaran, ham veriyi bilgiye dönüştüren, dolayısıyla farklı alanda çalışan firmaların bu dev boyuttaki veriden öngörüler yapabilmesine, eğilimleri ve olası riskleri anlayıp gelecek plan ve çözümlerini ortaya koyabilmesine olanak sağlayan yazılımlar olarak tanımlayabiliriz.

Yrd. Doç. Dr. Bahar İLGEN

İstanbul Kültür Üniversitesi Mühendislik Fakültesi
Bilgisayar Mühendisliği Öğretim Üyesi

Kaynaklar:

[1] Najafabadi, Maryam M., et al. "Deep learning applications and challenges in big data analytics." Journal of Big Data 2.1 (2015): 1.

[2] Chen, Xue-Wen, and Xiaotong Lin. "Big data deep learning: challenges and perspectives." IEEE Access 2 (2014): 514-525.

[3] http://devveri.com/

Dev veri ve derin öğrenme (2)