I. GİRİŞ

Büyük veri platformlarını anlayabilmek için dijital çağın gerekliliklerini kavramak gerekir. Bu belgede; teknolojik ihtiyaç, kavram, uygulamalar ve büyük verilerin araçları kısaca analiz edilecektir.

II. TANIM

Her gün, 2,5 kentilyon bayt veri yaratırız – bu o kadar büyüktür ki son iki yıldaki veri tüm geçmişteki veri miktarına eşdeğerdir. Bu veriler her yerde bulunur: iklim bilgisi toplamak için kullanılan sensörler, sosyal medya sitelerine mesajlar, dijital resim ve videolar, satın alma işlem kayıtları ve cep telefonu GPS sinyalleri. Buna büyük bir veri, İngilizce adıyla “Big Data” deriz. [1]

Büyük veriler dört “V” ile tanımlanmıştır: Hacim(Volume), Hız(Velocity), Çeşitlilik(Variety) ve Değer(Value). Bunlar, Bilgi Mimarinize Büyük Veriler eklemeniz gerekip gerekmediğini belirlemek için makul bir belirteç haline gelir. [2]

A. Hacim

Verilerin miktarı. Büyük veriler twitter veri yayınları, bir web sayfasındaki tıklamalar, ağ trafiğini, ışık hızında veriyi yakalayan sensör özellikli ekipman gibi bilinmeyen değere sahip ve düşük yoğunluklu verileri yüksek miktarda işleme tabi tutmayı gerektirir. [2]

B. Hız

Verinin alındığı ve belki de işlendiği hız oranıdır.Yüksek hızlı veri normalde diske yazılması yerine doğrudan belleğe akar. [2]

C. Çeşitlilik

Yeni yapılandırılmamış veri türleri. Metin, ses ve video gibi yapılandırılmamış ve yarı yapılandırılmış veri türleri, hem anlam hem de destekleyici meta veriler elde etmek için ek işleme tabi tutulmayı gerektirir. [2]

D. Değer

Teknolojik gelişme, veri saklama ve hesaplama maliyetinin katlanarak azalması, böylece istatistiksel örneklemenin, diğer tekniklerle uygulanabilir hale gelen anlamlandırmaların elde edilebileceği bol miktarda veri sağlamasıdır. Bununla birlikte, değer tespiti, akıllı ve anlayışlı analistler, iş dünyası kullanıcıları ve yöneticileri kapsayan yeni keşif süreçleri gerektirir. Gerçek Büyük Veri ise, doğru soruları sormayı, kalıpları tanımayı, bilinçli varsayımlar yapmayı ve davranış tahmin etmeyi öğrenen bir insandır. [2]

III. BÜYÜK VERİ PLATFORMU İÇİN İHTİYAÇ

Veri hacimleri patlıyor, insan ırkının önceki tüm geçmişinden çok, son iki yılda daha fazla veri yaratıldı. [3] Verilerin yaratılması şaşırtıcı bir hızda büyüyor. Uzmanlar günümüzden 2020'ye kadar yıllık veri üretiminde %4300'lük bir artışa işaret ediyor. Verilerin analogdan dijital teknolojilere geçişi, bireylerin ve şirketlerin veri üretimindeki hızlı artış bu artışı sürüklüyor. [4]

IV. BÜYÜK VERİLERİN YAPISI

Büyük veriler, veri yapısı ve analizlerini geleneksel bilgi mimarilerinden farklı olarak ele alır. Geleneksel bir veri ambarı yaklaşımı, verilerin standartlaştırılmış ETL süreçlerinden geçmesini ve sonunda "önceden yazılmış şema" olarak bilinen önceden tanımlanmış şemalarla eşleşmesini bekler. Geleneksel yaklaşımın eleştirisi, önceden tanımlanmış şemada değişiklik yapmak için uzun süreci gerektirir. Büyük verilerin temyizinin bir yönü, verilerin 'tanımlanmış' bir veri yapısı gerektirmeden yakalanabilmesidir. Aksine, yapı, verinin kendisinden ya da "okumada şema" olarak da bilinen bir başka algoritmik süreç ile türetilir. Bu yaklaşım, HDFS / Hadoop ve Spark gibi yeni düşük maliyetli, bellek içi paralel işleme donanım / yazılım mimarileri tarafından desteklenir. [2]

Buna ek olarak, Büyük Veri, büyük hacimlerinden dolayı "verileri analitik yeteneklerin veriye getirilmesi" ile geleneksel işlemler "veri toplama, çıkarma, dönüştürme ve yükleme yoluyla analitik kabiliyetlere getirme" prensiplerini kullanmaktadır. Verilerin taşınması yüksek maliyetini ortadan kaldırır. [2]

V. KULLANIM ALANLARI

Büyük verinin kullanım alanları son derece geniştir ve hayatın her alanında kullanılabilir. Bazı örnekler aşağıda listelenmiştir:

  1. Müşterileri Anlama ve Hedefleme.
  2. İş Süreçlerini Anlama ve Optimize Etme.
  3. Kişisel Niceleme ve Performans Optimizasyonu.
  4. Sağlık ve Halk Sağlığının İyileştirilmesi.
  5. Spor Performansının İyileştirilmesi.
  6. Bilim ve Araştırmanın İyileştirmesi.
  7. Makine ve Cihaz Performansını İyileştirme.
  8. Güvenlik ve Yasa Uygulama Geliştirilmesi.
  9. Şehirlerin ve Ülkelerin Geliştirilmesi ve Optimize Edilmesi.
  10. Finansal Ticaret. [5]

Açıktır ki, Büyük Veri, analiz etme, anlama ve iyileştirmenin gerekli olduğu yerlerde ve büyük hacimlerde toplanabilen verilere ağırlıklı olarak ihtiyaç duyulmaktadır. Dijital verilerin hızlı bir şekilde artmasıyla, büyük verilerin çok yakın bir gelecekte günlük yaşamımızın bir parçası olacağı anlamına geliyor.

VI. BÜYÜK VERİ ARAÇLARI

Büyük veri uygulamasında kullanılabilecek çeşitli araçlar vardır ve bunları aşağıdaki dört konuda gruplamak mümkündür:

A. Depolama

Büyük veri depolama alanının temel gereksinimleri, çok büyük miktarda veriyi idare edebilmek ve büyümeye ayak uydurmak için ölçeklendirme yapabilmesi ve verilerin analitik araçlara iletilmesi için gerekli olan saniyedeki giriş / çıkış işlemlerini (IOPS) sağlayabilmesidir. [7]

B. Veri Madenciliği

Veri madenciliği, web sayfalarından veritabanlara veri ayıklamak yerine, bir veritabanı içindeki bilgileri bulmak için kullanılan bir işlemdir. Veri keşfinin amacı, elde ettiğiniz verilerle ilgili öngörüler ve kararlar vermektir. [6]

C. Veri Temizleme

Verilerinizle ilgili bilgileri gerçekten incelemeden önce temizlemeniz gerekir. Temiz, iyi yapılandırılmış bir veri kümesi oluşturmak her zaman iyi bir uygulamadır; ancak bazen her zaman mümkün değildir. Veri setleri, özellikle web'den aldığınız zaman, tüm şekil ve boyutlarda olabilir (bazıları iyi, bazıları çok iyi değil!). [6]

D. Analiz

Veri madenciliği, önceden tanımlanmamış desenler ile veriler üzerinde inceleme iken, veri analizi verinin parçalanması ve bu desenlere göre değerlendirilmesidir. Gelecekte neler olacağı hakkında sorularınızı bile sorabilirsiniz! [6]

KAYNAKLAR

Emre Sami Süzer - Operasyonlar Direktörü - Aktif Mühendislik

Paylaş: