‘Big Data’ yani ‘Büyük veri’ terimi, geleneksel yöntemler kullanılarak işlenmesi zor veya imkansız olan çok büyük, hızlı veya karmaşık verileri ifade eder. Büyük veri aslında 1960’lar ve 70’lerde büyük veri setlerinin ilk hali veri merkeziyle ve veritabanının gelişmesiyle başlamıştır.

2005’te insanlar Facebook, YouTube ve diğer çevrimiçi hizmetler yoluyla veri üretimini ve miktarını gözlemlediler. Daha sonra da veri depolama kullanma araçları çeşitlenmiştir.

Büyük Veri’nin Yaygın Tanım: 3 V

Analitik için büyük miktarda bilgiye erişme ve saklama eylemi uzun zamandır devam ediyor. Ancak 2000’li yılların başında endüstri analisti Doug Laney, büyük verinin şu anda yaygın olan tanımını üç V olarak ifade ettiğinde büyük veri kavramı ivme kazandı:

Hacim(Volume): Hacim, verinin büyüklüğü ve boyutudur. Kuruluşlar, ticari işlemler, akıllı cihazlar, endüstriyel ekipman, videolar, sosyal medya ve daha fazlası dahil olmak üzere çeşitli kaynaklardan veri toplar. Geçmişte, bunu depolamak bir sorun olurdu; ancak platformlarda daha ucuz depolama, yükü hafifletti.

Hız (Velocity): Nesnelerin internetindeki büyümeyle birlikte, veriler işletmelere benzeri görülmemiş bir hızda akar ve zamanında işlenmelidir. Örneğin; Facebook kullanıcıları günde 900 milyondan fazla fotoğraf yükler .

Çeşitlilik(Variety): Veriler, metin belgeleri, e-postalar, fotoğraflar,kitaplar, sunumlari tweetler, videolar, sesler, hisse senedi verileri ve finansal işlemlere kadar her tür biçimde gelir. Bunların çoğu da yapılandırılmamış ve çok çeşitlidir.

Fotoğraf: pexels

Big Data Neden Önemlidir?

Şirketler daha iyi hizmet vermek, kişiselleştirilmiş stratejiler oluşturmak ve tüm bunlar sonucunda kârlılığını arttırmak için ‘big data‘yı kullanırlar. ‘Big data’yı kullanan şirketler rakiplerine göre avantajlı konumda olurlar. Big data şirketlerin politikalarını; müşterilerin isteklerine göre revize edebilmelerine imkan sağlar. Böylece; şirketin satışları artar ve kaynaklar etkin kullanılır. 90’larda online firmalar ilk defa piyasaya girdiğinde; Amazon, eBay ve Netflix verileri analiz etmek de öncü oldular.

‘Big data’da önemli olan verilerin çok olması değildir, önemli olan onları analiz etmek ve bir işletme değerine çevirebilmektedir. Big data için çalışanların doğru bir şekilde seçilmesi çok önemlidir. Bu insanlar alanında uzman olmalıdır.

Yakında her şey dijital hala gelecek. Sisteme direnmek yerine şirketiniz de dijitale ‘big data’ya uygun hale getirmek gerekiyor. ‘Big data’da bir diğer amaç da zaman tasarrufu sağlamaktır. Bazı uygulamalar bunu sağlar. Big data ile bazı yenilikler yapılarak uzun vadede şirketin geliri artmaktadır.

Veri Bilimcinin 5 Önemli Özelliği

Veri bilimcinin beş önemli özelliği vardır; hacker, bilim insanı, sayısal analist, güvenilir danışman, iş uzmanı. Hacker; kodlama ve program yapabilme becerisinin olması gerekir. Bilim insanı; çabuk öğrenme ve yeni teknolojilere uyum sağlama özelliği olmasıdır. Güvenilir danışman; veri bilimciler güçlü iletişime sahip olmalılar. Çünkü veri işi de olsa insan ilişkileri şirket içinde önemlidir. Sayısal analist; matematiksel ve istatistiki bilgilere hakim olması ve onları teknik bilsi olmayan kişilere kolayca anlatması gerekmektedir. İş uzmanı ise; veri bilimcilerin işin ilerleyişi ile ilgili herşeye hakim olmaları gerekmektedir.

Her şirketin artık big data için bütçe ayırıp uzman kişiler istihdam etmeleri gerekmektedir. Veri toplanma miktarı arttıkça riskli durumlar da ortaya çıkabilmektedir. Eğer bazı veriler de yasa dışı toplanmışşa müşteriler haklarına aramak için mahkemeye başvurabilmektedir.

Günümüzde big data hayatın her yerindedir. Ciddi gözetim altındayız. Örneğin AVM’lere girerken avmdeki markalardan indirim mesajı geliyor. Veya arkadaşımızla WhatsApp’te bir ürün hakkında konuşuyoruz, o ürünün reklamı karşımıza çıkıyor. Yakın zamanda çok daha önemli hale gelecektir. O yüzden ‘big data’yı öğrenmek iş hayatında çok önemlidir. Ancak ‘big data’nın karışıklığı ve gürültüsü de dezavantajı olmaktadır.

Fotoğraf: pexels

‘Big Data’da Yaşanan Sorunlar

‘Big Data’da verilerin doğru olması çok önemli bir konudur. Birçok kaynaktan toplanan belirsiz veriler; veri kalitesinde sorunlara neden olabilir. Yüzlerce kaynaktan big data kümeleri toplayan şirket, yanlış veriler tespit edebilir. Kötü veriler ise yanlış analizlere neden olur ve iş analitiğinin değeri düşer. Analiz ekipleri geçerli sonuçlar için, yeterli doğru veriye sahip olduklarından emin olmalılardır.

İşlem kapasitesi ve maliyet sorunlarının yanı sıra, büyük bir veri mimarisi tasarlamak, kullanıcılar için ciddi bir zorluktur. Büyük veri sistemleri, ekiplerinin ve uygulama geliştiricilerin mevcut tüm teknolojilerden bir dizi aracı bir araya getirmesini gerektirir.

Bu sorunların bulut hizmeti ile çözülebilir. Ancak big data yöneticileri; maliyetlerin aşırı artmaması için her zaman bulut kullanımını kontrol altında tutmalıdırlar. Big data sistemlerindeki verileri veri bilimcileri ve diğer analistler için erişilebilir kılmak, zordur.  Analistlerin ilgili verileri bulmasına yardımcı olmak amacıyla ekipler; veri katologları oluşturmak için ciddi emek vermektedirler.

Big datanın kullanımı arttıkça; verilerin kötüye kullanılması da artış göstermektedir. Özellikle kişisel verilerinin ihlal edilmesini ve yanlış kullanımını tecrübe eden vatandaşlar; veri toplama şeffaflığı ve tüketici verilerinin gizliliği ile ilgili yasalar istemektedirler.

Kişisel Verilerin Korunması

Kişisel mahremiyet ihlalleri konusundaki itirazlar, Avrupa Birliği’nin Mayıs 2018’de yürürlüğe giren Genel Veri Koruma Yönetmeliğini (GDPR) geçmesine neden oldu. Kuruluşların toplayabileceği veri türlerini sınırlar ve bireylerden onay almayı veya kişisel verilerin toplanması ve saklanması için belirtilen diğer yasal gerekçelere uymayı gerektirir. Bu mevzuatın amacı, tüketicilere işletmeler tarafından toplanan kişisel verileri üzerinde daha iyi kontrol sağlamaktır. GDPR ayrıca, AB sakinlerinin şirketlerden verilerini silmelerini istemelerine olanak tanıyan unutulma hakkı hükmünü de içerir.
ABD’de ise; California Tüketici Gizliliği Yasası (CCPA), California’da ikamet edenlere kişisel bilgilerinin şirketler tarafından toplanması ve kullanılması konusunda daha fazla denetim sağlamayı amaçlamaktadır. CCPA; GDPR’ye göre daha kapsamlıdır. CCPA; herhangi bir California’lı tüketicinin, bir şirketin kendilerine kaydettiği tüm bilgilerin yanı sıra verilerin paylaşıldığı tüm üçüncü tarafların tam listesini görmesini talep etmesine olanak tanır. Ek olarak, California yasası, tüketicilerin, ihlal olmasa bile gizlilik kurallarının ihlal edilmesi durumunda şirketlere dava açmasına izin verir. CCPA 2018’de yasa ile imzalandı ve 1 Ocak 2020’de yürürlüğe girdi ancak uygulama 1 Temmuz’da başladı.

Ayrıca, ABD’deki hükümet yetkilileri, özellikle tüketici verilerini toplayan ve bilinmeyen kullanım için başka şirketlere satan şirketler arasında veri işleme uygulamalarını araştırıyor.