Uncategorized

Buyuk-Veri

29 April 2023

Büyük veriden ben yüksek almışım, tavsiye olarak şunu söyleyeyim. Ünitelerden ki şekilleri mutlaka bilin (piramitler , ağaçlar falan) ayrıca ünite sonu sorularına iyi bakın

Buyuk Veri – Ders Kitabi
Ders Ana Sayfasi
Ders Ozeti
Ders Sunumu – PDF
Online Test – CloudAccess
Online Test – Localhost
Online Test – buradayiz.com – profreehost.com
1. BÜYÜK VERİYE GİRİŞ

Ders Anlatimi – Video

Ders Anlatimi – Ses
Unite-1 Sunumu – PDF
Online Test – Unite Sorulari
Giriş

Büyük veri ve bu verinin analizi, dijital çağın en önemli basamaklarının başında gelmektedir. Gelişmiş ülkeler bünyesinde yer alan büyük kuruluşlar çeşitli kaynaklardan gelen verileri toplamakta: Sağlık verileri, finansal veriler, mobil veriler, üretime dayalı veriler, müşteri araştırmaları/davranışları verileri, sosyal medya verileri, vb.
Artan veri miktarının işlenebilmesi için yeni analiz teknikleri ve güçlü bilgisayar kaynaklarına ihtiyaç duyulmaktadır. Bilişim sektöründe güçlü firmaların sunmuş olduğu online kaynaklara anında erişim olanağı sayesinde, akademinin yeni yöntem araştırmaları ile yeni ve güçlü araçlar ortaya çıkarmıştır. Bu büyük güç, analitik araçların destek vermesiyle, geçmişte hayal olarak görülen birçok yeni fırsatı gerçekleştirme olanağı sağlamıştır.
Ancak gelişen yeni teknoloji ve araçlara rağmen büyük veriyi analiz etmenin önündeki en önemli engel verinin içerdiği ve görülemeyen karmaşık örüntüleri analiz edebilmektir. Doğrusunu isterseniz, büyük veriyi işlemek hâlâ karmaşık ve yoğun emek gerektiren bir süreçtir.
1.1. Büyük Veri Kavramı
Pandemi döneminde dijitalleşmenin hız kazanması ile birlikte birçok alandaki araştırmacıların sıklıkla duyduğu kavramların başında büyük veri (big data) gelmektedir. Büyük veri kavramını açıklamadan önce veri kavramını açıklamak gerekir. Türk Dil Kurumu’na göre veri kavramı bir araştırmada, bir tartışmada, bir akıl yürütmede sonuca ulaşabilmek için gereken ilk bilgi olarak tanımlanmasının yanında dijital dünyada, bilişimde olgu, kavram ya da komutların, iletişim, yorum ve işlem için elverişli biçimsel gösterimi olarak ifade edilmektedir.
Verileri anlamak, değerlendirmek, farklı bakış açıları ile analiz edebilmek ve sonuçta beklenen hedefe veya istenilen kararlara erişilebilmesi için, veriler dört grupta sınıflandırılmıştır. [1-2]
Veri parçası (data spot), analizlerde dikkate alınan erişilebilir verinin bir alt kümesi olarak gruplandırılır.
Erişilebilir veri (light data), her an kullanıma hazır ve erişilebilir olan veri grubudur.
Gri veri (gray data), erişemediğimiz ancak nitelikli varsayımlar yapabildiğimiz ve analiz ettiğimiz sistemin bir parçası olan veri gruplarıdır.
Karanlık veri (dark data) ise, nitel veya nicel olup olmadığı anlaşılamayan, bilinmeyen veya gruplandırılamayan veri grubudur. Bu veriler kısaca bilmediğimizin veya bilemediğimizin farkında bile olamadığımız veri gruplarıdır.
Büyük veri ise; dijital ortamlardaki çalışmalardan, araştırmalardan, gözlemlerden, arama motorlarından, forumlardan, sosyal medya hesaplarından ve diğer birçok kurumsal kaynaktan elde edilen verilerin anlamlı ve işlenebilir hale getirilmiş veri biçimine denir. Tanım olarak büyük veri; “farklı ortamlardan hızlı bir şekilde farklı formatlara sahip büyük hacimdeki veriyi üretmek” olarak adlandırılabilir. Yani büyük veri; “verinin analiz edilip sınıflandırılmış, anlamlı ve işlenebilir hale dönüştürülmüş büyük hacimli halidir.”
Yakın zamana kadar veriler, elektronik tablolar veya veri tabanları ile sınırlıydı ve hepsi çok düzenliydi. Ancak pandeminin de hız kattığı dijital çağın muazzam bir şekilde ilerleyişiyle birlikte artık veri kavramı çok karmaşık bir yapıyı dönüşmesinin yanı sıra farklı formatlarda (fotoğraf, video, ses kaydı, yazılı metin ve sensör verileri) ve büyük hacimlerde (terabyte, petabyte, ekzabyte, zetabyte) oluşmasından kaynaklı olarak da analiz ve işlenmesinde ihtiyaç duyulan ekonomik yatırımlardan ötürü uzun süre sadece depolanmıştır. Fakat teknolojiyi yakından takip eden işletmeler tüm bu karmaşıklığın çözülmesi için kendi yapıları altında büyük veriye yatırım yapmak durumunda kalmışlardır.
Büyük veriye sahip kuruluşlar için bu kaynak eşsiz fırsatlar sunarken beraberinde de bu büyük hacmi yönetebilmek için çeşitli sorunları da çözmeye itmektedir. Bu sorunların başında büyük verinin saklanması, işlenmesi ve anlamlı bilgilere erişim için gerekli araçlara sahip olunması gelmektedir. Klasik işleme araçlarının yetersiz kalmasının yanında, donanım kaynaklarının da geliştirilmesi ihtiyacı oluşmaktadır. Dolayısıyla bu alanda istihdam edilecek uzman personel ihtiyacı ve yeni bir yatırım maliyeti de gerektirmektedir. Bu gerekçelerden ötürü kuruluşlar verinin bir kısmından çeşitli örneklemler alarak ve klasik makine öğrenmesi yöntemleri ile analiz etme yoluna gitmektedir. Fakat burada tüm örneklem uzayını temsil edecek gerçek değerleri bulunmamaktadır. Bu problemin çözümü için gelişmiş analiz uygulamalarına ve büyük kuruluşlara yatırım yaparak; gerçek veri analizini tümüyle daha hızlı, daha doğru ve daha kapsayıcı olarak yapılabilmektedir.
Şekil 1.’de görüldüğü üzere farklı ortamlardan gelen çok çeşitli bilgilerin toplandığı büyük veri ambarının analizi, kuruluşların doğru kararlar almalarına ve stratejiler geliştirmelerine önemli katkılar sağlar. Her alanda kendine yer bulan büyük verinin kullanım alanlarını sınırlamak da çok mümkün gözükmüyor.

Şekil 1.1. Büyük verinin yoğun bir şekilde elde edildiği alanlar
Kamu ve özel sektörde yer alan kurum ve kuruluşların elektronik ortamlarda kayıt altına aldığı verileri:
Elektronik ortamdaki davranışları (tıklama alışkanlıkları vb. yapılan tüm işlemler),
Gönderilen elektronik postalar,
Networkteki veri trafiği,
Haberleşme içerikleri (e-postalar, metinler, belgeler, videolar, sesler, resimler),
Sistem günlükleri,
Arama sorguları, sosyal ağ etkileşimleri,
Sağlık kayıtları,
Bilimsel araştırma verileri,
Devlet ve özel sektöre ait kayıtları (abone ve vatandaşlık bilgileri, üretim ve pazarlama bilgileri vb.)
Kurumların abonelerine sağlamış olduğu akıllı şebeke verileri
her boyutuyla analiz etmek, bu verilerden anlamlı ve katma değerli örüntüleri çıkarmak büyük önem arz etmektedir.
Yukarıda bahsi geçen veri ortamlarından 3 farklı yapıda veri elde edilmektedir:
1. Yapısal veri: Yapısal veri, analiz işlemlerinde modellenmesi, girdi olarak alınması, saklanması, sorgulanması, işlenmesi ve görselleştirilmesi kolay olan tüm veri türlerini ifade etmektedir. Genel olarak, belirli tür ve boyutlarda önceden tanımlı alanlarda sunulmakta, ilişkisel veri tabanlarında veya tablolarda yönetilebilmektedir. Katı bir yapıya sahip olan bu veri türünde, süreçlerin yüksek performanslı yetenekler veya paralel teknikler gerektirmemesinden dolayı faydalı bilgilerin elde edilmesi diğer veri türlerine kıyasla daha kolaydır.
2. Yarı yapısal veri: Yarı yapısal veya kendi kendini açıklayan (self-describing) veri, yapısal bir veri türünü yansıtmakla birlikte özünde sadece katı bir modeli barındırmamaktadır. Diğer bir ifadeyle yarı yapısal veri, yapısallığın tanımlandığı modellerin yanı sıra belirli ögeleri ve verideki farklı alanların hiyerarşik bir gösterimini tanımlamak adına kullanılan etiketler ve işaretler gibi çeşitli meta modelleri de bulundurmaktadır. Yarı yapısal verinin en çok bilinen örnekleri arasında XML (Extensible Markup Language) ve JSON (JavaScript Object Notation) programlama dilleri yer almaktadır.
3. Yapısal olmayan veri: Yapısal olmayan veri, tanımlı bir format haricinde sunulan ve depolanan kayıt türleridir. Genellikle kitaplar, makaleler, belgeler, e-postalar gibi serbest formatlardaki metinlerden ve resim, ses, video gibi medya dosyalarından oluşmaktadır. Bu türdeki verinin katı bir şekilde sunulmasının zor olması, veri işleme süreçlerinde NoSQL (Not only SQL) gibi yeni mekanizmaların ortaya çıkmasına neden olmuştur [1].
Bununla birlikte mobil teknolojilerinin yaygınlaşması ve Android cihazların her alanda kullanılmasının da katkısıyla bu veriler çok yoğun bir trafik sağlamakta ve GSM ürün geliştiricileri için yapısal olmayan bir büyük veri ortamı oluşturmaktadır (Şekil 1.2).

Şekil 1.2. Mobil teknolojilerin kullanım alanları.
1.2. Büyük Veri Nerelerde Kullanılır
Günümüzde büyük verinin pek çok farklı alanda kullanımı mevcuttur. Ayrıca yeni kullanım alanları da her geçen gün oluşmaktadır. Büyük verinin en çok kullanıldığı alanlardan bazıları aşağıda kısaca özetlenmiştir.
Müşteri Davranışları: Büyük verinin bugün en çok bilinen kullanım alanlarının başında müşteri davranışları gelmektedir. Firmalar web sitelerini ve sosyal medya hesaplarını topladıkları veriler sayesinde analiz ederek müşteri eğilimlerini belirleyerek ve bu eğilimlere göre yeni stratejiler geliştirmektedir. Yani firmalar uygun müşteri kitlelerine ulaşmak için müşteri davranışlarını incelerler. Diğer bir deyişle, büyük veri müşteri davranışlarını daha doğru tahmin etmeye yardım eder.
Örneğin, ABD merkezli perakende zinciri Target, müşterilerinin alışveriş ve arama sonuçlarını dikkate alarak müşterilerin hamile olup olmadığını öğrenebiliyor ve buna uygun ürünleri reklam alanlarında göstererek hedef kitleye ulaşmayı amaçlıyor. Benzer şekilde, araç sigorta şirketleri müşterilerinin ne derecede iyi bir sürücü olduğunu, telekomünikasyon şirketleri müşterilerinin telefon kullanım alışkanlıklarını büyük veri analizi sayesinde daha iyi biliyor ve müşterilerine farklı yaklaşımlarla ulaşmayı hedefliyorlar.
Lojistik ve İnsan Kaynakları: Büyük veri iş dünyasında da sıkça kullanılmaya başlamıştır. Perakende şirketleri; sosyal medya verileri, arama motoru verileri ve hava tahmini raporlarına göre stoklarındaki malların niteliğini ve niceliğini optimize etmektedirler. Yani bir ürüne ilgi bir anda patladıysa, insanlar Google’da “deli gibi” o ürünü arıyorlarsa perakende şirketi envanterinde bulunan o ürünün miktarını artırma yoluna büyük veri analizi sayesinde gitmektedir.
Tedarik zinciri ve ürün teslim rotasının optimize edilmesi de yine büyük veri analizi sonucunda gerçekleşmektedir. Mevcut trafik durumuna göre coğrafik konum ve GPS sensörleriyle teslimat araçlarının en kısa mesafeden hedefe ulaşmaları büyük veri analizi sayesinde olmaktadır.
İnsan kaynakları alanında büyük veriyi kullanan firmaların başında gelen Sociometric Solutions şirketinin yaptığı büyük veri uygulamasında süreç şöyle işliyor: Şirkette çalışan personelin yakasına bir sensör yerleştirilerek bu sensör sayesinde çalışanın gün içinde kaç kişiyle konuştuğunu, ne kadar yürüdüğünü, molada ne kadar zaman geçirdiğini, günde kaç telefon görüşmesi yaptığını ve hatta konuşmalardaki ses tonunu dahi kaydetmektedir. Bu sayede o çalışanın performansı ve psikolojisi hakkında bilgi toplanarak analiz edilmektedir. En uygun çalışan profilini elde etmeye çalışıyor.
Ölçüm ve Performans Analizi: Büyük veri sadece şirketler ve devlet kurumları için değil; bireysel analizler için de kullanılabilir. Giyilebilir akıllı cihazlardan toplanan veriler, insan sağlığı ile ilgili bilimsel araştırmalarda kullanılmaktadır. Bireylerin harcadığı kalori miktarı, günlük yürüme mesafesi, uyku düzeni gibi bilgiler milyonlarca kişiden toplandığı zaman bu konularda olumlu araştırmalar ve buna bağlı çözüm önerileri ortaya çıkmaktadır.
Jawbone adlı şirketin Up adlı akıllı bilekliği her gece 60 yıllık uyku verisi toplamakta ve bu kadar veriden elde edilen analizler kullanıcılara feedback olarak geri dönmektedir. Uyku, metabolizmanın bir yansımasıdır.
Sağlık: Modern bilgisayarların gelişmiş donanım kaynakları üzerinde analiz edilen büyük veri sayesinde tüm DNA sarmallarını dakikalar için deşifre etmek mümkün hale gelmiştir. Elde edilen bilgiler neticesinde hastalıklara yeni tedavi yöntemleri bulmayı ve hastalıkların nasıl bir seyir izleyeceğini anlamada kolaylık sağlamaktadır. Akıllı saatler ve giyilebilir cihazlardan toplanan milyonlarca veriden elde edilecek büyük veri düşünüldüğünde de elde edilen tıbbi numuneler sayılı insanlardan değil, milyonlarca insandan tedarik edilmekte ve topluma genellenebilir çıktılar elde edilmektedir.
Apple’ın yeni sağlık uygulaması ResearchKit, cep telefonunu biyomedikal bir araştırma cihazına dönüştürmüştür. Bilim insanları bu uygulama sayesinde topladıkları veriler aracılığı ile yeni çalışmalar yürütebilmektedir. Buna benzer uygulamaların yaygınlaşmasıyla sürecin daha kolay ve daha hızlı işlemesi; daha doğru sonuçların ortaya çıkmasına imkan sağlamaktadır.
Sporcu Performansı: Pek çok spor dalında büyük veri analizinden yararlanılmaktadır. Örneğin, IBM’in SlamTracker uygulaması, tenis turnuvalarında kullanılmakta ve oyuncuların hareketleri video bazlı analiz edilerek oyunu geliştirmek için antrenörlere bir rapor olarak sunulmaktadır. Benzer şekilde; golf topu ve sopası, basketbol topu gibi farklı spor ekipmanlarına takılan sensörler de oyunculara ve antrenörlere kullanabilecekleri veriler sunmaktadır. Ayrıca atletlere ve sporculara takılan çipler sayesinde spor etkinliği dışında da sporcular takip edilebilmekte; uyku ve beslenme alışkanlıkları izlenebilmektedir. Sporcuların sosyal medya paylaşımları analiz edilerek psikolojik durumları tahlil edilebilmektedir.
Amerikan Futbolu Ligi NFL’de de takımlara karar verme aşamalarında destek sağlayan uygulamalar kullanılmaktadır. Çim durumu, hava durumu, oyuncuların dönemlik performansları gibi veriler elde edilmekte, böylece her takımın en iyi performansı sergilemesi olanağının yanında sakatlıkların önüne de geçilmektedir.
Araştırma-Geliştirme (AR-GE): Bilim, teknoloji, araştırma-geliştirme alanları büyük verinin sağladığı imkanlardan yararlanan disiplinler arasında yer almaktadır. CERN’deki büyük hadron çarpıştırıcısı, evrenin sırlarını çözmeyi amaçlamakta ve aynı zamanda akıl almaz boyutlarda veri üretmektedir.
CERN veri merkezinde 65.000 işlemci, 30 petabayt veriyi işlemek için 150 farklı veri merkezindeki bilgisayarlardan yararlanmaktadır. Bu kadar devasa bir bilgisayar gücü bilimsel araştırmalarda çağ atlatabilecek düzeyde donanım kaynağı sağlamaktadır.
Makine ve Cihaz Performans Optimizasyonu: Büyük veri analizi makine ve cihazların daha akıllı ve daha otonom olmasına önemli katkılar sağlamaktadır. Örneğin, Toyota Prius içine entegre edilen kameralar, GPS araçları ve sensörler sayesinde insan müdahalesi olmadan yol alabilmektedir. Ayrıca büyük veri araçları sayesinde Google şirketi de kendi kendini sürebilen otomobil üretmeyi hedeflemektedir.
Xcel Energy, ABD’nin Colorado eyaletinde “akıllı şebeke” denemelerine başlamış durumdadır. Buna göre evlere yerleştirilen sensörler sayesinde insanlar internet üzerinden günlük enerji, su, gaz kullanımlarını gerçek zamanlı görebilmektedir. Buradan toplanan veriler de şirketlerin ve belediyelerin altyapı gereksinimleriyle ilgili sağlam öngörülerde bulunmasına yardımcı olmaktadır.
Akıllı Şehircilik ve Belediyecilik: Büyük veri, şehir ve ülke altyapısı için kullanılmaktadır. Örneğin, sosyal medya ve hava durumu bilgileriyle, trafik ışıklarının sürelerini ayarlamak ve trafiğin akışını optimize etmek mümkün hale gelmiştir. Altyapı ve hizmetler arasında da büyük veri analizi aracılığıyla ilişki kurmak mümkün olmuştur. Geciken trenden bilgi alan otobüsün yolcuları beklemesi buna örnek olarak verilebilir.
Kaliforniya’nın Long Beach kenti de sulama şebekesini akıllı sayaçlarla izleyerek illegal sulamaların önüne geçilmiş olup bu yolla yılda %80’e varan su tasarrufu sağlanmıştır.
Finans: Finans sektöründe büyük veri, özellikle yüksek frekanslı alım satım alanında sıkça kullanılmaktadır. Büyük veri algoritmaları alım-satım kararını vermede etkili bir şekilde kullanılmaktadır. Hisse senedi alım satımları da sosyal medyadan ve haber sitelerinden toplanan verilerden istifade edilerek saniyeler içinde gerçekleştirilebilmektedir.
Karmaşık algoritmalarıyla piyasaları tarayarak yatırım, alım-satım fırsatları aramak için kullanılan bilgisayarlar insan müdahalesi olmadan müşterinin ihtiyaç ve isteklerine göre programlanabilmektedir.
1.3. Büyük Veri Bileşenleri
Büyük veri platformunun oluşumunda beş ana bileşen vardır. Bunlar; Şekil 1.3’te verildiği üzere variety, velocity, volume, verification ve value ‘dir. Genel olarak 5v diye açıklandığı için İngilizce karşılıklarına yer verilmiştir [3].

Şekil 1.3. Büyük veride 5V bileşenleri.
Variety (Çeşitlilik): Üretilen verinin yüzde 80’i yapısal değildir ve her yeni üretilen teknoloji, farklı formatlarda veri üretebilmektedir. Telefonlardan, tabletlerden, bütünleşik devrelerden gelen türlü çeşitlilikte veri tipleri ile uğraşılması gerekmektedir. Bir de bu verilerin farklı dillerde, non-Unicode olabileceğini düşünürseniz, bütünleşik olmaları, birbirlerine dönüşmeleri de gereklidir.
Velocity (Hız): Büyük verinin üretilme hızı çok yüksektir ve gittikçe artmaktadır. Daha hızlı üreyen veri, o veriye muhtaç olan işlem sayısının ve çeşitliliğinin de aynı hızda artması sonucunu doğurmaktadır.
Volume (Veri Büyüklüğü): International Data Corporation (IDC) istatistiklerine göre 2020’de ulaşılacak veri miktarı, 2009’un 44 katı olacak. Kurumların veri arşivleme, işleme, bütünleştirme, saklama vb. teknolojilerinin bu büyüklükte veri hacmi ile nasıl başa çıkacağının kurgulanması gerekmektedir. 2010’lu yıllarda dünyadaki toplam bilişim harcamaları yılda %5 artarken üretilen veri miktarı sadece %40 artmaktaydı.
Verification (Doğrulama): Bilgi yoğunluğu içinde verinin akışı sırasında “güvenli” olması da bir diğer bileşendir. Akış sırasında, verinin doğru akması ve istenilen güvenlik seviyesinde izlenmesi, doğru kişiler tarafından görünmesi veya gizli kalması gerekebilir.
Value (Değer): En önemli bileşen ise değer yaratmasıdır. Belirtilen eforlarla tarif edilen büyük verinin, veri üretim ve işleme katmanlarından sonra kurum için bir artı değer yaratması gerekmektedir. Karar veriş süreçlerinize anlık olarak etki edebilmesi, doğru kararın verilebilmesi için kolay erişilebilir olması gerekmektedir. Örneğin; sağlık konusunda stratejik kararlar alan bir devlet kurumu anlık olarak bölge, il, ilçe vb. detaylarda hastalık, ilaç, doktor dağılımlarını görebilmelidir. Hava Kuvvetleri, bütün uçucu envanterindeki taşıtlarının anlık yerlerini ve durumlarını görebilmeli, geriye dönük bakım tarihlerini izleyebilmelidir [4].
1.4. Büyük Veride Kaygılar
Büyük verinin getirdiği eşsiz fırsatlara paralel olarak aynı zamanda gerekli soruları da sormayı zorunlu kılmaktadır:
Veri Güvenliği: Verilerin dijital ortamda tutulmasından kaynaklı ve içerisinde barındırdığı değerli bilgilerin dışarıdaki art niyetli kişilerce ele geçirilmesi hususunda gerekli önemlerin alınması gerekmektedir.
Veri Gizliliği: Oluşturulan büyük veri, bireylerin özel birçok önemli bilgisini içermektedir. Giderek açığa çıkarılan kişisel veri miktarı ile büyük veri tarafından desteklenen uygulamaların ve hizmetlerin sunduğu imkanlar arasında bir denge kurulması gerekmektedir. Ayrıca veriyi toplayan kurum tarafından da verilerin gizliliğinin sağlanması kötü amaçlı kullanılmaması önem arz etmektedir.
Veri Ayrımcılığı: Bireylerin yaşantılarında sahip oldukları mahrem verilere dayanarak insanlara karşı ayrımcılık yapma olasılıklarının ortadan kaldırılması gerekmektedir.
Örneğin, kişilerin banka kredisi alabilmelerine karar vermek için kullanılan kredi puanlama ve sigorta işlemleri yoğun bir şekilde mahrem veriye dayanmaktadır.
Daha ayrıntılı analiz ve değerlendirme daha az kaynak veri ve bilgiye erişim ile sağlanabilmelidir. Bu işlemlerin neticesinde bireylerin hayatlarını zor hale getirecek çıktılardan kaçınılması ayrımcılık altında dikkat edilmesi gereken bir husustur [5].
Bu zorlukların üstesinden gelmek, büyük verinin önemli bir sorunudur. Veriden yararlanmak isteyen kuruluşlar tarafından ele alındığı gibi yasalarla da denetlenmelidir. Bunu yapmamak, işletmeleri sadece itibarı açısından değil, yasal ve mali açıdan da savunmasız bırakabilir.
Bölüm Özeti
Büyük veri kavramından önce veri kavramını anlamanın önemini ve verinin türlerini bilmek gerekmektedir. Büyük veri; verinin analiz edilip sınıflandırılmış, anlamlı ve işlenebilir hale dönüştürülmüş büyük hacimli halidir. Dijitalleşen dünyanın elektronik kayıtlarının artması ve çok çeşitli formatlarda veri elde edilmesinden kaynaklı olarak verinin hem toplanması hem de saklanması için yatırıma ihtiyaç duyulmaktadır. Bu nedenle, küçük işletmelerden ziyade büyük firmaların odak noktası haline gelmiştir. Bu büyük firmalar çok çeşitli sektörlerde bulunmakla birlikte temel odak noktaları toplanan büyük veriler ile müşterilerine daha akılcı çözümler ve ürünlerle ulaşmaktır. Bu sayede hizmet kalitelerini yükselterek ekonomik girdilerini arttırmaktadırlar.
Büyük veri platformunun oluşumunda beş ana bileşen bulunmakla birlikte bunlar 5V (variety, velocity, volume, verification ve value) olarak isimlendirilmektedir. Büyük verinin bu 5 bileşenine sahip kuruluşlar avantajlarının yanı sıra bazı sorunları ve kaygıları da minimize etmek durumunda kalmaktadırlar. Bunlar; veri güvenliği, veri gizliliği ve veri ayrımcılığıdır. Bu zorlukların üstesinden gelmek, büyük verinin önemli bir zorunluluğudur. Bu zorunlulukları yerine getirmeyen işletmeler sadece itibar açısından değil, yasal ve mali açıdan da olası zararlara karşı savunmasız kalabilir.
Kaynakça
[1] Sağıroğlu, Ş. (2017). Büyük Veri Dünyası: Büyük Veri Büyük Etki. (Ed.), SAĞIROĞLU, Ş ve KOÇ, O., Büyük Veri ve Açık Veri Analitiği: Yöntemler ve Uygulamalar içinde (81-97), Grafiker Yayınları, Ankara.
[2] Lugmayr, A., Lugmayr, A., Stockleben, B., Stockleben, B., Scheib, C., Scheib, C., … & Mailaparampil, M. A. (2017). Cognitive big data: survey and review on big data research and its implications. What is really “new” in big data?. Journal of Knowledge Management, 21(1), 197-212.
[3] Özgür, Ç. A. R. K., YILDIZ, İ., & KARADENİZ, A. T. (2019). Sanayi 4.0 Kapsamında İşletmeler Açısından Büyük Veri. International Journal of Multidisciplinary Studies and Innovative Technologies, 3(2), 114-120.
[4] Wikipedia Official Website. (Son Erişim: 20.01.2022)
URL: https://tr.wikipedia.org/wiki/Büyük_veri
[5] Yeni İş Fikirleri Web Sitesi (Son Erişim: 20.01.2022)
URL:https://www.yeniisfikirleri.net/buyuk-veri-big-data-nerelerde-ve-nasil-kullaniliyor/

2. BÜYÜK VERİNİN TARİHSEL GELİŞİMİ

Ders Anlatimi – Video

Ders Anlatimi – Ses
Unite-2 Sunumu – PDF
Online Test – Unite Sorulari
Giriş

Büyük veri ilk olarak veri kavramından doğmuştur. Gelişiminde; kapsamlı veri, büyük veri ve son olarak SMART veri olarak isimlendirilmiş olup veriden istatistiksel olarak anlamlı sonuçlar çıkarmayla gelişimine başlamıştır.
Büyük veri kümeleri, ilk olarak 1600’lü yıllarda veriden istatistik yöntemler ile anlamlı sonuçlar çıkarmaya dayanmaktadır. 1960-1970’li yıllarda ortaya çıkan bilgisayarlar ile ilk veri merkezleri ve veri tabanlarının geliştirilmesiyle birlikte veri dünyası günümüzde bilinen halini almaya başlamıştır.
Büyük verinin bir sonraki adımı sınıf bilişim ifadesidir.
2.1. Büyük Verinin Tarihi
Büyük veri kavramı nispeten yeni olsa da büyük veri kümelerinin kökenleri, ilk olarak 1600’lü yıllarda veriden istatistik yöntemler ile anlamlı sonuçlar çıkarmaya dayanmaktadır. 1960-1970’li yıllarda ortaya çıkan bilgisayarlar ile ilk veri merkezleri ve veri tabanlarının geliştirilmesiyle birlikte veri dünyası günümüzde bilinen halini almaya başlamıştır.
IBM’in 1956 yılında üretmiş olduğu bilgisayarın sadece 5 MB hard diski bulunuyordu ve bu hard disk Şekil 2.1.’de görüldüğü üzere forklift yardımıyla taşınabiliyordu. Bugün ise 5 TB hard diski cebe sığacak küçüklükte bulunmakla birlikte cep telefonlarının ve kişisel bilgisayarların internete bağlanması ile sınırsız denebilecek büyük veriye erişim imkanı doğmuştur.

Şekil 2.1. IMB’in 5MB kapasiteli bilgisayarı.
1960’lı yıllarda insanlık ilk kez kendi dünyasının dışına çıkmış aya ayak basmıştır. O gün aya yollanmış olan Apollo uzay mekiğinin bilgisayarı tam 32 kiloydu ve bu bilgisayar sadece 1 mhz işlemciye 2 kb hafızaya sahipti. Bugün boş bir word dosyasına isminizi soy ismini yazıp kaydettiğinizde 10 kb’tan fazla yer kaplamaktadır. Bunun en önemli nedenlerinin başında depolama alanlarımızın büyümesi ve bilgisayar kaynaklarının gelişmesi gelmektedir. Buna paralel olarak toplanan veri miktarı artmış ve farklı kavramlar olarak karşımıza çıkmıştır. Şekil 2.2’de görüldüğü gibi büyük veri gelişim yolculuğunda farklı kavramlarla isimlendirilmiştir.

Şekil 2.2. Büyük verinin gelişimi.
SMART veri (self-monitoring, analysis and reporting technology / kendini izleme, analiz ve raporlama teknolojisi) ile büyük veriyi analiz etmek ve raporlayabilmek büyük verinin tarihsel gelişiminde önemli bir dönüm noktası olmuştur.
Verinin ilk olarak duran veri formunda elde edilmesi ile başlayıp sırasıyla bağlı veriler, zaman serileri ve akışkan verileri olarak Şekil 2.3’de görülen farklı veri türleri olarak tarihsel gelişiminde karşımıza çıkmaktadır.

Şekil 2.3. Büyük verinin türleri.
Başta Facebook, YouTube gibi sosyal medya platformları ve diğer çevrimiçi hizmetler yoluyla kullanıcıların ürettiği veriler gözlemlenmeye ve anlaşılmaya başlandı. Aynı zamanda büyük veri kümelerini depolamak ve analiz etmek için oluşturulan açık kaynaklı bir sistem olan Hadoop uygulaması geliştirildi. Buna paralel olarak da bir veri tabanı uygulaması olan NoSQL de popülerlik kazanmaya başladı. Hadoop vb. açık kaynaklı sistemlerin geliştirilmesi sayesinde büyük verilerin gelişimi ve bu veri üzerinde daha ucuz ve daha hızlı geliştirilen sistemler, büyük verilerin koordineli şekilde çalışmasını ve depolanmasını mümkün hale getirmiştir. Tarihsel gelişiminde üstel olarak artan veri miktarını işleyecek bilgisayar kaynakları da bunu gelişimi tetiklemiştir. Kullanıcılar hala çok büyük miktarlarda veri oluşturmaya devam ediyor ancak veri oluşturma işlemini yalnızca insanların yaptığını düşünmek bizleri büyük bir yanılgıya düşürebilir.
İnternet altyapısının gelişmesi ve 5G teknolojilerinin ortaya çıkması ile Nesnelerin İnterneti (IoT) kavramı doğmuştur. Nesnelerin İnterneti (IoT) ile müşteri kullanım şekilleri ve ürün performansı hakkında veri toplanması yoluyla internete daha fazla nesne ve cihaz bağlanır duruma gelmiştir. Bunun yanında yapay zeka kavramının temelinde yer alan örneklerden öğrenme işlemi için gerekli verilerin ortamlardan sürekli toplanması ile kaliteli veri hacmi artmıştır.
Bulut bilişim teknolojilerinin artması, uygun depolama ortamlarının büyük firmalar tarafından tesisi ile birçok kurum ve kuruluşun büyük verilerini bu ortamlara taşımalarına olanak sağlayarak hacimde artışa neden olmuşlardır. Bulut bilişim ortamı, geliştiricilerin bir veri kümesini test etmek için geçici kümeleri kolayca işleme sokabilecekleri oldukça esnek ölçeklenebilirlik sunan bir platform olarak karşımıza çıkmaktadır.
Büyük veri, son yıllarda iş dünyasında devrim yaratan teknolojilerin başında gelmektedir. Büyük veriyi; şirketlerin makine öğrenimi, tahmine dayalı modelleme ve diğer gelişmiş veri analitiği uygulamaları aracılığıyla iş maksatlı kullanabilecekleri bilgi koleksiyonu olarak görmeleri bu konuya ilgiyi arttırmıştır. Şekil 2.4’te görüldüğü üzere toplanan veriden anlamlı sonuçlar çıkarıldıkça şirketler bu sonuçlar üzerine önemli stratejiler geliştirmiş, kurumları için ekonomik girdilere ve karar alma süreçlerine yansıtmaya başlamıştır. Bu süreçleri gören diğer kurum/kuruluşlar da bunun üzerine yönelmişlerdir. Dolayısıyla enformasyon oranları artarak içerik zenginleşmiş, veriyi anlama ve veriden anlamlı bilgi çıkarımı artmıştır.

Şekil 2.4. Bilgi piramidi [1,2]
2.1. Büyük Verinin Gelişiminde Önemli Tarihler
Bugün bildiğimiz anlamda gelişmiş büyük veri analitiğine yol açan veri analizinin tarihi 17. yüzyıl Londra’sına kadar uzanıyor. Şimdi kronolojik sırayla büyük verinin tarihine yakından bakalım:
a. Veri kavramının doğuşu [3]:
1663: İngiltere’de meydana gelen kara ölüm olarak da bilinen hıyarcıklı veba salgını ile ilgili Londralı bilim insanı John Graunt’in sunduğu istatistiksel veri analizi, büyük veri için milat olarak kabul edilir. Yaptığı çalışma ile ölüm nedenlerini sistematik olarak ölçmeye çalışan Graunt, ölüm oranlarını ve bunların varyasyonlarını kaydettiği ilk halk sağlığı kayıtları koleksiyonunu 1663’te yayınladı.
1865: Yazar Richard Millar Devens “Cyclopædia of Commercial and Business Anecdotes” adlı kitabında “Business Intelligence” yani “İş Zekası” terimini ilk kez kullanır. Devens kitabında bir bankacının kar elde etmek için çevresinden gelen bilgileri nasıl kullandığını anlatmıştır. Bugün bildiğimiz anlamıyla, verileri analiz etme ve ardından eyleme dönüştürülebilir bilgiler sunmak için kullanma süreci olan iş zekasının 1960-85 yılları arasında gelişen karar destek sistemlerinden (DSS: Decision Support Systems) geliştirildiği söylenebilir.
1884: Dr. Herman Hollerith, veri işlemenin başlangıcı olarak kabul gören delikli kartı kullanarak istatistik verilerinin daha hızlı bir biçimde değerlendirilmesini mümkün kılan makine ve sistemi icat eder. Hollerith’in geliştirdiği sistem 1890’da ABD’nin nüfus sayımı verilerini işlemek için kullanıldı. 1911’de Dr. Herman Hollerith, sonrasında ismi IBM olacak olan Computing-Tabulating-Recording şirketini kurdu.
1990: Hubble Teleskobu, 1990 yılında uzaya fırlatılmış olup yaklaşık 4 metre büyüklüğünde bir uzay teleskobudur. Yaklaşık olarak bir evin odası büyüklüğünde olan bu teleskop, fırlatıldığı tarihten itibaren sadece bir yıl içerisinde insanlık tarihi boyunca üretilen veriden daha fazla veri üretilmiştir. Yaklaşık 30 yıldır insanlık için veri üreten Hubble teleskobunun veri birikiminin büyük veri örneklerinden en değerli bilgileri içeren bir örneği olarak görülmektedir.
1926: Tesla, 1926 yılında teknolojinin geleceğini yorumladığı röportajında, insanların bir gün “yelek cebinde” taşınabilen bir cihaz aracılığıyla büyük miktarda veriye erişebileceklerini öngörür. Tesla, bu değerlendirmeyi kablosuz teknolojinin parçacıkları değiştireceği konusundaki anlayışına dayanarak tahmin etmiş ve bu konuda şu yorumu yapmıştır: “Kablosuz teknolojiyle tüm dünya devasa bir beyne dönüşecek ve mesafeden bağımsız olarak birbirimizle anında iletişim kurabileceğiz.”
1928: Alman mühendis Fritz Pfleumer, 1928 yılında çelik tel yerine üzeri demir oksit tanecikleri kaplı kağıt şeride çok daha kaliteli ses kaydı yapmayı başardı. Daha sonra da ünlü Alman firması AEG’nin desteğiyle kağıt yerine ince plastik şerit kullanarak daha pratik ve kaliteli manyetik kayıtlar geliştirdi.
1943: İngiltere’de İkinci Dünya Savaşı sırasında düşmanın gizli haberleşme kodlarını çözmek için teorik bir bilgisayar ve ilk veri işleme makinelerinden biri icat edildi. Bletchley Park’taki kod çözme merkezinde faaliyete geçen ilk büyük ölçekli elektronik bilgisayar olan Colossus, büyük hacimli verileri analiz etmek için kullanıldı.
1959: IBM programcısı ve yapay zeka biliminin öncüsü Arthur Samuel, 1952’de “Makine Öğrenimi” terimini ortaya attı.
1965: ABD, milyonlarca vergi beyannamesi ve parmak izini manyetik bantta saklamak için ilk veri merkezlerini inşa etmeye başladı.
1969: Dağıtık kontrol ve TCI/IP protokollerini içeren ilk geniş alan ağı olan Advanced Research Projects Agency Network (ARPANET) kuruldu. Bu, günümüz internetinin temelinin atılması anlamına geliyordu.
b. İnternet çağı: büyük verinin şafağı [3]
Bilgisayarlar, internet sayesinde katlanarak daha yüksek oranlarda bilgi paylaşmaya başladıkça, büyük verinin gelişimindeki bir sonraki aşama da şekillenmeye başladı.
1989 ve 1990: Tim Berners – Lee ve Robert Cailliau, World Wide Web, HTML, URL ve HTTP protokolünü geliştirdiler. Böylece verilere yaygın ve kolay erişim ile internet çağı başlamış oldu.
1996: Dijital veri depolama, ilk kez kağıda bilgi depolamaktan daha uygun maliyetli hale geldi. Bu bilgi R. J. T. Morris ve B.J. Truskowski’in 2003 yılında IBM Systems Journal’da yer alan “Depolama Sistemlerinin Evrimi” makalesinde yer aldı.
1997: Google, bugün kullandığı alan adını 15 Eylül 1997’de etkinleştirdi ve 4 Eylül 1998’de Google şirketi resmen kuruldu. Arama motoru devrimi ile makine öğrenimi, büyük veri ve analitik teknolojiler de dahil olmak üzere çok sayıda diğer teknolojik yeniliğin geliştirilmesine başlanmadan bir yıl önce “Google.com” tescillenmiş oldu.
1998: “NoSQL” sözcüğü ilk defa Carlo Strozzi tarafından 1998 yılında kullanıldı. Geliştirdiği ilişkisel veri tabanının sorgulama dili olarak SQL’i kullanmadığını belirtmek isteyen Strozzi, açık kaynak kodlu veri tabanı için “NoSQL DB” ‘ismini kullandı.
1999: İlk baskısı 2000 yılında yayımlanan Hal R. Varian ve Peter Lyman’ın “How Much Information” isimli kitabı 1999’daki verilere dayanarak, bugüne kadar dünyada mevcut olan dijital bilgi miktarını belirlemeye çalıştı.
c. 21. yüzyılda büyük veri [3]
Bugün bildiğimiz anlamıyla büyük veri teknolojisi 2000 yılının başı itibarıyla hayatımıza girmeye başladı ve dokunduğu tüm endüstrileri etkileyerek dijital dünyada yeni bir dönemin kapısını açtı.
2001: Bilgi teknolojileri firması Gartner’dan Doug Laney, 3V’yi (hacim, çeşitlilik ve hız) kullanarak büyük verinin boyutlarını ve özelliklerini tanımladı. Büyük verinin ne anlama geldiğini çok iyi özetleyen bu tanım, bu teknolojinin 21. yy için ne kadar önemli olduğunu da ortaya koymuştur. Bu açıklamanın ardından doğruluk, değer ve değişkenlik gibi alt özellikler de büyük veri tanımına eklenmiştir.
2005: Bilgisayar bilimcileri Doug Cutting ve Mike Cafarella, Yahoo’dan ayrılan mühendislerden oluşan bir ekip ile büyük veri kümelerini depolamak ve işlemek için kullanılan açık kaynaklı yazılım araçları koleksiyonu Apache Hadoop’u (Şekil 2.5) geliştirdi.

Şekil 2.5. Günümüzde en popüler büyük veri uygulamalarından Apache Hadoop.
2006: Amazon Web Services (AWS), bulut bilişim olarak bilinen web tabanlı bilgi işlem altyapısı hizmetleri sunmaya başladı. Şu anda AWS, küresel pazar payının yaklaşık üçte biri ile bulut hizmetleri sektörünün hakimidir.
2008: Dünyadaki tüm CPU’ların, kişi başına yaklaşık 12 gigabayta eşit olan 9,57 zettabayttan (veya 9,57 trilyon gigabayt) fazla veri işlediği açıklandı. Küresel olarak yeni bilgi üretimi tahmini olarak 14,7 eksabayt büyüklüğündedir.
2009: Gartner, iş zekasının CIO’lar için en önemli öncelik olduğunu açıkladı. Büyük Durgunluk nedeniyle bir ekonomik dalgalanma ve belirsizlik dönemiyle karşı karşıya kalan şirketler için artık veriden değer yaratmak vazgeçilmez hale gelmeye başladı.
2011: McKinsey, 2018 yılına kadar ABD’nin analitik yetenek sıkıntısı ile karşı karşıya kalacağını açıkladı. Buna göre söz konusu tarihe kadar ABD’nin derin analitik becerilere sahip 140 bin – 190 bin kişiye ve doğru veriye dayalı kararlar alma becerisine sahip 1,5 milyon analist ve yöneticiye ihtiyacı olacaktı.
Ayrıca Facebook, enerji açısından verimli veri merkezleri için teknik özellikleri paylaşmak üzere Open Compute Project’i başlattı. Girişimin hedefi, maliyetleri %24 düşürüp, enerji verimliliğinde %38 artış sağlamaktı.
2012: ABD, ulusal güvenlik ve öğrenme dönüşümü vizyonu kapsamında veriden değerli iç görüler elde etme ve STEM uygulamalarının büyümesini hızlandırmak için 200 milyon dolarlık bir taahhütle Büyük Veri Araştırma ve Geliştirme Girişimi’ni duyurdu. STEM’e o dönemde sanatı temsilen “A” harfi eklendi ve STEAM oldu.
Harvard Business Review, veri bilimci mesleğini 21. yüzyılın en arz edilen mesleği ilan etti. Daha fazla şirket, yapılandırılmamış verileri sıralama ve bunlardan iç görü elde etme ihtiyacını anladıkça, veri bilimcilere olan talep de arttı.
2013: Büyük verinin global pazar hacmi 10 milyar dolara ulaştı.
2014: ABD’de masaüstü bilgisayarlardan daha fazla mobilden internete erişim sağlandığı verisi ilk kez rapor edildi. Dünyanın geri kalanı takip eden 2 yıl içinde ABD’yi bu konuda yakaladı.
2016: Dünyadaki verilerin yüzde doksanının yalnızca son iki yılda oluşturulduğu açıklandı. IBM, her gün 2,5 kentilyon bayt veri oluşturulduğunu bildirdi.
2017: IDC, büyük veri analizi pazarının 2020’de 203 milyar dolara ulaşacağını tahmin etti.
2020: Allied Market Research, büyük veri ve iş analitiği pazarının 2019’da 193,14 milyar dolara ulaştığını ve yıllık %10,9’luk bileşik büyüme oranında 2027’ye kadar 420,98 milyar dolara çıkacağını tahmin etti.
Teknoloji çok hızlı gelişiyor. 2020 yılına geldiğimizde dünya üzerinde yaşamını sürdüren her bir insan saniyede ortalama 1.7 megabayt veri üretmektedir. Dünya nüfusu ile düşünüldüğünde ve bireyin yaşam süresi dikkate alındığında toplanan verinin boyutu oldukça büyük hacimdedir.
d. Büyük verinin geleceği: büyük veride sıradaki adım ne?
Hızlı, neredeyse gerçek zamanlı analiz ve yanıt sağlamak için verilerin oluşturuldukları yere yakın bir şekilde işlenmesi, analiz edilmesi ve depolanması anlamına gelen sınır bilişim, büyük verinin bir adım sonrasını ifade ediyor. Bu kavram önümüzdeki yıllarda çok daha fazla karşımıza çıkması beklenmektedir. Bağlı cihazların her geçen gün artması, buluta artan bağımlılığımız ve yaklaşan uç bilgi işlem devrimi nedeniyle, büyük veri odaklı atılması gereken çok fazla adım bulunmaktadır.
Örneğin, makine öğrenimi, yapay zeka ve IoT analitiği gibi teknolojiler; verileri işleme, analiz etme ve bunlara göre hareket etme becerimizi büyük ölçüde geliştirerek sınırları zorlamaya devam ediyor. Büyük veri ve analitikte önemli gelişmelerin çok kısa süre içinde hayatımıza gireceği bir gerçektir.
Her ne kadar geleneksel sistemlerle büyük veri kullanmaya başlamış olsak da asıl büyümeyi yakalayabilmiş değiliz. Gelecek 10 yıl içerisinde asıl devrimin yaşanması öngörülmektedir. İnternet’e bağlanabilen nesnelerin kullanımının artmasıyla birlikte, anında nerede sorun olduğu bildirilecek ve böylece büyük miktarda veriler de ortaya çıkacaktır. Bundan dolayı elimizdeki veri miktarında gelecek yıllarda büyük bir sıçrama beklenmektedir. IDC verilerine göre 2025 yılında 163 zetabayt olacağı tahmin edilmektedir.

Şekil 2.6. Dünyada dijital verinin yıllar itibarıyla artışı (Kaynak: International Data Corporation (IDC), 2017).
Nicola Tesla’nın “Gelecekte insanlar cebine sığabilecek kadar küçük bir cihazla, uçsuz bucaksız miktardaki veriye ulaşabilecek ve analiz edebilecekler.” sözleri bulut bilişim sistemleri ve arama motorları sayesinde günümüzde mümkün hale gelmiş olup gelecekle ilgili bizlerin neleri beklediği ise tam bir muammadır.
Bölüm Özeti
Büyük veri kavramının miladı, İngiltere’de meydana gelen kara ölüm olarak da bilinen hıyarcıklı veba salgını ile ilgili Londralı bilim insanı John Graunt’in sunduğu istatistiksel veri analizidir. Ardından 1865’te Yazar Richard Millar Devens’in “Cyclopædia of Commercial and Business Anecdotes” adlı kitabında “Business Intelligence” yani “İş Zekası” terimi ilk kez kullanılır.
1960-1970’li yıllarda ortaya çıkan bilgisayarlar ile ilk veri merkezleri ve veri tabanlarının geliştirilmesiyle birlikte veri dünyası günümüzde bilinen halini almaya başlamıştır. 1956 yılında IBM tarafından üretilen bilgisayar 5 MB hard diske sahipti ve forklift yardımıyla taşınabiliyordu. Günümüzde 5 TB büyüklüğe sahip hard diski cepte taşımak mümkün hale gelmiştir.
‘Google’ bugün kullandığı alan adını 15 Eylül 1997’de etkinleştirdi ve 4 Eylül 1998’de Google şirketi resmen kuruldu. “NoSQL” sözcüğü ilk defa Carlo Strozzi tarafından 1998 yılında kullanıldı.
Büyük verinin zaman içerisindeki gelişimi; veri, kapsamlı veri, büyük veri ve smart veri şeklinde olmuştur. Bu gelişimi farklı veri türleri ile şu şekilde yapmak mümkündür; duran veri, bağlı veriler, zaman serileri, akışkan veriler.
Çeşitli sosyal medya platformları (Facebook, YouTube gibi) ve diğer çevrimiçi hizmetler yoluyla kullanıcıların ürettiği veriler gözlemlenmeye ve anlaşılmaya başlandı. Bu büyük veri kümelerini depolamak ve analiz etmek için oluşturulan açık kaynaklı bir sistem olan Hadoop uygulaması geliştirildi. Aynı zamanda bir veri tabanı uygulaması olan NoSQL kullanımı da yaygınlaştı.
İnternet altyapısının gelişmesi ve 5G teknolojilerinin ortaya çıkması ile Nesnelerin İnterneti (IoT) kavramı doğmuştur. Nesnelerin İnterneti (IoT) ile müşteri kullanım şekilleri ve ürün performansı hakkında veri toplanması yoluyla internete daha fazla nesne ve cihaz bağlanır duruma gelmiştir.
2020 yılında Allied Market Research, büyük veri ve iş analitiği pazarının 2019’da 193,14 milyar dolara ulaştığını ve yıllık %10,9’luk bileşik büyüme oranında 2027’ye kadar 420,98 milyar dolara çıkacağını tahmin etmiştir.
Büyük verinin bir adım sonrası olan sınıf bilişim ifadesi; hızlı, neredeyse gerçek zamanlı analiz ve yanıt sağlamak için verilerin oluşturuldukları yere yakın bir şekilde işlenmesi, analiz edilmesi ve depolanması anlamına gelmektedir.
Kaynakça
[1] Yüzer V. and Okur MR. “Temel Bilgi Teknolojileri-I”, T.C. Anadolu Üniversitesi, Açıköğretim Fakültesi Yayını No:2071, 2015.
[2] Ahsan, S., & Shah, A. (2006). Data, information, knowledge, wisdom: A doubly linked chain. In the proceedings of the 2006 international conference on information knowledge engineering (s. 270–278).
[3] Innova- Web Sitesi, “Büyük verinin kısa tarihçesi”, (Son Erişim:20.01.2022)
URL: https://www.innova.com.tr/tr/blog/buyuk-veri-blog/buyuk-verinin-kisa-tarihcesi

3. BÜYÜK VERİ MAHREMİYETİ

Ders Anlatimi – Video

Ders Anlatimi – Ses
Unite-3 Sunumu – PDF
Online Test – Unite Sorulari
Giriş

Veri mahremiyeti tanımının doğru yapılması kişi, kurum ve kuruluşlarca bu kavramın önemini anlamaya yardımcı olacaktır. Başka kavramlarla karışmaması için birçok farklı veri mahremiyeti tanımı yapılmıştır.
Büyük verinin geniş kitlelere mahremiyetin korunarak ulaştırılabilmesi için farklı politikalar vardır. Mahremiyetin korunmasını gerektiren 3 tip veri grubu mevcuttur.
Mahremiyetteki ihlallerin en aza indirmek oldukça önemlidir. Bunun sağlanması için k-Anonimlik, ℓ-Çeşitlilik, t-Yakınlık, δ-Mevcudiyet, Mondrian, Yukarıdan-Aşağıya Özelleştirme, Yukarıdan-Aşağıya Özelleştirme gibi koruma modelleri kullanılmaktadır.
Veri mahremiyetinin korunması için ulusal ve uluslararası hukuki düzenlemeler yapılmıştır.
3.1. Büyük Veri Mahremiyetine Giriş
Veri mahremiyeti literatürde, “bilgisel seçici kontrol” [1] ve “muhatapların bilgilerinin doğru kullanımı ve muhatabın hangi bilgisinin, kiminle ve ne derecede paylaşılmasına karar verme mekanizması” [2] olarak tanımlanmıştır. Bu tanımlara ek olarak aşağıda sunulan tanımlar da konuyu daha iyi anlamaya yardımcı olacaktır. Bu tanımlar:
Veri üzerinde uygulanacak herhangi bir metot, teknik veya arka plan bilgileri ile veri sahiplerinin ifşa riskinin mümkün olduğu kadar minimize edilmesi,
Veriden bir ya da daha fazla kişiye doğrudan veya dolaylı olarak erişilmesinin mümkün olduğu kadar önlenmesi,
Verinin kiminle, hangi seviyede ve ne amaçla paylaşılacağına dair sınırların belirlenmesinde veri sahibinin seçici kontrolü,
Veriden kişiye ulaşmayı sağlayacak herhangi bir ilişkinin mümkün olduğu ölçüde ortadan kaldırılmasıdır.
Veri mahremiyeti tanımının doğru yapılması kişi, kurum ve kuruluşlarca bu kavramın özümsenmesini daha da kolaylaştıracaktır. Genellikle güvenlik ve gizlilik gibi kavramlarla karıştırılan mahremiyet kavramının, yukarıda belirtilen tanımlar doğrultusunda bu kavramlardan ayrıştığı açıkça görülmektedir [3]. Şekil 3.1’de görüldüğü üzere mobil cihazlara verilen güvenlik anahtarlarının mahremiyetle karıştırılması örnek olarak verilebilir.

Şekil 3.1. Mahremiyet kavramının gizlilik ile karıştırılması.
Büyük verinin içerisinde barındırdığı anlamlı değerler kaynağı olarak analiz edilmesi, saklanması, üçüncü taraflara açılması ve satışı, yeniden kullanımı ve/veya yeni amaçlarla kullanılmak üzere değiştirilmesi gibi etkinliklerin gün geçtikçe artması bireysel kaygıları da beraberinde getirmektedir. Zira büyük veri yığınlarıyla ve söz konusu yığınlardan anlamlı sonuçlar çıkarılması yeteneğinin gelişimiyle doğru orantılı olarak gelişmesi ile kişilerin yasal hakları konusunda da tehditler oluşturması kaçınılmazdır. Bu durum büyük veri konusundaki temel politikalar olmak üzere mahremiyet ile ilgili birçok yeni düzenlemeyi beraberinde getirmiştir [3]. Bu doğrultuda büyük verinin geniş kitlelere ulaştırılması için Şekil 3.2’de verilen mimari içerisinde farklı politikalarla veri mahremiyeti korumalı hale getirildikten sonra alıcılara ulaştırılmaktadır. Bu işleme “verinin anonimleştirilmesi” denilmektedir. Mahremiyet korumalı yaklaşımlarda, anonimleştirme teknikleri yaygın olarak kullanılır. Anonimleştirme, verinin detaylarını azaltan, verinin tipi ve biçimini koruyarak kimlik bilgilerinden arındıran mahremiyet koruyucu işlemlerdir.

Şekil 3.2.Verinin mahremiyeti [3]
Büyük veri, mahremiyet korumasına ihtiyaç duymayan genel verilerin yanında mahremiyet korumasına ihtiyaç duyan hassas verileri de içerir. Genel verilere; iklim verileri, tarım verileri, enerji verileri, coğrafik veriler gibi kişisel veya kurumsal hassas bilgi barındırmayan veriler örnek olarak verilebilir. Hassas verilere ise; hasta verileri, tapu verileri, sigorta verileri, eğitim verileri, vergi mükellef verileri, banka verileri gibi bireyi doğrudan nitelendirebilen yani tanımlayabilen veriler örnek olarak verilebilir. Bu aşamada genel veriler olarak nitelendirdiğimiz verilerde mahremiyet konusu dikkate alınmazken, hassas verilerde mahremiyet en üst seviyede ele alınması gereken bir konudur.
Büyük veride mahremiyet kavramı küresel ölçekte değerlendirilmekle birlikte kültürden kültüre hatta zaman zaman bireyden bireye değişiklik gösterebilen bir kavramdır. Bu nedenle kavramın tanımlanması, sınırlarının belirlenmesi güçleşmektedir. Mahremiyet yaklaşımları üç boyutta ele alınmaktadır. Bunlar [4]:
Bölgesel mahremiyet: Bir insanı çevreleyen fiziksel alanla ilgili gizlilik.
Kişi mahremiyeti: Bir bireyin fiziksel varlığına karşı gereksiz müdahaleyi temsil eder (örn: fiziksel arama).
Bilgi mahremiyeti (gizliliği): Kişisel verilerin toplanması, depolanması veya nasıl işlenebileceğinin ve dağıtılabileceğinin kontrol edilmesi ile ilgilidir.
3.2. Mahremiyet Korumalı Büyük Verinin Yayını
Büyük veri mahremiyeti, veriyi toplayan kurum ve kuruluşların hakları, verilerinin üçüncü taraflarla ve hangi yöntemlerle paylaşılabileceği ve kullanılabileceği ile ilgilidir. Bir başka deyişle, bireylerin kendisine özgü bilgileri kimin ne zaman ve ne kapsamda kullanabileceğine dair karar verme hakkıdır. Kişisel veriler, eldeki verilerden kolaylıkla tanımlanabilen ve bu bilgilerden kişilerin kimliğini ortaya çıkarabilen ilişkili verilerdir. Örneğin; isim, adres, resim, telefon numarası, kişisel e-posta adresi, doğum tarihi, banka ve ödeme ayrıntıları, yakın akrabalık ilişkileri, pasaport bilgileri, ırksal veya etnik kökeni, siyasi görüşleri, dini inançları, sendika üyeliği, fiziksel veya zihinsel sağlık konuları, cinsel yönelim/yaşamı ile ilgili bilgiler, iddia edilen veya gerçek cezai faaliyet ve ceza kayıtlarıyla alakalı bilgiler vb. kişisel ve hassas verilerdir. Bu veriler mahremiyet koruması gerektirir.
Mahremiyet koruması gerektiren hassas verileri içeren büyük veriler muhatapları hakkında verdikleri bilgilere göre; tekil tanımlayıcı, yarı tanımlayıcı ve hassas veriler olmak üzere 3 grupta sınıflandırılır. Tekil tanımlayıcılar, büyük veri içerisindeki veri sahiplerinin kimliğini açık olarak doğrudan tanımlayan verilerdir. Pasaport numarası, T.C. kimlik numarası, telefon numarası tipik tekil tanımlayıcı örnekleridir. Büyük veriler içerisinde yer alan yarı tanımlayıcılar tek başına veri sahiplerinin kimliklerini tanımlayamayan ancak bir araya geldiklerinde kimliklerin tanımlanabilmesini sağlayan verilerdir. Posta kodu, doğum tarihi ve cinsiyet en iyi bilinen yarı tanımlayıcı örnekleridir. Mahremiyet korumasına ihtiyaç duyan verilere hassas veriler denir. Hassas verilere; hasta verileri, tapu verileri, sigorta verileri, eğitim verileri, vergi mükellef verileri, banka verileri gibi bireyi doğrudan nitelendirebilen yani tanımlayabilen veriler örnek olarak verilebilir.
Büyük veri, modern mahremiyet düzenlemelerinin dayandığı adil veri işleme uygulamaları bakımından bir tehdit oluşturmaktadır. Büyük veri analizleri sayesinde işletmeler daha başarılı reklam/promosyon uygulamaları geliştirebilmekte, tüketici tercihlerini etkileyebilmektedir. Nitekim bazı analistler, bireylerin ciddi bir hastalığa yakalanma ihtimalini belirleyebileceklerini ve bu bilgileri kullanarak sigorta poliçesi pazarlamanın oldukça kolay olduğunu ifade etmektedir.
Bugün, bazı hayat sigortalarının uygulanması konusunda sigorta şirketleri, bireylerin tüketim alışkanlıklarına ilişkin veriler üzerinden beklenen yaşam süresini hesaplamakta ve söz konusu veriler ışığında prim oranı ile hizmetin kapsamı gibi unsurlara karar vermektedir [5]. Bu ve benzeri mahremiyet açıkları ile kişilerin doğrudan yaşamlarını etkileyici kararlar alınabilmektedir.
Büyük Veride Mahremiyet Açıkları Üzerine Bir Örnek:
Veri mahremiyetinde hukuki olarak elde edilen verilerin birbiri ile eşleştirmesi üzerine ABD’de meydana gelen bir olayı özetlemek gerekirse:
ABD’de, Ulusal Sağlık Veri Örgütleri Birliği (NAHDO), sağlık verilerinin toplanmasını ve kullanılmasını geliştirmeyi amaçlayan, kâr amacı gütmeyen ulusal bir dernektir. 2002’de, 17 eyaletin hastanelerinden ve kliniklerinden hasta verilerini toplamaya başlamıştır. Şekil 3.3’te verilen görselin sol tarafında yer alan hastanın doğum tarihi, cinsiyeti, posta kodu, etnik kökeni gibi bilgiler bu kapsamda elde edilen verilere aittir.
Massachusetts eyaletinde, Grup Sigorta Komisyonu (Group Insurance Commission – GIC) devlet çalışanları için sağlık sigortası satın almakla sorumlu bir diğer şirkettir. GIC, 135.000 devlet çalışanı ve aileleri için özel olarak sağlık bilgilerini toplamış ve verileri anonimleştirdiğini düşünerek araştırmacılarla paylaşmıştır.

Şekil 3.3. Veriler ilişkilendirerek mahremiyet açığı oluşur.
Şekil 3.3’ün sağ tarafındaki veriler ise Sweeney’nin 20 dolar karşılığında Massachusetts Cambridge için seçmen kayıt listesinden yasal yolla satın almış olduğu verileri göstermektedir. Sweeney bu iki bilgiyi birbiriyle ilişkilendirerek o sırada Massachusetts valisi olan William Weld’in kişisel bilgilerine ulaşmayı başarmıştır.
Seçmen listesine göre, altı kişinin doğum tarihi aynı, sadece üçü erkek ve 5 haneli posta kodundaki tek kişi olan Massachusetts valisiydi. Bu örnekte, anonimleştirildiğine inanılan iki veri seti bir araya getirilerek, önemli bir kişinin kimliği ortaya çıkartılabilmiş ve veri setinde yer alan kişilerin yaklaşık %87’inin kimlik tanımlanması mümkün olmuştur [6].
3.3. Büyük Verideki Mahremiyet Tehditleri
Büyük verinin, savunmasız ve teknolojik açıdan yetersiz bireylerin mahremiyetini olumsuz etkilemesi karşısında bireylerin çevrimiçi eylemlerinin hassasiyet derecesini değerlendirebilir hale gelmesi ihlaller açısından önem arz etmektedir.
Arka plan bilgileri ile veri bağlama (eşleştirme) yöntemleri büyük veri mahremiyetine yönelik tehditlerin başında gelir [6]. Yayınlanan veriler ile halka açık veya önceden edinilmiş arka plan bilgilerinin bağlanmasıyla yapılan veri eşleştirmeleri sonucunda istenmeyen ifşalar meydana gelir. Aşağıda en sık karşılaşılan veri ifşa ihlalleri verilmiştir:
Kimlik ifşası
Hassas veri ifşası
Üyelik ifşası
Arka plan bilgisine sahip saldırgan sahip olduğu bilgiler ile yayınlanan veriler arasında kayıt, hassas öznitelik veya tablo düzeyinde bağlantı kurarak saldırı düzenleyebilir. Bu saldırılar sonucunda yukarıda belirtilen kimlik, hassas veri ve üyelik ifşaları yaşanır.
1. Kimlik İfşası
Arka plan bilgisine sahip bir saldırganın, kamuya açık kimlik bilgileri içeren veri tabanlarıyla ve bu veri tabanlarının alt kümesi olan yayınlanmış kimliksiz verilerin kayıt düzeyinde yarı tanımlayıcılar üzerinden eşleştirilmesi sonucunda ulaştığı veriler kimlik ifşası olarak tanımlanır.
Kimliksizleştirilmiş verileri hedef alan bu saldırı yönteminde, saldırgan kimliksiz yayınlanan veri içerisindeki kurbana ait hassas bilgileri öğrenerek kurbanın kimliğini hassas bilgileriyle birlikte ifşa eder (Şekil 3.4).

Şekil 3.4. Kimlik ifşası.
2. Hassas Veri İfşası
Saldırgan sahip olduğu arka plan bilgileri ile yayınlanan tablodaki özniteliklerin homojen dağılımına bağlı olarak kurbanın hassas bilgilerini veri bağlama yapmadan öğrenebilir. Saldırganların hassas veri ifşasındaki temel amacı büyük veri içerisindeki belirlemiş olduğu kişinin hassas verilerine ulaşmaktadır.
Saldırgan paylaşılan verilerden hangi kaydın kurbana ait olduğunu öğrenemez. Ancak hassas verilerin aynı olmasından kimliğini tanımlayamadığı kurbanının hassas verisini ifşa eder.
3. Üyelik İfşası
Saldırgan kurbanın paylaşılan büyük veri kümesinde olup olmadığını öğrendiğinde herhangi bir bilgiyi ifşa edemez ancak yayınlanan veriye göre üst seviye çıkarımlar yapabilir. Yayınlanan veride kurbanın yer aldığını bilen bir saldırgan kurbanın bu veriyi yayınlayan ile ilişkisini ortaya koyarak üyelik ifşasını gerçekleştirir.
Bundan sonraki süreçte saldırgan kurbanın kimlik ve hassas özniteliklerinin ifşası için üyelik ifşasından elde etmiş olduğu bilgiyi geliştirerek arka plan bilgilerini arttırmaya ve bunları kullanacağı kamuya açık diğer veri tabanlarını bulmaya çalışır (Şekil 3.5).

Şekil 3.5. Üyelik ifşası.
3.4. Büyük Veride Mahremiyet Modelleri
Yukarıda belirtilen mahremiyet ihlallerini en aza indirgemek adına literatürde sıklıkla kullanılan yaygın ve temel mahremiyet koruma modelleri aşağıda özetlenmiştir. Bu modeller kullanılarak elde edilen büyük veri kümeleri kullanıma sunulmaktadır.
k-Anonimlik: Her bir kayıt tekil birer kişiye ait olmak üzere, bir tane kaydın en az k-1 tane kayıttan ayırt edilemediği modeldir. İlk bakışta basit bir problem olarak görünmesine karşılık optimum k-Anonimliği sağlamanın zor bir problem olduğu ispatlanmış ve yaklaşık çözümler üretilmeye çalışılmıştır.
Literatürde büyük veriyi anonimleştirmek için k-Anonimlik algoritması kullanan Hadoop ve MapReduce sistemleri üzerinde pek çok algoritma mevcuttur.
ℓ-Çeşitlilik: k-Anonimlik kimlik ifşasına karşı koruma sağlarken, hassas verilerin ifşasına karşı koruma sağlayamaz. Literatüre geçmiş bir çalışma, k-Anonimlik modelinin bu sorununu vurgulayarak hassas öznitelikleri koruyan ℓ-çeşitlilik yöntemini önermiştir. k-Anonimlik modeli uygulanan veriler içerisinde yer alan hassas verilerin aynı olduğu durumlarda kimlik bilgisi yeniden tanımlanamasa da hassas veriler ifşa olur. Literatürde öznitelik ifşası olarak adlandırılan bu saldırı, hassas özniteliklerin çeşitlilik eksikliğinden kaynaklanır. ℓ-Çeşitlilik modeli hassas verilerin ifşa edilememesi amacıyla hassas verilerin en az ℓ sayıda olmasını garanti eder. Bu modeli gerçekleyen algoritmaların MapReduce dağıtık programlama mimarisine uygun olarak geliştirilmesiyle, ℓ-Çeşitlilik modelinin büyük veri uyumluluğu sağlanmıştır [7,8,9].
t-Yakınlık: ℓ-Çeşitlilik güçlü bir mahremiyet modeli olmasına rağmen, literatüre geçmiş çalışmalarda çarpık veri dağılımına sahip veri kümelerinde mahremiyet koruması için ℓ-Çeşitlilik modelinin yetersiz olduğunu göstermiş ve t-Yakınlık modelini önermişlerdir [10].
ℓ-Çeşitlilik, hassas değerler arasındaki anlamsal yakınlıklara ve hassas değerlerin dağılımının genel dağılımdan önemli ölçüde farklı olmasına bağlı olarak yapılacak olan çarpıklık saldırılarına karşı mahremiyet korumasında yetersiz kalır.
Örneğin, bir hassas verinin geneldeki oranı %5 iken, bir yarı tanımlayıcı grubu içerisindeki oranı %50 ise bu durumda ciddi bir mahremiyet ihlali ortaya çıkabilir. t-Yakınlık yöntemi, yarı-tanımlayıcılar üzerindeki herhangi bir gruptaki bir hassas özniteliğin dağılımını tüm tablodaki özniteliklerin dağılımına yakın olmasını gerektirir. Bu metot, iki hassas öznitelik dağılımının arasındaki yakınlığı ölçmek üzere bu amaç için oluşturulmuş (EMD vb.) farklı fonksiyonlar kullanır. Bu modeli de gerçekleyen algoritmaların MapReduce mantığı çerçevesinde geliştirilmesi ile büyük veri uyumluluğu sağlanır.
δ-Mevcudiyet: Açık kaynaklar, sosyal ağlar, yazılı ve görsel basın, sohbet ve gerçek dünyadaki ilişkilerden elde edilebilen arka plan bilgileri mahremiyet saldırılarının ve ihlallerinin yaşanmasında önemli rol oynar. Arka plan bilgisine sahip saldırganın yayınlanan verilerde kurbanın olup olmadığını bilmesi önemli bir mahremiyet zafiyeti oluşturur. Üyelik bilgisine ve arka plan bilgisine sahip olan saldırgan veri bağlama yöntemleriyle yapacağı saldırılar sonucunda yeniden kimliklendirme yapabilir.
ℓ- Çeşitlilik ve k-Anonimlik modelleri kimlik ve öznitelik ifşalarına karşı koruma sağlarken üyelik ifşalarına karşı koruma sağlayamaz. Üyelik bilgisinin keşfini zorlaştırarak mahremiyet riskini azaltmak amacıyla literatüre geçmiş bir çalışmada δ-mevcudiyet modelini önermiştir [11].
Temel yaklaşım, yayınlanan veri kümesinin saldırganın arka plan bilgisini temsil eden genel veri kümesinin alt kümesi olarak modellenebilmesidir. Bu modeli de gerçekleyen algoritmaların MapReduce mantığı çerçevesinde geliştirilmesi ile büyük veri uyumluluğu sağlanır.
Mahremiyet modellerinin veri kümelerine uygulanmasıyla oluşturulan çözüm uzayında çözüme en uygun adayın bulunmasını sağlayan arama algoritmalarından bazıları ise aşağıda maddeler halinde özetlenmiştir.
Mondrian: Çok boyutlu bölütleme işlemi yapan özyinelemeli bir algoritmadır. Tüm veri kümesi üzerinde işlemlere başlayarak herhangi bir yarı tanımlayıcı grubunun mahremiyet ihlali yaptığı ana kadar devam eder.
Her bir özyineleme, en iyi bölütleyen boyutun ve ilgili bölütleme noktasının bulunması, veri kümesinin iki veya daha fazla alt veri kümesine bölünmesi ve alt veri kümeleri üzerinde işlemlerin özyinelemeli olarak çağırılması işlemlerinden oluşur.
Yukarıdan-Aşağıya Özelleştirme: Öznitelik sınıflandırma ağacında en üstteki elemandan başlayarak özyinelemeli olarak aşağı doğru iner. Her bir döngü üç aşamadan oluşur. Bunlar; en iyi özelleştirmeyi bulma, özelleştirmeyi gerçekleştirme ve bir sonraki döngü için arama metriğini güncellemedir.
Yukarıdan-Aşağıya Özelleştirme: Öznitelik sınıflandırma ağacının en altından başlayarak yukarıya doğru ilerleyen öz yinelemeli bir işlemdir. Her bir döngüde dört aşama gerçekleştirilir. Bunlar;
Mevcut verinin anonimlik gereksinimini karşılayıp karşılamadığının belirlenmesi,
Bilgi kaybının hesaplanması,
En iyi genelleştirmenin bulunması
En iyi genelleştirme yönteminin belirlenmesi
Literatür incelendiğinde, büyük veri kapsamında mahremiyet korumalı veri yayınlama modellerinin oluşturulmadığı veya önerilmediği görülmüştür. Ancak büyük veri konseptine uygun veri yayınlama modellerinin oluşturulması günümüz şartlarında bir ihtiyaçtır. Büyük veride mahremiyet koruma süreci ve örnek veri yayınlama modeli Şekil 3.6’da verilmiştir [12].

Şekil 3.6. Büyük veri mahremiyetinin koruma süreci [12]
3.5. Küresel Mahremiyet
Büyük verinin ortaya çıkmasına zemin hazırlayan temel gelişmelerden biri olan bulut bilişim teknolojilerinden, veride gerçekleşen üstel büyüme karşısında gün geçtikçe daha yoğun faydalanılmaktadır. Bulut bilişim sayesinde kuruluşların coğrafi sınırlara bağlı olmaksızın büyük verilerle çalışabilmesi, kişisel verilerin işlenmesi alanında uygulanacak hukuk kurallarının belirlenmesini kritik hale getirmektedir [13].
Nitekim AB Veri Koruma Tüzüğü ile getirilen, verinin aktarılacağı üçüncü ülkelerde AB’de sağlanan veri koruma çerçevesine uygun bir yeterli koruma düzeyinin sağlanması şartı, bu alanda uluslararası mevzuat uyumuna olan ihtiyacı ortaya koymaktadır. Ayrıca, OECD’nin 2017 Sayısal Görünüm Raporu’nda da OECD ülkelerinde hükümetlerin çoğunda kişisel verilerin korunması alanında uluslararası iş birliğine girme eğilimi olmakla birlikte, pek çoğunun hâlâ kendi mahremiyet politikalarını koordine etmekte geciktiği vurgulanmaktadır. Bu kapsamda, mahremiyet düzenlemelerinin koordinasyonu ve uyumlaştırılması yoluyla küresel anlamda birlikte çalışabilirlik, ele alınması gereken önemli bir sorun alanı olarak ortaya çıkmaktadır.
Mahremiyet, özel hayatın gizliliği ve kişisel verilere yönelik uluslararası düzenlemelerde aşağıdaki gibi ele alınmıştır:
Birleşmiş Milletler İnsan Hakları Evrensel Beyannamesi 12. Maddesi: “Kimsenin özel yaşamına, ailesine konutuna ya da haberleşmesine keyfi olarak karışılamaz, şeref ve adına saldırılamaz. Herkesin bu gibi karışma ve saldırılara karşı yasa tarafından korunmaya hakkı vardır” şeklinde düzenlenmiştir (İnsan Hakları Evrensel Beyannamesi, 1949)
Birleşmiş Milletler’in Kişisel ve Siyasal Haklar Sözleşmesi’nin 17. maddesi “Mahremiyet Hakkı” (Right to Privacy) olarak düzenlenmiştir (Kişisel ve Siyasal Haklar Sözleşmesi, 1966)
Ekonomik Kalkınma ve İşbirliği Örgütü (OECD-Organization for Economic Co-operation and Development-) 1980’de “Mahremiyetin Korunması ve Sınır Ötesi Veri Akışına Dair Rehber İlkeler” başlıklı metni yayımlamıştır (OECD, 2013).
Avrupa Konseyi’nin Avrupa İnsan Hakları Sözleşmesi’nin 8. Maddesi özel hayata ve aile hayatına saygı hakkı olarak tanımlanmıştır (Avrupa Konseyi, 1950).
Avrupa Birliği’nin 95/46 sayılı “Kişisel Verilerin İşlenmesinde Gerçek Kişilerin Korunması ve Bu Verilerin Serbest Dolaşımı” isimli yönergesi, Birlikteki her üye ülkede kişisel verilerin eşit seviyede korunmasının garanti altına alınması amaçlanmıştır. Avrupa Komisyonu tarafından üye ülkelerde uygulanmakta olan AB veri koruma kurallarında, Veri Koruma Direktifi’nde benimsenen ilkelerin modernize edilmesi ve gelecekte vatandaşların mahremiyet hakkının garanti altına alınması amacıyla, kapsamlı bir reforma gidilmesi ihtiyacı ortaya çıkmıştır. Bu çerçevede Avrupa Parlamentosu tarafından 14 Nisan 2016 tarihinde “Genel Veri Koruma Tüzüğü (General Data Protection Regulation–GDPR)” onaylanmıştır [14].
Dünya’da kişisel verilerin korunması ve mahremiyete yönelik yapılan düzenlemeler değerlendirildiğinde, kişisel verilerin korunmasının temel insan hak ve özgürlükleri olarak kabul edildiği anlaşılmaktadır. Bugün artık küresel boyutlarda yapılan veri paylaşımının güvenliğine yönelik ülkelerin gerek bölgesel gerekse uluslararası boyutlarda çözüm aradıkları ve konuya yönelik çalışmaların düzenli olarak yapıldığı değerlendirilmektedir.
Bu bağlamda Birleşmiş Milletler, Ekonomik Kalkınma ve İşbirliği Örgütü, Avrupa Konseyi, Avrupa Birliği gibi uluslararası oluşumların yetkin çalışmaları ortaya çıkmıştır. Türkiye’de de 2010 yılında yapılan bir Anayasa değişikliği ile kişisel verilerin korunması anayasal hak statüsüne kavuşmuştur. Kişisel verilerin korunmasına yönelik atılan bu önemli adım Avrupa birliği Temel Hakları Şartını da karşılamaktadır. Akabinde Avrupa Konseyince hazırlanan 108 sayılı Sözleşme ile AB Direktiflerine paralel bir şekilde hazırlanan Kişisel Verilerin Korunması Kanunu Tasarısı ve 2016 yılında çıkarılan Kişisel Verilerin Korunması Kanunu’yla, AB ülkeleri nezdinde veri koruma bakımından güvenilir ülke statüsüne kavuşulması konusunda önemli bir kriter karşılanmış bulunmaktadır [15].
3.6. Türkiye’de Veri Mahremiyeti
Kişisel verilerin korunması konusunun tartışılmaya başlandığı 1970’li yıllardan bu yana mahremiyet hakkı ve kişisel verilerin korunması kavramları, anayasalar ile güvence altına alınan özel hayatın gizliliğinin korunması hakkının uzantıları olarak değerlendirilmiştir.
Dünyadaki ve ülkemizdeki büyük veri ortamları incelendiğinde bazı önemli problemlerin giderilmesi üzerine geliştirilen politikalar, mevzuat düzenlemeleri ve idari faaliyetler kapsamında önemli gelişmeler gözlemlenmiştir. Özellikle büyük verinin mahremiyetine ilişkin atılan adımların başında verinin anonimleştirilmesi ve bununla ilgili yasal çerçeve üzerine odaklanılmıştır.
2010 yılında yapılan değişiklikle Anayasa’nın 20’nci maddesine aşağıdaki hüküm ikinci fıkra olarak eklenmiştir:
“Herkes, kendisiyle ilgili kişisel verilerin korunmasını isteme hakkına sahiptir. Bu hak; kişinin kendisiyle ilgili kişisel veriler hakkında bilgilendirilme, bu verilere erişme, bunların düzeltilmesini veya silinmesini talep etme ve amaçları doğrultusunda kullanılıp kullanılmadığını öğrenmeyi de kapsar. Kişisel veriler, ancak kanunda öngörülen hallerde veya kişinin açık rızasıyla işlenebilir. Kişisel verilerin korunmasına ilişkin esas ve usuller kanunla düzenlenir.”
Kişisel verilerin işlenmesi ile ilgili temel ilkeler 6698 sayılı Kanun’un 4’üncü maddesinde yer almaktadır. Maddenin birinci fıkrasında kişisel verilerin ancak Kanun’da ve diğer kanunlarda öngörülen usul ve esaslar çerçevesinde işlenebileceği belirtildikten sonra ikinci fıkrada kişisel verilerin işlenmesiyle ilgili temel ilkeler sayılmıştır. Tablo 3.1’de görüldüğü üzere temel özellikleri itibarıyla örtüşen ülkemizdeki 6698 sayılı Kanun’daki temel ilkelerle AB Genel Veri Koruma Tüzüğü’nde yer alan ilkeler kişisel verilerin işlenmesi alanındaki teknolojik gelişmelerle uyumlu esneklikte kaleme alınmıştır. AB Genel Veri Koruma Tüzüğü ile, söz konusu ilkelerin uygulanmasından sorumlu olan süjenin açıkça belirlenmesi kaydıyla veri kontrolörünün hesap verebilirliği artırılmıştır [16].
Tablo 3.1. Kişisel Verileri Koruma İlkeleri Bakımından 6698 sayılı Kanun ile AB Genel Veri Koruma Tüzüğü’nün Karşılaştırılması
6698 sayılı Kişisel Verilerin Korunması Kanunu
AB Genel Veri Koruma Tüzüğü
1- Hukuka ve dürüstlük kurallarına uygun olma
1- Hukuka, dürüstlük kurallarına uygun ve veri öznesine karşı şeffaf işleme
2- Doğru ve gerektiğinde güncel olma
2- Doğru, gerekli hallerde işleme ve güncel olma
3- Belirli, açık ve meşru amaçlar için işlenme
3- Kişisel verilerin belirli, açık ve meşru amaçlarla işlenmesi
4- İşlendikleri amaçla bağlantılı, sınırlı ve ölçülü olma
4- Veri işleme için gerekli olduğu kadar, ilgili ve ölçülü biçimde işleme
5- İlgili mevzuatta öngörülen veya işlendikleri amaç için gerekli olan süre kadar muhafaza edilme
5- Kişisel verinin işleme amacı için gerekli olandan daha uzun süre tutulmaması
6- Veri kontrolörünün sayılan tüm temel prensiplerden sorumlu süje olması (hesap verebilirlik prensibi)

Kişisel verilerin büyük veri gibi yenilikçi teknolojiler karşısında korunması için değiştirilmesi güçlü ve katı hukuki metinler yerine, bu teknolojilerden yararlanılmasını kolaylaştıran temel ilkelerin yorumlanmasını ve yol göstericiliğini güçlendiren yeni düzenleme ve politikaların belirlenmesi önem arz etmektedir.
6698 sayılı Kanun’da yer alan rızaya ilişkin sorumluluğun bireyden veri işleyenlere kayması gerektiği, veri toplama ve veri kullanımı süreçlerinin ayrı ayrı değerlendirilmesi gerektiği tespit edilmiştir. Ayrıca Kanun’da yer almayan tasarımdan itibaren güvenlik ilkesinin mevzuata kazandırılması ve söz konusu ilkenin veri sorumlularınca nasıl uygulanması gerektiğine ilişkin rehberlerin yayımlanması önem arz etmektedir.
Büyük veriyle giderek yaygınlaşan verinin ikincil kullanımları alanında ortaya çıkacak yeni durumların ilgililere bildirilmesini öngören düzenlemelerin hayata geçirilmesi gerektiği görülmüştür. Bu kapsamda şeffaflık artırıcı mekanizmalardan biri olan, bireylerin kişisel verilerine makinalar tarafından okunabilir formatta erişim sağlama imkânının tanınması gerektiği değerlendirilmektedir.
Sonuç olarak, Türkiye’de de büyük veri alanında mahremiyet risklerinin önlenmesi amacıyla, eğitim ve farkındalık çalışmalarının hayata geçirilmesi gerekmektedir. Büyük veri işleyen küresel ölçekte güçlü veri aktörlerine karşı mevzuatın güçlü bir biçimde uygulanabilmesi için, Kişisel Verileri Koruma Kurumu’nun nitelikli teknik ve hukuki personel ihtiyacının en kısa sürede tamamlanması gerekmektedir.
Bölüm Özeti
Veri mahremiyeti tanımının doğru yapılması kişi, kurum ve kuruluşlarca bu kavramın önemini anlamaya yardımcı olacaktır. Bilgisel seçici kontrol ve muhatapların bilgilerinin doğru kullanımı, muhatabın hangi bilgisinin, kiminle ve ne derecede paylaşılmasına karar verme mekanizması olarak tanımlanan veri mahremiyetinin farklı tanımları da mevcuttur.
Mahremiyet kavramının, güvenlik ve gizlilik kavramları ile karışmasını engellemek için doğru tanımlama oldukça önemlidir.
Farklı politikalarla büyük veri mahremiyetinin korunarak geniş kitlelere ulaştırılmasına verinin anonimleştirilmesi denir.
Mahremiyet koruması gerektiren hassas verileri içeren büyük veriler muhatapları hakkında verdikleri bilgilere göre 3 grupta sınıflandırılır. Bunlar: pasaport numarası, T.C. kimlik numarası, telefon numarası verileri gibi tekil tanımlayıcılar; posta kodu, doğum tarihi ve cinsiyet gibi yarı tanımlayıcılar ve hasta verileri, tapu verileri, sigorta verileri, eğitim verileri, vergi mükellef verileri, banka verileri gibi bireyi doğrudan nitelendirebilen hassas verilerdir.
Yayınlanan veriler ile halka açık veya önceden edinilmiş arka plan bilgilerinin bağlanmasıyla yapılan veri eşleştirmeleri sonucunda kimlik ifşası, hassas veri ifşası ve üyelik ifşası gibi istenmeyen ifşalar meydana gelir.
Büyük veride mahremiyet ihlallerini en aza indirmek için farklı mahremiyet koruma modelleri vardır. Bu modellerin yaygın ve temel olanları; k-Anonimlik, ℓ-Çeşitlilik, t-Yakınlık, δ-Mevcudiyet, Mondrian, Yukarıdan-Aşağıya Özelleştirme, Yukarıdan-Aşağıya Özelleştirmedir.
Büyük verinin ortaya çıkışında etkili olan bulut bilişim teknolojileri ile, kuruluşların coğrafi sınırlara bağlı olmaksızın çalışabilmesi için kişisel verilerin işlenmesi alanında uygulanacak hukuk kuralları oldukça önemlidir. Mahremiyet; özel hayatın gizliliği ve kişisel verilere yönelik uluslararası düzenlemelerde yer almaktadır.
Türkiye’de mahremiyet hakkı ve kişisel verilerin korunması kavramları anayasa ile güvence altına alınmıştır.
Kaynakça
[1] Jain P., Gyanchandani M., and Khare N., “Big data privacy: a technological perspective and review”, Journal of Big Data, 3(1): 25, (2016).
[2] Yavuz CANBAY, Yılmaz VURAL, Şeref SAĞIROĞLU. Conceptual model suggestions for privacy preserving big data publishing. Politeknik Dergisi, 23(3): 785-798, (2020).
[3] Chibba M. and Cavoukian A., “Privacy, consumer trust and big data: Privacy by design and the 3 C’S”, IEEE ITU Kaleidoscope: Trust in the Information Society,(2015).
[4] Kokolakis, S. (2017). Privacy attitudes and privacy behaviour: A review of current research on the privacy paradox phenomenon. Computers & Security, 64, 122-134. https://doi.org/10.1016/j.cose.2015.07.002
[5] Drum, “Privacy is dead. Long live transparency!”, 2013, (erişim tarihi: 11.07.2017) http://www.motherjones.com/politics/2013/10/future-of-privacy-nsa-snowden, 11.07.2017
[6] Sweeney, L. (2002). “k-anonymity: a model for protecting privacy”, International Journal on Uncertainty Fuzziness and Knowledge-Based Systems, vol. 10, s. 557-570.
[7] B. C. Fung, K. Wang, A. W.-C. Fu, and S. Y. Philip, Introduction to privacy-preserving data publishing: Concepts and techniques. CRC Press, 2010.
[8] H. Zakerzadeh, C. C. Aggarwal, and K. Barker, “Privacy-preserving big data publishing,” in Proceedings of the 27th International Conference on Scientific and Statistical Database Management, 2015, p. 26: ACM.
[9] A. Machanavajjhala, J. Gehrke, D. Kifer, and M. Venkitasubramaniam, “L-diversity: privacy beyond k-anonymity,” in 22nd International Conference on Data Engineering (ICDE’06), 2006, pp. 24-24.
[10] N. Li, T. Li, and S. Venkatasubramanian, “Closeness: A new privacy measure for data publishing,” IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 7, pp. 943-956, 2010.
[11] M. E. Nergiz, M. Atzori, and C. Clifton, “Hiding the presence of individuals from shared databases,” in Proceedings of the 2007 ACM SIGMOD international conference on Management of data, 2007, pp. 665-676: ACM.
[12] Canbay Y., Vural Y. ve Sağıroğlu S., “Mahremiyet korumalı büyük veri yayınlama için kavramsal model önerileri”, Politeknik Dergisi, 23(3): 785-798, (2020).
[13] Fishleigh, J., “A Non-Technical Journey into the World of Big Data: an Introduction”, Legal Information Management, 2014, pp. 149-151.
[14] Akıncı, A. N. (2017). Avrupa Birliği Genel Veri Koruma Tüzüğü’nün getirdiği yenilikler ve Türk Hukuku bakımından değerlendirilmesi (Çalışma Raporu No. 2968).
[15] Eroğlu Ş. “The Concept of Privacy and Personal Data in Digital Life: Analysis of Perceptions of Students’ at Hacettepe University Department of Information Management.” Hacettepe University Journal of Faculty of Letters Volume: 35 Number:2, 2018.
[16] Akıncı A.N. “Büyük Veri Uygulamalarında Kişisel Veri Mahremiyeti”, Uzmanlık Tezi, T.C. Cumhurbaşkanlığı Strateji ve Bütçe Başkanlığı, 2019.

4. BÜYÜK VERİDE ANONİMLEŞTİRME

Ders Anlatimi – Video

Ders Anlatimi – Ses
Unite-4 Sunumu – PDF
Online Test – Unite Sorulari
Giriş

Anonimleştirme, kimlik bilgilerini kaldıran veya değiştiren bir veri işleme tekniğidir; sonuç olarak, hiçbir bireyle ilişkilendirilemeyen anonim veriler ortaya çıkar.
Paylaşılmış büyük veri küme setlerinde yer alan veri sahiplerinin kimlik bilgisi ve hassas verilerinin ifşa edilmesini önlemek, gizliliklerini korumak ve veri sahiplerine yapılabilecek her türlü saldırıları önlemek amacıyla kullanıcı verilerinde veri anonimleştirilmesi yapılır.
Anonimleştirilmiş verileri analiz ederek güvenli, değerli ürünler ve özellikler oluşturabilir. Örneğin girilen bir arama sorgusunun otomatik olarak tamamlanması Google tarafından bu yöntemle sağlanmakta ve kimlik avı, kötü amaçlı site ve benzeri güvenlik tehditlerini bu analiz sonucunda tespit edebilir. Aynı zamanda birçok kuruluş anonim verileri harici olarak güvenli bir şekilde paylaşabilir, kullanıcıların gizliliğini riske atmadan başkalarının yararlanabilmesini sağlar.
Anonimleştirme işlemi, veri tipi ve biçiminde bir değişikliğe sebep olmadan onları korur. Bu işlemindeki temel amaç veriyi paylaşılabilir yapmaktır. Fakat paylaşılan veriler bilişim teknikleri ve arka- plan bağlama yöntemleri gibi çeşitli uygulamalar ile kişilerin kimlikleri tespit edilmesi önemli bir sorundur.
Anonimliğin bozulmasına dair bilinçli olarak yürütülen işlemlere “anonimliğin bozulmasına yönelik saldırılar” denilmektedir. Bu kapsamda, anonim hale getirilmiş kişisel verilerin çeşitli müdahalelerle tersine döndürülmesi ve anonim hale getirilmiş verinin yeniden kimliği tespit edici ve gerçek kişileri ayırt edici hale dönüşmesi riski olup olmadığı araştırılarak ona göre işlem tesis edilmelidir.
4.1. Veriyi Anonimleştirme
Veri anonimleştirme, büyük veri içerisinde depolanan değişkenlerden doğrudan kişiyi adresleyecek tanımlayıcıların silinmesi veya şifrelenmesi yönetimiyle özel, hassas ya da kişisel nitelikli verilerin kötü amaçlı kullanımından koruma işlemidir. Örneğin, doğrudan kişiyi adresleyecek isimler, sosyal güvenlik numaraları, T.C. kimlik numaraları ve adres gibi veri setleri anonimleştirilerek verinin korunması sağlanır. Ancak, tanımlayıcıların verileri temizlense bile, saldırganlar tarafından kişisel veri anonimleştirme süreci tersten işleterek anonimleştirme yöntemleri deşifre edebilir.
Genellikle anonimleştirme işleminden arındırma teknikleri birden fazla kaynaktan geçtiğinden anonimleştirme teknikleri kaynaklara çapraz referans verebilir ve kişisel bilgileri açığa çıkarabilir. 6698 Sayılı Kişisel Verilerin Korunması Kanunu’nda da (KVKK) veri anonimleştirme ya da anonim hale getirme, kişisel ve özel nitelikli kişisel verilerin korunması için alınması gereken teknik tedbirler kapsamındadır.
Yasal düzenlemeler şirketlerin tüm tanımlayıcıları verilerden kaldırdığı sürece istatistikî amaçla anonimleştirilmiş veri toplanmasına, kullanmasına ve süresiz olarak saklamasına izin vermektedir. Veri sahibi topladığı büyük veri kümesinden anonimleştirme yöntemlerini kullanarak veri alıcısına şekil 4.1’de görüldüğü üzere anonim veri kümesi halinde getirerek sunar.

Şekil 4.1. Büyük verinin anonimleştirilmesi.
Verinin açık hale getirilmesi amacıyla yapılan işlemler ile ilgili temel kavramlar tablo 4.1’de verilmiştir.
Tablo 4.1. Büyük verinin anonimleştirilmesi ile ilgili temel kavramlar [1,2]
No
İsim
Açıklama
1
Anonimleştirme
Verilerin başka verilerle eşleştirilerek dahi hiçbir surette belirli veya belirlenebilir bir gerçek kişi ile ilişkilendirilemeyecek hale getirilmesidir.
2
Maskeleme
Veri tabanları ve elektronik ortam içindeki bütün hassas veya gizli verilere- erişimi engelleyen bir güvenlik yöntemidir. Bu yöntem, gerçek verilerin yerine, kişi ile eşleştirilemeyecek şekilde farklı veri veya karakterlerin yerleştirilmesi ile karartma yapılması işlemidir.
3
Saklama
İş gereksinimlerini karşılamak için gerekli olan sürelerden daha uzun olmayan süreler için verilerin depolanması ve uygulanabilir yasa ve yönetmeliklerin gereklilikleridir.
4
Silme
Ortam içeriği silindiğinde veya üzerine yazıldığında silinir. Veriler tekrar erişimi mümkün olmayacak şekilde yok edilir.
5
İmha
Kişisel verilerin silinmesi, yok edilmesi veya anonim hale getirilmesidir.
6
ETL (Ayrıştırma, Dönüştürme, Yükleme)
Kullanılacak verinin dış kaynaklardan çıkarılması, verinin iş süreçlerine göre temizlenmesi, birleştirilmesi, dönüştürülmesi ve (veri tabanı veya veri ambarı) yüklenmesi sürecidir. (export, print, save as, copy vb.)

4.2. Veriyi Anonimleştirme Teknikleri
Anonimleştirme kimlik ve hassas bilgiler içeren verilerin ifşasının önlenmesi amacıyla mahremiyet modelleri tarafından yarı tanımlayıcı öznitelikler üzerinde yapılan dönüşüm işlemleridir. Bu işlemler sayesinde verinin tipi ve biçimi korunarak paylaşılmış büyük veri kümelerinde yer alan veri sahiplerinin kimlik bilgileri ve hassas verilerinin ifşa edilmesi zorlaştırılır.
Anonimleştirmenin kabul edilebilir düzeyde veri kaybıyla yapılması büyük veriden sağlanan fayda açısından önemlidir. Veri kayıplarındaki artış veri kalitesini düşürerek paylaşılan büyük veriden sağlanan faydanın azalmasına hatta tamamen yok olmasına yol açabilir.
Anonimleştirme kavramı için, hassas verinin yapısı ve biçimi korunarak değiştirilmesi veya çıkarılması işlemleri, mahremiyet-duyarlı verilerin gizlenmesi gibi farklı tanımlamalar yapılmıştır.
Anonimleştirme işleminin temel amacı, veriyi çeşitli katma değerler elde etmek adına paylaşılabilir kılmaktır. Veri paylaşımları içeren büyük veri uygulamaları, mahremiyet ihlallerini de beraberinde getirebilir. Her ne kadar büyük veri karmaşık olarak görünse de çeşitli mahremiyet odaklı saldırılar ile veri sahibinin kimliği veya hassas verileri ifşa edilebilir.
Buna en basit örnek veri bağlama (veri eşleştirme) saldırısıdır. Bu saldırıda, saldırgan daha önceden farklı yollardan temin ettiği çeşitli veriler ile yayınlanan veriler arasında bir ilişki tespit etmesi halinde kimlik ve hassas veriler ifşa edebilir. Önceki bölümlerde de anlatıldığı üzere, 1990 yılında ABD’de sayım uygulamasıyla toplanan cinsiyet, posta kutusu ve doğum tarihi gibi yarı tanımlayıcı bilgilerin kullanılarak ABD nüfusunun %87’sinin kimliklerinin tespit edilebileceği Sweeney tarafından raporlanmıştır.
Dolayısıyla geleneksel anonimleştirme işleminde en temel tekniklerle bile yeterli koruma sağlanamadığı tespit edildiği için, kişisel, kurumsal ve ulusal verilerin korunması açısından yeni tekniklerin büyük veriden sağlanan fayda dikkate alınarak geliştirilmesi hem bir ihtiyaç hem de bir gerekliliktir.
Veri mahremiyetinin korunmasına yönelik, çeşitli anonimleştirme teknikleri ve çözümleri mevcuttur. Bu teknikler en temelde, kayıt bağlama, öznitelik bağlama, tablo bağlama ve olasılık saldırılarına karşı koruma sağlar.
Veriyi anonimleştirme için yaygın olarak kullanılan bazı teknikler [3]:
Veri Maskeleme (Data Masking): Verilerin değiştirilmiş değerlerle gizlenmesi yöntemidir. Veri maskeleme de en çok kullanılan yöntemlerin başında şifreleme, simge kullanma, bulanıklaştırma, karıştırma, geçersizleştirmedir. Veri maskelemede veri formatı değiştirilmez sadece değerler değiştirilir ancak bu değişim herhangi bir şekilde tespit edilmeyecek ve geri döndürülmeyecek şekilde yapılmalıdır. Örneğin, bir değer karakteri “*” ya da “x” gibi bir sembolle değiştirebilir. Veri maskeleme, tersine mühendislik veya algılamayı imkânsız hale getirir. Doğru uygulanmış herhangi bir yöntemle herhangi biri kurumlardaki kişisel verilerin güvenliği için yeterlidir. Veri maskeleme 5 farklı şekilde yapılabilir:
Statik veri maskeleme
Dinamik veri maskeleme
Anında veri maskeleme
Deterministik veri maskeleme
İstatistiksel veri maskeleme
Statik veri maskeleme orijinal veri tabanının bir kopyasının değiştirilerek kullanıma açılması ile oluşturulur. Bu yöntem yetkili erişimlere karşı güvenlik sağlamakta ancak yetkisiz erişimlere karşı güvenlik sağlamamaktadır.
Dinamik veri maskeleme verilerin veri tabanından çağrıldığı anda maskeleme işleminin yapılması demektir. Dinamik maskelemede kimlik yetkilendirme yöntemi kullanılarak kimlerin hangi verilere ulaşabileceği belirlenerek sadece yetkisi olan kişilerin görmesi gereken bilgileri görmesi ve diğer bilgilerin maskelenmesi sağlanır. Dinamik çalışmasından dolayı tehditler karşısında daha güvenlidir.
Anında maskeleme dinamik veri maskeleme gibi sonuçlar üretmekle birlikte çok fazla veri maskeleme gerektiren uygulamalar veya kurumlar için kullanılabilecek olan bir maskeleme türüdür. Kullandığı ETL (Extract Transform Load) yöntemiyle daha hızlı ve daha az işlem ile maskeleme yapılmasını sağlar.
Deterministtik veri maskeleme bir sütundaki verinin, aynı satırda, aynı tabloda, aynı veri tabanında, veri tabanı türleri arasında aynı değerle değiştirilmesi yöntemidir. Örneğin; bir veri tabanında adı “Ali” olanların her zaman “Mehmet” değeri ile değiştirilmesi işlemidir.
İstatistiksel veri maskeleme orijinal verilerin birtakım istatistiksel özelliklerini koruyan verilerin rastlantısal bozulmalarına dayanır. İstatistiksel veri gizleme yöntemlerine örnek olarak Diferansiyel Gizlilik ve DataSifter yöntemleri verilebilir [4].
Takma Adlandırma (Pseudonymization): Özel tanımlayıcıları sahte tanımlayıcılarla veya takma adlarla değiştiren, örneğin “Levent KARTAL” tanımlayıcısını “Mert DEMİR” ile değiştiren bir veri yönetim ve kimlik belirleme yöntemidir. Takma adlandırma, istatistiksel doğruluğu ve veri bütünlüğünü korurken aynı zamanda değiştirilen verilerin eğitim, geliştirme, test ve analitik için kullanılmasına izin verir ve veri gizliliğini korur.
Burada takma ad ile adlandırılan hassas veri sahte bir dizgi ile değiştirilir. Elde edilen dizgi her zaman aynı giriş için aynı olacak şekilde kullanılır. Bu gizlenmiş bir anahtar ile yapılmaktadır. Sadece bu anahtarı bilenler orijinal veriyi elde edebilmektedir. Veri güvenliğini artırmak için bu gizli anahtarın da periyodik değişimi gerçekleştirilmelidir.
Genelleme (Generalization): Daha az tanımlanabilir hale getirmek maksadıyla bazı verilerin kasıtlı olarak kaldırılması yöntemidir. Örneğin, bir adresteki bina numarasının kaldırılması durumunda sokak isminin kaldırılmaması önem arz etmektedir. Buradaki amaç, veri doğruluğu ölçüsünü korurken bazı tanımlayıcıları ortadan kaldırmaktır.
Ayrıca bu yöntem ile bazı alanlardaki değerler daha geniş bir kategori ile değiştirilir. Örneğin boy alanında yer alan değer ‘≥ 170 cm’ veya ‘180 cm≥ boy ≥ 160 cm’ şeklinde değiştirilerek genelleme yapılabilir. Bu değişim hassas verilerde kalıcıdır ve geri dönüşü olmayan bir işlemdir.
Veri Değiştirme (Data Swapping): Karıştırma ve permütasyon olarak da bilinir, veri kümesi öznitelik değerlerini orijinal kayıtlara karşılık gelmeyecek şekilde yeniden düzenlemek maksadıyla kullanılan bir tekniktir. Örneğin doğum tarihi gibi tanımlayıcı değerleri içeren verilerin (sütunlar) anonimleştirme üzerinde üyelik türü değerlerinden daha fazla etkisi olabilir.
Veri Bozulması (Data Perturbation): Sayıları yuvarlayan ve rastgele gürültü ekleyen teknikler uygulayarak orijinal veri kümesinin biraz değiştirilmesi yöntemidir. Değer aralığı, bozulma ile orantılı olmalıdır. Küçük bir taban zayıf anonimleştirmeye yol açarken, büyük bir taban veri kümesinin faydasını azaltabilir. Örneğin, orijinal değerle orantılı olduğundan, yaş veya ev numarası gibi değerleri yuvarlamak için 5 tabanını kullanabilirsiniz. Bir bina numarasını 15 ile çarpabilirsiniz ve değer onun güvenilirliğini koruyabilir. Bununla birlikte, 15 gibi daha yüksek bazların kullanılması, yaş değerlerinin sahte görünmesini sağlayabilir.
Sentetik Veriler (Synthetic Data): Gerçek olaylarla bağlantısı olmayan algoritmik olarak üretilmiş bilgilerin kullanılması yöntemidir. Sentetik veriler, orijinal veri kümesini değiştirmek veya olduğu gibi kullanmak, aynı zamanda gizlilik ve güvenliği riske atmak yerine yapay veri kümeleri oluşturmak için kullanılır. İşlem, orijinal veri kümesinde bulunan kalıplara dayalı istatistiksel modeller oluşturmayı içerir. Sentetik verileri oluşturmak için standart sapmalar, medyanlar, doğrusal regresyon veya diğer istatistiksel teknikler kullanabilir [5].
Anonim Hale Getirmeyi Kuvvetlendirici İstatistik Yöntemler
Anonimleştirilmiş veri kümelerinde yer alan kayıtlardaki bazı değerlerin tekil senaryolarla bir araya gelmesi sonucunda, kayıtlardaki kişilerin kimliklerinin tespit edilmesi veya kişisel verilerine dair varsayımların türetilebilmesi ihtimali ortaya çıkabilmektedir. Bu sebeple anonimleştirilmiş veri kümelerinde çeşitli istatistiksel yöntemler kullanılarak veri kümesi içindeki kayıtların tekilliğini minimuma indirerek anonimlik güçlendirilebilmektedir. Bu yöntemlerdeki temel amaç, anonimliğin bozulması riskini en aza indirirken, veri kümesinden sağlanacak faydayı da belli bir seviyede tutabilmektir.
K-Anonimlik: Anonim hale getirilmiş veri kümelerinde, dolaylı tanımlayıcıların doğru kombinasyonlarla bir araya gelmesi halinde kayıtlardaki kişilerin kimliklerinin saptanabilir olması veya belirli bir kişiye dair bilgilerin rahatlıkla tahmin edilebilir duruma gelmesi anonim hale getirme süreçlerine dair olan güveni sarsmıştır. Buna istinaden çeşitli istatistiksel yöntemlerle anonim hale getirilmiş veri kümelerinin daha güvenilir duruma getirilmesi gerekmiştir.
K-anonimlik, bir veri kümesindeki belirli alanlarla, birden fazla kişinin tanımlanmasını sağlayarak, belli kombinasyonlarda tekil özellikler gösteren kişilere özgü bilgilerin açığa çıkmasını engellemek için geliştirilmiştir. Bir veri kümesindeki değişkenlerden bazılarının bir araya getirilerek oluşturulan kombinasyonlara ait birden fazla kayıt bulunması halinde, bu kombinasyona denk gelen kişilerin kimliklerinin saptanabilmesi olasılığı azalmaktadır. Örneğin; Tablo 4.1’de ad-soyad, doğum tarihi, cinsiyet, hastalık ve posta kodu gibi değişkenler vardır.
Tablo 4.1. K-anonimlik uygulanmış veri kümesi
Ad – Soyad
Doğum Tarihi
Cinsiyet
Posta Kodu
Hastalık Adı
*
1982
K
3440*
Soğuk Algınlığı
*
1983
E
3440*
Hepatit-B
*
1980
K
3440*
Astım
*
1982
E
3440*
Beyin Tümörü
*
1983
E
3440*
Yüksek Tansiyon
*
1980
E
3440*
Baş Ağrısı
*
1983
E
3440*
Grip
*
1983
K
3440*
Akciğer Kanseri

Tabloda ad-soyad ve posta kodu değişkenlerine dair değerlerde maskeleme uygulanarak veri anonim hale getirilmiş olmakla birlikte, böyle bir anonimleştirme yapılırken aynı değerleri içeren sadece bir kayıt varsa bu kayıtla doğru kişiyi tespit mümkün olacaktır. Ancak kayıtların çoklanması halinde, tekillik yaratabilecek değişkenlere dair belli bir çeşitlilik sağlanmış olacaktır. Örneğin; Tablo 4.1’de 1983 yılında doğmuş, cinsiyeti erkek ve posta kodu 3440 ile başlayan 3 adet kayıt için “Hastalık Adı” alanında üç ayrı hastalık çeşitliliği sağlanmış olduğundan 1983 yılında doğmuş cinsiyeti erkek olan ve posta kodu 3440 ile başlayan bir kişinin bu 3 hastalıktan hangisine sahip olduğuna dair tahmin yürütmek mümkün olmayacaktır.
L-Çeşitlilik: K-anonimliğin eksikleri üzerinden yürütülen çalışmalar ile oluşan L-çeşitlilik yöntemi aynı değişken kombinasyonlarına denk gelen hassas değişkenlerin oluşturduğu çeşitliliği dikkate almaktadır. Tablo 4.2’de, bir hastanede yatmakta olan kişilere ait hastalık bilgisi verilirken bu kişilerin ad soyad veya kimlik numarası verilmeyerek K-anonimlik uygulanmış olmakla birlikte posta kodu, yaş ve etnik köken bilgisi paylaşılmış olduğundan tespit edilebilme ihtimali bulunmaktadır.
Tablo 4.2. L-Çeşitlilik orijinal veri kümesi
Posta Kodu
Yaş
Uyruk
Hastalık
13053
28
Rus
Kalp
13068
29
Amerikalı
Kalp
13068
21
Çin
Viral Enfeksiyon
13053
23
Amerikalı
Viral Enfeksiyon
14853
50
İngiliz
Kanser
14853
55
Rus
Kalp
14850
47
Amerikalı
Viral Enfeksiyon
14850
49
Amerikalı
Viral Enfeksiyon
13053
31
Amerikalı
Kanser
13053
37
İngiliz
Kanser
13068
36
Japon
Kanser
13068
35
Amerikalı
Kanser

Tablo 4.3. L-Çeşitlilik uygulanmış veri kümesi
Posta Kodu
Yaş
Uyruk
Hastalık
130**
<30
*
Kalp
130**
<30
*
Kalp
130**
<30
*
Viral Enfeksiyon
130**
<30
*
Viral Enfeksiyon
1485*
≥40
*
Kanser
1485*
≥40
*
Kalp
1485*
≥40
*
Viral Enfeksiyon
1485*
≥40
*
Viral Enfeksiyon
130**
3*
*
Kanser
130**
3*
*
Kanser
130**
3*
*
Kanser
130**
3*
*
Kanser

Tablo 4.3’ten görüleceği üzere, tablo 4.2’de yer alan bilgiler maskeleme mantığı (posta kodu ve yaş bilgisinden maskelemeyle 4’erli gruplar yaratılmıştır) içerisinde gruplanarak öncelikle K=4 anonimlik yöntemiyle anonimliği kuvvetlendirilmiştir. Ancak ilk işlem sonucunda tablodan görüleceği gibi son 4 kayıttaki grupta tüm “Hastalık” değerleri “Kanser” olarak gruplanmıştır. Bu durum posta kodu 130 ile başlayan 30’lu yaşlardaki herkesin uyruğundan bağımsız olarak “Kanser” hastası olduğu bilgisini paylaşmaktadır. Bu iki bilgiye sahip olan bir kullanıcı, tanıdığı bu özellikte bir kişinin kanser hastası olduğu sonucuna kolaylıkla varabilecektir. Bu nedenle her bir grubun içinde belli bir çeşitlilik yaratılmasına dikkat edilerek maskeleme yöntemi kullanılmalıdır.
T-Yakınlık: L-çeşitlilik yöntemi kişisel verilerde çeşitlilik sağlıyor olmasına rağmen, söz konusu yöntem kişisel verilerin içeriğiyle ve hassasiyet derecesiyle ilgilenmediği için yeterli korumayı sağlayamadığı durumlar oluşmaktadır. Bu haliyle kişisel verilerin, değerlerin kendi içlerinde birbirlerine yakınlık derecelerinin hesaplanması ve veri kümesinin bu yakınlık derecelerine göre alt sınıflara ayrılarak anonim hale getirilmesi sürecine T-yakınlık yöntemi denmektedir. Tablo 4.4’te; doğum tarihi, cinsiyet ve posta kodu alanlarına göre K=3 olacak şeklinde K-anonimlik ve L=3 olacak şekilde L-çeşitlilik sağlanmasına rağmen 1970 yılında doğmuş, 3440* adresinde oturan ve cinsiyeti erkek olan bir kişinin hastalıkları kanser, beyin tümörü ve hepatit b gibi ciddi hastalıklar olduğu için, bu grupta söz konusu kişinin hastalığının ciddi olduğu tespit edilebilir.
Tablo 4.4. T-Yakınlık orijinal veri kümesi.
Doğum Tarihi
Cinsiyet
Posta Kodu
Hastalık Adı
Hasta Sayısı
198*
E
3440*
Grip
80
198*
E
3440*
Tansiyon
20
198*
E
3440*
Baş Ağrısı
70
197*
E
3440*
Kanser
10
197*
E
3440*
Beyin Tümörü
10
197*
E
3440*
Hepatit – B
10

Bu tahmin gücünü azaltabilmek için de anonimleştirme içindeki gruplamalarda Tablo 4.5’te görülebileceği üzere öyle bir düzenleme yapılmıştır ki üçerli kayıtlardan oluşan gruplarda (K=3) en az 3 farklı (L=3) hastalık tipi olacak şekilde ayarlanmış ancak bir araya gelen bu 3 farklı hastalığın da hepsinin ciddi olmaması sağlanarak (beyin tümörü ve Hepatit-B ciddi hastalıklar iken baş ağrısı ciddi sayılmayacak bir hastalıktır) o gruptaki hastalara dair tahminler azaltılmıştır.
Tablo 4.5. T-Yakınlık uygulanmış veri kümesi.
Doğum Tarihi
Cinsiyet
Posta Kodu
Hastalık Adı
Hasta Sayısı
≥ 1970
E
3440*
Grip
80
≥ 1970
E
3440*
Kanser
10
≥ 1970
E
3440*
Tansiyon
70
1975 ≤ x ≤1985
E
3440*
Baş Ağrısı
20
1975 ≤ x ≤1985
E
3440*
Beyin Tümörü
10
1975 ≤ x ≤1985
E
3440*
Hepatit – B
10

Yukarıda verilen yöntemlerin yanında bir kişisel verinin silinmesi ya da yok edilmesi yerine anonimleştirilmesine karar verilebilmesi için veri sorumlusunun yerine getirmesi gereken bazı şartlar vardır:
Anonimleştirilmiş veri kümesinin bir başka veri kümesiyle birleştirilerek anonimliğin bozulamaması,
Bir ya da birden fazla değerin bir kaydı tekil hale getirebilecek şekilde anlamlı bir bütün oluşturulmaması,
Anonim hale getirilmiş veri kümesindeki değerlerin birleşip bir varsayım veya sonuç üretebilir hale gelmemesi.
Bu riskler sebebiyle veri sorumlularının, anonim hale getirdikleri veri kümeleri üzerinde bu maddede sıralanan özellikler değiştikçe kontroller yapmaları ve anonimliğin korunduğundan emin olmaları gerekmektedir [6].
4.3. Veriyi Anonimleştirme Yöntemlerinde Seçim Kriterleri
Veri sorumluları yukarıdaki yöntemlerden hangilerinin uygulanacağına ellerindeki verilere bakarak karar verirler. Anonimleştirme yöntemleri uygulanırken sahip olunan veri kümesine dair aşağıdaki özelliklerin de veri sorumluları tarafından dikkate alınması gerekmektedir:
Verinin niteliği,
Verinin büyüklüğü,
Verinin fiziki ortamlarda bulunma yapısı,
Verinin çeşitliliği,
Veriden sağlanmak istenen fayda / işleme amacı,
Verinin işleme sıklığı,
Verinin aktarılacağı tarafın güvenilirliği,
Verinin anonim hale getirilmesi için harcanacak çabanın anlamlı olması,
Verinin anonimleştirmenin bozulması halinde ortaya çıkabilecek zararın büyüklüğü, etki alanı,
Verinin dağıtıklık / merkezilik oranı,
Kullanıcıların ilgili veriye erişim yetki kontrolü ve
Anonimleştirmeyi bozacak bir saldırı kurgulanması ve hayata geçirilmesi için harcayacağı çabanın anlamlı olması ihtimali.
Bir veriyi anonimleştirmeyi düşünen veri sorumlusu, kişisel veriyi aktardığı diğer kurum ve kuruluşların bünyesinde olduğu bilinen ya da kamuya açık bilgilerin kullanılması ile söz konusu verinin yeniden bir kişiyi tanımlar nitelikte olup olmadığını, yapacağı sözleşmelerle ve risk analizleriyle kontrol etmek sorumluluğundadır [6].
4.4. Veriyi Anonimleştirme Çalışmalarında Başarısız Örnekler
Anonimleştirme işlemi, kişisel verilere uygulanan ve veri kümesinin ayırt edici ve kimliği belirleyici özelliklerini yok etme işlemi olduğundan bu işlemlerin çeşitli müdahalelerle tersine döndürülmesi ve anonimleştirilmiş verinin yeniden kimliği tespit edici ve gerçek kişileri ayırt edici hale dönüşmesi riski bulunmaktadır. Bu durum anonimliğin bozulması olarak ifade edilir.
Yeterli düzeyde anonimleştirme seviyesi sağlanmadan paylaşılan veri kümelerinin saldırıya ve ihlale açık olduğu bilinmektedir. Saldırıların motivasyonlarını aşağıdaki başlıklarda toplayabiliriz:
Anonimliğin derecesini ve güvenilirliğini test etmek amacıyla yapılan saldırılar,
Kurumları, şirketleri, organizasyonları, belirli bir kişiyi veya topluluğu zor durumda bırakmaya ve itibar riski yaratmaya yönelik saldırılar,
Anonimliğin bozulması sonucu ortaya çıkacak kişisel verilerden ve elde edilebilecek değerlerden maddi veya manevi fayda sağlama amacıyla yapılan saldırılar.
Yukarıda sıralanan senaryoların farklılığına bağlı olarak saldırıları yürüten kullanıcıların profilleri ve erişim yetkileri de değişkenlik göstermektedir. Bu kişiler aşağıda listelenen örneklerdeki profillere sahip olabilirler:
Kamuya açılmış veriye erişimi olan genel bir kullanıcı,
Yazılım, istatistik, veri madenciliği konularında uzmanlaşmış bir profesyonel, akademisyen veya araştırmacı,
Kuruluş, şirket, organizasyon içinde çalışan veya sistemlere erişim hakkı olan bir kullanıcı,
Anonim hale getirilmiş veriyi kullanarak çalışan ancak diğer bazı verilere veya sistemlere erişimi olan kullanıcı,
Açıklanmış /paylaşılmış veri kümesinde yer aldığını bildiği bir kişinin yakını, aile üyesi veya arkadaşı.
Saldırıların sonucunda başarılı olunmuş ve anonimlik bozulmuşsa ortaya çıkan kişisel veriye dair üç farklı senaryo oluşmaktadır. Bu senaryolar;
Gerçek kişinin kimliğinin tamamen ortaya çıkmış olması,
Gerçek kişiye ait belli bir bilginin ortaya çıkmış olması,
Bir kişiye dair varsayımsal bir bilginin ortaya çıkmış olması,
olarak sayılabilir.
Kişinin kimliğinin tamamen ortaya çıkmış olması durumu, çoğunlukla saldırganın elindeki anonim hale getirilmiş veriyi elde ettiği veya erişiminin olduğu bir başka veri kümesiyle birleştirmesinden veya doğrudan tanımlayıcılar yerine kullanılan kod veya takma isimlerin kodlamalarının bozulmasından kaynaklanabilir.
Böyle bir durumda gerçek kişinin doğrudan tanımlayıcılarına ulaşılır ve kimlik tamamen saptanabilir hale gelir.
Bu duruma bilinen en iyi örneklerden biri, 2006 yılında AOL firması tarafından çeşitli araştırma faaliyetleri için, kullanıcı kimliği ve IP numarası silinerek 650 bin kadar kullanıcıya ait 20 milyon arama sorgu verisi paylaşılmış, ancak birkaç gün içerisinde bu sorguların kimlere ait olduğu araştırmacılar tarafından tespit edilmiştir.
Veri mahremiyetinin korunamadığı durumlarda veri sahibinin mahremiyetini ihlal eden durumlara bir diğer örnek çevrimiçi yayıncılık ve DVD satış sitesi Netflix’in kullanıcıların geçmiş oylamalarına dayanan film öneri sistemini geliştirmek için 2006’da başlattığı ödüllü yarışmadır. Netflix 500 bin kadar abonesinin film derecelendirmeleriyle ilgili yaklaşık 100 milyon kaydı içeren veri kümesini bu yarışma için yayınlamıştır. Aboneleri tanımlayan kişisel bilgiler (ad, soyad, IP adresi vb.) yarışma için yayınlanan kayıtlardan çıkarılmıştır. Aboneleri birbirinden ayırt etmek amacıyla sayısal numaralar kayıtlara verilere eklenerek yayınlanmıştır. Ancak, 2007’de Austin Üniversitesi’nden iki araştırmacı, yayınlanan veri kümelerini İnternet Film Veritabanı (IMDB) üzerindeki film derecelendirmeleriyle eşleştirerek abonelerin kimliklerinin yeniden tanımlanabileceğini göstermiştir.
Massachusetts’de 1990’lı yıllarda Grup Sigorta Komisyonu isimli bir sigorta şirketi bölgedeki kamu personelinin sağlık sigortası süreçlerini üstlenerek, talep eden araştırmacılara ücretsiz olarak işçilerin hastane ziyaretlerine ait olan veriyi anonimleştirerek paylaşabileceğini duyurmuştur. Paylaşımlar öncesinde Grup, isim, adres, sosyal güvenlik numarası gibi direkt betimleyicileri veriden çıkartarak güvenli ve anonimleştirilmiş bir veri kümesi yaratmayı hedeflenmiştir. Latanya Sweeney isimli araştırmacı sigorta grubundan bu veriyi talep eder, sonrasında ise Massachusetts eyaletinde yer alan Cambridge şehrinin belediyesinden 20 dolar karşılığında tüm seçmen kayıtlarını satın alır. Bu iki veri kümesinde posta kodu, doğum tarihi ve cinsiyet değişkenleri ortaktır. Bu üç değişken üzerinden iki veri kümesi birbiriyle eşleştirildiğinde kişilerin kimliklerinin kolaylıkla tahmin edilebileceği kayıtlar yaratılmış olur. Örneğin, Massachusetts eyalet valisi William Weld o günlerde Cambridge’de oturmaktadır ve kamu personeli olduğundan kayıtlarının sigorta grubunun sağlık verileri içinde yer aldığı bilinmektedir. Sweeney’in eşleştirmesinden sonra ortaya çıkan veri kümesinde sadece 6 kişi vali ile aynı doğum tarihini paylaşmaktadır, bunlardan sadece 3’ü erkektir ve sadece biri vali gibi 5 rakamlı posta koduna sahiptir. Sweeney araştırmanın önemini vurgulamak adına kayıtlar içinde kimliğini saptayabildiği valinin teşhis ve tedavi detaylarını da içeren sağlık kayıtlarını ofisine postalamıştır.
AOL, 1998 yılında 12 milyon, 2006 yılında 27 milyon gibi abone sayılarına ulaşabilmiş Amerika’da hizmet veren büyük bir servis sağlayıcıdır. Şirket, 2006 yılında “AOL Research” adıyla yeni bir girişimde bulunarak, AOL arama motorlarındaki 650.000 kullanıcıya ait olan 20 milyon arama sorgu kaydını sitelerinde kamuya ifşa ederek araştırmacıların dikkatine sunmuşlardır. Arama sorguları ifşa edilmeden önce anonimleştirilerek kimlik saptaması yapılabilecek kişisel verilerden arındırılmış ve bunun yerine kullanıcılara numaralar atanmıştır. Ancak kısa zaman içinde araştırmacılar, arama sorguları içindeki ifadeleri takip ederek ve aynı kullanıcı numarasına ait birden fazla sorguyu birleştirdiklerinde birebir kimlik saptaması yapılabildiğini görmüşlerdir. Bu durum önceki bölümlerde çalıştığımız, birden fazla anonimleştirilmiş veri kümesinin birleşiminden ve veri kümelerindeki dolaylı betimleyicilerin kombinasyonlarından orijinal kümenin açığa çıktığı modele güzel bir örnektir.
İfşa edilen sorgu veri kümesinde ‘4417749’ kullanıcı numarası ile yer alan kişi “Lilburn, Ga’daki bahçe düzenleyicileri”, “Gwinnet County Georgia’da satılık göl kenarı parsel”, ve pek çok “Arnold” soyadlı kişiye ait aramalar yapmıştır. Bu üç veri takip edilip Internet üzerinde arama yapıldığında 62 yaşında Lilburn, Georgia’da yaşayan Thelma Arnold isimli kişinin kimliği kolaylıkla saptanmıştır. Thelma Arnold bunun gibi “hissiz parmaklar”, “60 bekar adam”, “her yere işeyen köpekler” gibi özel hayatıyla ilgili pek çok hassas detayı açık eden ve toplumda utanç verici bir konuma düşmesine sebep olacak aramalar da yapmıştır. Kimliği ifşa edilmiş kayıtlar içinde teşhis edildikten sonra kişiye dair bu ve benzeri pek çok hassas veri açığa çıkmış ve kişinin özel alan gizliliği ve kişisel verileri ihlal edilmiştir.
4.5. Veriyi Anonimleştirme Çalışmalarında Önemli Hususlar
Bu bölümde değinilen birçok husus teknik ve içeriksel açıdan ele alınmış olup ancak bu çalışmaların hukuki boyutunun geri kaldığını görmekteyiz. Anonimleştirme süreçlerinin teknik ve istatistiksel çözümler üretiyor olması, konunun yalnızca teknik çerçevesine odaklanılmasına sebep olmuş ve süreç istatistiksel metotların başarı oranlarına odaklanmış bulunmaktadır. Literatüre geçmiş bazı çalışmalarda gizlilik ve fayda kavramının içeriklerine odaklanmış ancak bu içeriğin hukuki tanımı yerine sosyal içeriğini vurgulamıştır. Buna istinaden, bu çalışmada elde edilen en önemli sonuçlardan biri anonimleştirmenin güvenilirliği tartışmasının hukuki olarak ele alınmamış ve anonimleştirmenin genel esaslarının hukuksal bir yaklaşımla belirlenmemiş olmasıdır.
Yasal mevzuatlar incelendiğinde görülmektedir ki, anonimleştirme, silme ve rıza kavramlarıyla ikame olarak ele alınmış ve birbirinin yerine geçebilen süreçler olarak değerlendirilmiştir. Veri yönetimi süreçlerinde verilerin silinmesi kayıtların tüm arşiv ve yedekleme ortamlarından geri dönüşsüz olarak yok edilmesi anlamına gelmektedir. Ancak böyle bir yok etme işlemi, ilişkisel veri tabanlarındaki mimariyi bozacağından sistem yöneticileri verilerin tamamen uçurulması yerine pasif olarak sistemde varlıklarını sürdürmesini tercih etmektedir. Yani veriler zaman içinde ilişkiler kurdukları tablolara, raporlara, veri ambarlarına zarar gelmemesi için tamamen yok edilmez, sistemde pasif olarak tanımlanır. Örneğin mobil operatörüyle aboneliğini sonlandırılmış bir müşterinin veriler, operatörün veri tabanlarından hemen silinemez. Bu durum o müşterinin verilerinin yer aldığı tüm strateji, pazarlama, trafik yönetimi vs. raporlarını bozacak bir eylemdir. Diğer taraftan, kayıtların çok eskimesi halinde verinin tamamen yok edilmesi halinde de o veriye yeniden ulaşmak mümkün olmayacaktır. Her iki durumda da silme işlemi anonimleştirilmiş veri ile denk değildir.
Anonimleştirilmiş veri her daim belli kimlik saptama risklerini barındırmaktadır. Ancak silme işleminin uygulanış şekline göre riskleri değişkendir ve anonimleştirilmiş veri ile bir tutulması yerine silme işleminin de süreçlerinin net şekilde çalışılması gerekmektedir. Benzer şekilde rıza kavramı da farklı dinamiklere sahiptir. Rızası alınan müşteri veya kullanıcının verileri genel bilgi güvenliği kuralları çerçevesinde işlenebilir hale gelmektedir. Ancak burada veri öznesiyle olan ilişkinin kopartılmasına dair bir şart koşulmamıştır. Hâlbuki, veri anonimleştirme süreci pek çok şartı ve hesaplamayı içerir. Rıza alındıktan sonraki süreç açıkça belirlenmediğinden, veri işlem sorumlusu olan işletmeciler veya kurumlar, rızası alınan veri öznesinin verileri üzerinde daha fazla hak iddia edebilmektedirler. Bu anlamda anonimleştirilmiş veri, rızası alınmış veriden daha güvenli hale gelmektedir.
Burada önemli olan, anonimleştirmenin çerçevesinin ve ilkelerinin belirlenmesi ve anonimleştirmeye hukuki bir yaklaşım kazandırılmasıdır. Buna istinaden, anonimleştirmenin ilkelerini şöyle tanımlayabiliriz;
Anonimleştirme tekil bir çözüm olarak ele alınmalıdır: Anonimleştirme ikame bir çözüm olarak değil, uygulama alanı ve sınırları belli bir tekil çözüm olarak ele alınmalıdır. Silme ve rıza gibi farklı dinamikleri olan süreçlerin bir ikamesi olarak ele alınması anonimleştirme süreçlerine karşı hukuki yaklaşımda yanlış algıların oluşmasına sebep olmaktadır.
Anonimleştirme veri kümesinin niceliğine ve niteliğine bağlı gerçekleşmelidir: Anonimleştirme süreçleri anonimleştirmenin uygulandığı veri kümesinden bağımsız olarak ele alınamaz. Burada önemli olan verinin niteliği, hassas ve özel kategorilerde veriler içerip içermediği, veri öznelerinin koruma dereceleri (çocuklar v.s), verinin çeşitliliği ve büyüklüğü, dış veriye olan hassasiyeti konularında değerlendirmelere tabi tutulduktan sonra anonimleştirmenin uygulanıp uygulanmaması gerektiğine ve hangi metodun daha uygun olacağına karar verilmelidir.
Anonimleştirme iş ve çalışma modellerini dikkate almalıdır: Veri sorumlularının ve veri odaklı çalışan tüm ticari ve idari kuruluşların çalışma yöntemleri birbirinden farklıdır. Bu durum kuruluşların veri yönetim süreçlerine, veri politikalarına ve yapılan yatırımlara yansımaktadır. Bu çeşitliğin içinde anonimleştirme süreçleri kuruluşların iş ve çalışma şekillerini dikkate alarak uygulanmalıdır. Bir üniversitenin verilerine istinaden uyguladığı anonimleştirme süreci ile dünya çapında tanınan bir arama motorunun uygulaması beklenen anonimleştirme süreci aynı olamaz. Kuruluşun sahip olduğu veri hacmi, veri yönetimi yatırımları, tabi olduğu güvenlik politikaları, bilinirliği, dış kaynak ilişkileri, yurt dışı bağlantıları gibi iş modelini etkileyen kriterler dikkate alınarak anonimleştirme çözümleri değerlendirilmelidir.
Anonimleştirme seviyelendirilmelidir: Anonimleştirme kuruluşların bilgi güvenliği politikaları nezdinde seviyelendirilmeli ve hangi şartlar altında başvurulacak bir çözüm olduğu netleştirilmelidir. Özellikle şirket içi paylaşımlar söz konusu olduğunda bilgi güvenliği politikaları, yetki profilleri, erişim kısıtları, fiziksel önlemler gibi süreçler dikkate alınarak anonimleştirmenin konumu diğer tüm tedbirler içinde netleştirilmelidir.
Anonimleştirmeye bağlı ihlaller öncül ve ardıl yaptırımlarla denetlenmelidir: Hukuksal yaptırımların sadece öncül ya da sadece ardıl olarak ele alınması anonimleştirme riskleri hususunda eksik yaklaşımlar gelişmesine sebep olacaktır. Yalnızca öncül yaklaşımlar geliştirilmesi, yukarıda incelediğimiz üzere kurumların anonimleştirme metotlarını uyguladıktan sonra yasal yükümlülüklerinden kurtuldukları imajını yaratarak olası bir ihlal durumunda sorumluluk almalarını engelleyecektir. Aynı şekilde fazla korumacı gizlilik politikaları, kurumlar tarafından art niyetli veya dar yorumlanarak özellikle araştırma ve geliştirme süreçlerinin devamlılığı için gerekli olan veri kümelerini paylaşmaktan veya ifşa etmekten kaçınmalarına yol açabilir. Diğer taraftan yalnızca ardıl yaptırımlar uygulanması, zararın oluşmasından sonra sürece müdahale edilmesini gerektirir.
Anonimleştirme muafiyet getirmemelidir: Anonimleştirilmiş verinin “tüm veri koruması ilkelerinden muaf tutulması”, anonimleştirme sürecini yerine getiren işletme veya kurum için veri güvenliğini sağlanmıştır algısını oluşturmaktadır. Halbuki anonimleştirilmiş veri de hassas veriler gibi ayrı bir veri sınıfı olarak algılanmalı ve anonimleştirmenin olası risklerine istinaden de güvenlik önlemleri önemini korumalıdır.
Bölüm Özeti
Anonimleştirme, verinin tipinin ve biçiminin korunarak paylaşılmış büyük veri kümelerinde yer alan veri sahiplerinin kimlik bilgileri ve hassas verilerinin ifşa edilmesini önlemek amacıyla yapılan bir işlemdir. Anonimleştirmede, büyük veriden fayda sağlayabilmek için veri kaybı yapılmalıdır. Ama veri kayıplarındaki artış veri kalitesini düşürür ve bu da veriden sağlanacak faydanın azalmasına sebep olur. O yüzden anonimleştirme işlemi sırasında veri kaybı kabul edilir düzeyde yapılmalıdır.
Anonimleştirme işleminin temel amacı, veriyi paylaşılabilir kılmaktır. Veri anonimleştirme için yaygın olarak kullanılan teknikler ise; veri maskeleme (data masking), takma adlandırma (psuedonymization), genelleme (generalization), veri değiştirme (data swapping), veri bozulması (data perturbation), sentetik veriler (synthetic data) işlemleridir. Veri anonimleştirilmesi sırasında dikkate alınması gereken bazı kriterler olmuştur. Bunlar, verinin niteliği, büyüklüğü, çeşitliği, aktarılacağı tarafın güvenliği vb. durumlar dikkate alınması gereken kriterlerdir.
Anonimliğin bozulması durumu, anonimleştirme işlemi kişisel verilere uygulanan ve kimlik belirleyici özelliklerin yok edilmesi işlemi olduğu için çeşitli müdahalelerle tersine döndürülmesi ve anonimleşmiş verinin yeniden kimlik tespit edici hale dönüşme durumuna verilen isimdir. Anonimliği bozulan veriden kaynaklı kişisel verilerin açığa çıkmasından veri sahiplerine maddi manevi kayıplar yaşatabilir. İtibar riski yaşanabilir.
Kaynakça
[1] Sağıroğlu, Ş. (2017). Büyük Veri Dünyası: Büyük Veri Büyük Etki. (Ed.), SAĞIROĞLU, Ş ve KOÇ, O., Büyük Veri ve Açık Veri Analitiği: Yöntemler ve Uygulamalar içinde (81-97), Grafiker Yayınları, Ankara.
[2] Lugmayr, A., Lugmayr, A., Stockleben, B., Stockleben, B., Scheib, C., Scheib, C., … & Mailaparampil, M. A. (2017). Cognitive big data: survey and review on big data research and its implications. What is really “new” in big data?. Journal of Knowledge Management, 21(1), 197-212.
[3] Proente Web (Son Erişim:20.01.2022)
URL: https://proente.com/big-data-buyuk-veri-nedir/
[4] BeyazNet Web Sitesi. (Son Erişim: 17.09.2019)
URL:https://www.beyaz.net/tr/guvenlik/makaleler/veri_maskeleme_nedir_turleri_nelerdir.html
[5] Terra Bilişim Web Sitesi (Son Erişim: 10.11.202)
URL: https://terabilisim.com/kvkk-veri-anonimlestirme-nedir-nasil-yapilir/
[6] Kişisel Verileri Koruma Kurumu (KVKK), (2017), Kişisel Verilerin Silinmesi, Yok Edilmesi veya Anonim Hale Getirilmesi Rehberi, ISBN: 978-975-19-6807-4

Ders Anlatimi – Video

Ders Anlatimi – Ses
Unite-5 Sunumu – PDF
Online Test – Unite Sorulari

5. AÇIK VERİ

Ders Anlatimi – Video

Ders Anlatimi – Ses
Unite-5 Sunumu – PDF
Online Test – Unite Sorulari
Giriş

Belli alanlarda toplanan ve vatandaşlar ile araştırmacıların kullanımına sunulması amacıyla elde edilen büyük veri kümeleri açık hale getirilir. Bu sebepledir ki, belirli prensipler çerçevesinde veriye erişimi kolaylaştırmayı amaçlayan ve bu sayede ulaşım, sağlık ve haberleşme gibi özellikle son kullanıcıyla etkileşimi yüksek olan sektörler açısından getireceği faydalar da göz önünde bulundurulduğunda, açık veri kavramı büyük önem arz etmektedir.
Açık verinin, ücretsiz ve sürekli erişilebilir olması, yeniden kullanılabilir olması, inovasyon odaklı olması gibi prensipleri başta olmak üzere pek çok prensibi gereği üst düzey kalitede veriye erişimi kolaylaştırması sebebiyle vatandaşlar, kamu sektörü ve özel sektör açısından getirileri olacaktır.
Özellikle enerji kazanımları ve bilimsel gelişim gibi etkilerinin de olacak olması sebebiyle ekolojik açıdan da faydası olacağı, hayat kurtarıcı çözümler üzerindeki etkisi de göz önünde bulundurulduğunda açık veri politikalarının farklı paydaşlara hizmet edeceği belirtilmelidir.
Bu kapsamda, dünyadaki ulaşım, gayrimenkul, sağlık ve hava durumu konularını ilgilendiren örnekler de baz alınarak Türkiye’de, kamu ve özel sektörün katılımıyla açık veriye ilişkin oluşturulacak ekosistemlerin farklı sektörlerin gelişimi için etkili olacağı aşikardır.
5.1. Açık Veriye Giriş
İnsanlığın veri çağı olarak isimlendirdiği dijital dünyanın hızlı bir ilerleme ile yaşantımızın her noktasına sirayet ettiği günümüzde devletler, kurum ve kuruluşlar daha yüksek oranda katma değer içeren hizmetler sunabilmek için veriye dayalı iş modellerini geliştirmektedir.
Büyük veriden ekonomik ve sosyal/kültürel değer yaratmanın en etkili yöntemi veriye erişimin olmasıdır. Bazı veri kümeleri telif hakkı gibi nedenler dolayısıyla istenildiği şekilde kullanılamazken, bazı veri kümeleri ise veriyi işleyecek teknolojik altyapıya uygun yapıda olmamasından kaynaklı olarak kullanılamamasıdır. Bazen de ihtiyaç duyulan veri kümesinin temininin mümkün olmamasıdır. Bu ve benzeri nedenlerden ötürü boyutları üstel olarak artan veri kümelerinin oluşturduğu veri yığınlarını kullanarak basit veya karmaşık problemlere çözüm bulmak her zaman olası olmamaktadır.
Bu türden zorlukları aşma amacıyla ‘açık veri’ (open data) kavramı, tüm dünyada ve ülkemizde veri ekosistemleri içerisinde yer bulmakta ve gittikçe yaygınlaşmaktadır. Bunun sonucunda da açık veri yaklaşımı ile geliştirilen uygulamalar son yıllarda giderek artmaktadır.
“Açık veri, herkesin özgürce ve yeniden kullanabileceği ve yeniden dağıtılabileceği, yalnızca nitelik ve paylaşım gereksinimine tabi olan veridir.”
Açık veri (open data), herhangi bir telif hakkına sahip olmayan, herkes tarafından kullanılabilen, düzenlenebilen ve dağıtılabilen veridir. Veri araştırmacıların odak noktası veriyi bulma, işleme, analiz etme, düzenleme, paylaşma ve görselleştirmektir. Bu amaçlar için kullanılan açık veride kurumların ve devletin şeffaflığı ve katılımı amaçlanır. Açık veri sayesinde kurumlar hem ekonomik hem de sosyal anlamda verimliliklerini artırabilir. Veri herkese açık ve özgürce kullanılabilir olduğunda vatandaşların da farkındalığı artar.
Açık veriler, özellikle de büyük kuruluşlar ile açık hükümet verileri, henüz kullanılmayan, muazzam birer kaynaktır. Pek çok kişi ve kuruluş, görevlerini yerine getirmek için çok çeşitli veri türlerini toplamaktadır. Hem topladığı verilerin miktarı ve merkezciliğinden ötürü, hem de bu verilerinin çoğunun kamuya açık veriler olması ve bu nedenle açık ve diğerlerinin kullanımına sunulması oldukça önemlidir. Açık verilerin değerli olduğu ve örneklerin nasıl kullanılabileceğini önceden tahmin edebileceğimiz birçok alan vardır. Ayrıca kuruluşların kendisi de dâhil olmak üzere açık verilerin kullanılmasından istifade edebilecek birçok farklı grup ve kişi vardır. Aynı zamanda, gelecekte nasıl ve nerede değer yaratılacağını tam olarak tahmin etmek olanaksızdır. Yeniliğin doğası, gelişmelerin genellikle olası olmayan yerlerden geldiğidir.

Şekil 5.1. Büyük veriden açık veriye evrişimi.
Kuruluşların verilerinin değer yarattığı çok sayıda alan vardır:
Katılım
Kendi kendini güçlendirme
Geliştirilmiş veya yeni özel ürünler ve hizmetler
İnovasyon/Yenilik
Verimliliği artırılmış devlet hizmetleri
Şeffaflık ve demokratik kontrol
Devlet hizmetlerinin etkililiğinin iyileştirilmesi
Politikaların etki ölçümü
Birleştirilmiş veri kaynakları ve büyük veri hacimlerindeki modellerden yeni ve anlamlı bilgiler

Şekil 5.2 Büyük ve Açık verinin kazandırdıkları.
Verilerin açık hale getirilmesi sonucu aşağıda belirtilen bazı temel özellikleri bulunmaktadır. Bunlar:
i. Kullanılabilirlik ve Erişim
Veri bir bütün olarak, yeniden üretim maliyetini aşmayacak şekilde, tercihen internet üzerinden indirilebilir ve uygun bir biçimde mevcut olmalıdır.
ii. Tekrar Kullanım ve Yeniden Dağıtım
Veri, diğer veri kümeleri ile karıştırılarak kullanılması dahil olmak üzere, yeniden kullanıma ve yeniden dağıtılmaya izin veren şartlar altında sağlanmalıdır.
iii. Evrensel Katılım
Açık veri ekosistemi veri üreten, yayımlayan ve kullanan paydaşların birlikte çalışabileceği bir ortamdır. Bu ekosistemde yer alan veri, kişilere veya gruplara karşı herhangi bir ayrımcılık yapılmadan herkes için kullanılabilir ve dağıtılabilir olmalıdır.
Veri, aşağıdaki durumları karşıladığında açık veri özelliğini kazanır:
Teknik olarak Açıklık: Makineler tarafından okunabilen (machine-readable) standart yapıya uygunluk sağlamalıdır. Bilgisayar uygulamaları tarafından alınabilmeli ve anlamlı bir şekilde işleme tabi tutulabilmelidir.
Yasal olarak Açıklık: Açık bir şekilde lisanslanmalıdır. Herhangi bir sınırlama olmaksızın, ticari ya da ticari olmayan kullanım ve tekrar kullanıma izin vermelidir.
5.2. Açık Veri İlkeleri
Açık veri kavramı üzerine farklı kurum ve kuruluşların çalışmaları olduğundan, açık veri ilkelerinin neler olduğu ve içeriklerinin ne şekilde detaylandırılacağına dair literatürde farklı görüşler yer almaktadır. Bu farklı görüşler arasında kabul edilmiş olan ilkeler şunlardır:
a. Ücretsiz ve sürekli erişilebilirlik: Açık veri kapsamına giren bilgiler herhangi bir telif hakkı, patent, erişim alanını daraltan lisanslar veya bunların dışında kalan ama kullanımı kısıtlayan farklı bir unsura tabi olmamalıdır. Bu anlamda açık veri kavramı, erişime sınırsız bir şekilde açık olan veridir. Bu durum, açık verinin kullanımı yaygın cihazlar ve dosya tipleri üzerinden erişime açık olması gerekliliğini de içerir. Aksi takdirde açık verinin erişilebilirliği azalır ve söz konusu veri “açık” olma özelliğini kaybetmeye başlar. Açık veri olarak tanımlanan bilgiler, dileyen herkesin erişimine ücretsiz ve dolayısıyla eşit şekilde açık olmalıdır.
b. Yeniden kullanılabilir ve paylaşılabilirlik: Açık veriler sınırsız kullanım özelliği taşıdıklarından bu verileri edinen kişiler, herhangi bir izne tabi olmaksızın söz konusu bilgileri başkalarıyla paylaşabilir ve yeniden kullanabilir.
c. İnovasyon odaklılık: Sosyal ve ekonomik yönden toplum faydasını amaçlayan açık veriler, toplumsal ve kurumsal yapıların ihtiyaçlarına cevap veren inovatif çözümler sunmalıdır. İnovatif açık veri, tarımsal verimliliğin artırılmasına ilişkin olduğu gibi küresel iklim değişikliğiyle mücadeleye dair bir veri de olabilir, yani birbirinden çok farklı birçok alanlarla ilişki halindedir. Ölçeği de buna bağlı olarak ulusal ya da küresel fayda üzerine olabilir. Açık veri özel sektör ve sivil toplum kuruluşlarıyla yapılan işbirlikleri yoluyla her iki ölçekte de toplumsal ve ekonomik faydayı en üst düzeyde tutmayı amaçlar.
d. Kapsayıcılık: Açık veriler belli bir konuyla sınırlandırılmayacak şekilde geniş bir alana yayılır. Açık veriler, haritalar, meteorolojik tahminler, yasalar, trafik bilgileri, mali tablolar, ekonomik görünümler, finans sektörüyle ilgili veriler vb. birçok farklı alanı kapsayabilir. Bu kapsayıcılık beraberinde açık verinin çok yönlü olma özelliğini de getirir. Gerçekten üst düzey kalitede ve başka verileri besleyen açık verilerden yararlanılmasının yanı sıra, ortak ve genel geçer bir açık veri politikasıyla hareket edilmesi halinde bu etki katlanarak artabilir. Kapsayıcılık ilkesi, açık verinin daima eksiksiz olması anlamına da gelir.
e. Şeffaflık ve hesap verilebilirlik: Kâr amacı gütmeyen bir yapıya sahip olan açık veriler, kamu kurumlarının şeffaf ve buna bağlı olarak hesap verebilir bir halde olmasında etkilidir. Böylece demokratik altyapıyı güçlendirir, çoğulcu ve katılımcı işleyişe ise genellikle doğrudan katkıda bulunur. Ayrıca, elde edilecek yeni geri bildirimler sayesinde hizmet kalitesi de yükselir. Bütün bu sürecin sağlıklı işleyebilmesi için karar mekanizmalarının doğru şekilde kurulması oldukça önemlidir.
f. Güncellik: Açık verinin değeri, son kullanıcıya ulaşım hızıyla doğru orantılı olarak artar veya azalır. Bu nedenle verinin değerini korumak adına, bu veriden yararlanacak kişilere ve kurumlara, yani toplumsal tabana olabildiğince zamanında ulaşmalıdır.
g. Standartlaşma: Açık veri elde etme sürecinde, bilgiye dönüştürülecek veriler toplanırken açık standartlar belirlenmelidir. Hatta ilk hedef, bu standartların uluslararası normlar kıstas alınarak ortaya konulması olmalıdır. İlgili verinin yayınlanmasında da mevcut protokoller korunup gerekiyorsa geliştirilmeli ve verinin yeniden kullanımı için yeni politikalar oluşturulmalıdır. Açık verilerin standardizasyonunda üretilecek verinin kısa ve uzun vadelerde çeşitli pazarların yararına sunulabilecek potansiyel taşıması, kamu sistemlerine uyumlu olması ve paydaşlarla etkileşime girebilmesi gibi çeşitli hususlar da göz önüne alınmalıdır.
h. İşlenebilirlik: Açık veri aynı zamanda toplumun doğrudan kendisinden edinilmiş ham veri olduğu için işlenebilirliği de yüksek olan veri anlamına gelir. Diğer bir deyişle, her açık veri daha gelişmiş açık verilere bir temel sağlar ki, bu da toplumsal açıdan birikimli ilerlemenin yolunu açar. Bu sebeple açık veriler, analizi teşvik eden ve yeniden kullanılabilecek şekilde sunulan verilerden oluşmalıdır.
5.3. Açık Verinin Faydaları
Açık veri ile çalışmanın hem hükümetler hem özel sektör açısından çok yönlü faydaları bulunmaktadır. Açık veri, hükümetlerin/özel kuruluşların şeffaflık ve hesap verilebilirliğini arttırdığı gibi vatandaşların/çalışanların toplumsal katılımı için önemli bir araç haline gelmektedir. Özel sektör açısından değerlendirildiğinde yeni iş modellerinin ve ekonomik değerin yaratılması açık verinin en önemli faydaları olarak öne çıkmaktadır. Açık verinin kamu ve özel sektör açısından faydalarını aşağıdaki temel başlıklarda toplamak mümkündür.
Halihazırda kullanılmış olan veya kullanılan verilerin açık veri haline getirilmesi sonucunda açık veri sadece onu üreten ve toplayanlar ile sınırlı olarak kullanılmayacak olması; bu sayede bu veriyi kullanan farklı paydaşlar tarafından yenilikçi çözümlerin üretilmesi.
İdareler ve organizasyonlar arasında açık veri kullanımının arttırılması, verinin tek kaynaktan açık şekilde kullanılması ve verinin sektörler arası çapraz kullanımı sayesinde maliyetlerin düşmesi ve etkinliğin artması.
Özel sektör tarafından kamu idarelerine yardım amacıyla verinin nasıl haritalanacağına veya yayınlanacağına ilişkin yapılan veri harmanlama çalışmaları ile veri kalitesinin arttırılması ve veri alanında yapılacak kullanımlar için bir zemin oluşturulması.
Kaliteli ve ihtiyaca yönelik verinin açık veri olarak kullanımıyla beraber hem müşterilerin hem de iş dünyasına içgörü sağlanması sonucunda yeni iş modellerinin yaratılması.
Açık verinin hesap verilebilirlik ve şeffaflık sağlaması nedeniyle açık veriyi paylaşan kamu veya özel sektör aktörlerinin tüketici nezdinde güven kazanmaları.
Açık verinin son kullanıcı açısından faydalarını; zaman kazanımı, çevre, sağlık, enerji, güvenlik ve bilimsel çalışmalar anlamındaki faydaları olarak daha somut bir şekilde örneklendirmemiz de mümkündür;
a. Zaman kazanımı
Zamanının artan değeri göz önüne alındığında, açık verinin insanların gündelik yaşamına sağladığı en büyük verimliliğin zaman kazanımı olduğu söylenebilecektir. Özellikle büyük şehirlerde vaktinde gelmeyen toplu taşıma araçları ve yaşanan trafik sıkışıklıkları insanların zamanlarını verimli kullanmalarını engellemektedir. Oysaki toplu taşıma araçlarına ait zaman çizelgelerine, trafiğin sıkışık olduğu saatlere vb. verilere rahat ulaşabilmesine bağlı olarak insanların yolda geçirdikleri zaman azaltılarak insanlara zaman kazanımı sağlanabilir. Bu amaçla toplu taşımaya ilişkin verilerin açılarak, uygulama geliştirmede kullanılması söz konusudur.
Örneğin, Polanya’da geliştirilen ‘Warszawski Ninja’ isimli bir uygulama ile, toplu taşıma aracı kullanan vatandaşların yoldaki problemler ve gecikmeler hakkında bilgi sahibi olması sağlanmaktadır. Bu sayede vatandaşlar alternatif yolları tercih edip yolda geçirdikleri süreleri kısaltabilmektedir. Ülkemizde de benzer olarak, İstanbul Elektrik Tramvay ve Tünel İşletmeleri Genel Müdürlüğü’nün uygulaması olan Mobiett ile, duraklardan hangi otobüslerin ne zaman geçeceği gerçek zamanlı olarak görüntülenebilmektedir.
b. Çevre üzerindeki etkisi
Açık verinin çevresel sürdürülebilirlik üzerinde doğrudan etkileri olduğu belirtmektedir. Bu etkiler aşağıdaki gibi sıralanabilir;
Çevre kirliliği hakkındaki bilgilere erişimin kolaylaşması,
Enerji verimliliğinin detaylı bir şekilde gözlemlenebilmesi,
Çevre koruma kampanyalarının yaratılması için temel oluşturulması.
Sera etkisi ve iklim değişikliği günümüzde en çok endişe edilen konuların başında gelmektedir. Devletler bunların toksik etkilerinin azaltılabilmesi için yeni yollar aramaktadır. Açık verinin, bu zararlı etkilerin sağlık açısından riskler oluşturduğu alanlar hakkında detaylı bilgiler edinilmesini sağlayarak, bu zararlı etkilerin azaltılması için kullanılabileceği belirtilmektedir.
Bu amaçlarla paralel olarak geliştirilen, “Plume Labs” isimli bir uygulama ile, dünyadaki 60 şehrin hava kirliliği seviyeleri saatlik olarak takip edilebilmektedir. Uygulama Airparif gibi farklı ajanslar tarafından kamuya açılan açık verileri kullanarak, kirlilik seviyelerini “kritik” veya “zararlı” olarak gösterilmekte ve hava kirliliği konusunda farkındalık yaratılmaktadır.
c. Hayat kurtarıcı çözümler üzerindeki etkisi
i. Trafik kazalarındaki ölüm oranının azalması: Dünya Sağlık Örgütü (“DSÖ”) Küresel Yol Güvenliği 2018 raporuna göre, dünyada her yıl yaklaşık 1 milyon 350 bin insan trafik kazalarında hayatını kaybetmektedir. Açık verinin kullanımı ile ölüm ile sonuçlanan trafik kazalarının büyük oranda engellenebileceği dile getirilmektedir.
Örneğin, kazaların nerede ve hangi zamanlarda olabileceğini tahmin edebilen yazılımlar geliştirilebilmektedir. Yine bu amaçla geliştirilen “Lifesaver” isimli bir uygulama, kişinin araba kullandığını tespit ettiği anda telefonu otomatik olarak kilitlemektedir.
ii. Sağlık hizmetlerinin kalitesinin arttırılması: Tüm Avrupa ülkelerinin açık veri portallarında ayrı bir sağlık bölümü bulunduğu ve diğer veri setlerine kıyasla sağlıkla ilgili verilerin en çok indirilen veriler olduğu belirtilmektedir. Sağlık verilerinin açılmasıyla, sağlık hizmetlerinin kalitesi hakkında bilgi sahibi olunabileceği ifade edilmektedir. Bununla birlikte, Amerika’da yapılan bir hesaplamaya göre, özel sağlık veri tabanlarının açılmasıyla, sadece Amerika’daki 90.000 kişinin kalp krizi geçirmesinin önüne geçilebileceği ve 25.000 kişinin ölümünün engellenebileceği belirtilmektedir.
Açılan sağlık verileri kullanılarak, ilk yardım noktalarının nerede olması gerektiği tespit edilebilmekte, bu sayede de özellikle kalp durması kaynaklı ölümlerin gerçekleşmesi önlenebilmektedir. Ayrıca, bir hastalığının her bir hastanedeki görünme ve tedavi oranlarına ilişkin verilerin açılması, bu hastalığın tedavisinde daha başarılı olan hastanelerden tedaviye dair bilgi paylaşımı yapılmasını ve bu şekilde hastalığın tedavi oranlarının azaltılmasını sağlayabileceği belirtilmektedir.
Birçok farklı ülkede açık veri kullanan uygulamalar ile acil durumlara müdahale süresi azaltılabilmekte ve hastaların hayatta kalma oranları arttırılabilmektedir. Hayat kurtarma oranı en yüksek olan uygulamaların kalp durması kaynaklı ölümlere odaklandığı ifade edilmektedir. Bilindiği gibi, kalp durmalarının kişinin hayatı üzerindeki etkileri ilk yardımın zamanlamasına bağlı olarak değişmektedir. Bu uygulamalardan olan Amerika’daki PulsePoint, hastanın konumuna yakın kalp masajı konusunda eğitimli kişileri ve en yakın ilk yardım alabileceği yerleri işaretlemektedir.
iii. İtfaiye hizmetlerinin gelişimi: İtfaiye çalışanları için olaya müdahalede tercih edecekleri yolun uygunluğu, olay yerindeki binalarda tehlikeli maddelerin bulunup bulunmadığı gibi veriler, karar verme aşamaları için kritik önemdedir. Bu verilen açılmasıyla itfaiye ekiplerinin, riskler ve gerekli olan ekipmanlar hakkında daha iyi muhakeme yapabileceği belirtilmektedir. Bu sayede de karşılaşılabilecek riskler, bu bilgilerin gerçek zamanlı olarak erişebilir olmasıyla azalabilmekte ve yangında mahsur kalan kişilerin kurtulma olasılığı artabilmektedir.
d. Enerji kazanımı
Çevre koruma perspektifinden bakıldığında her bir aile, enerji tüketimlerini ölçümleyip azaltarak açık veriden yarar sağlayabilecektir. Tüm hane halklarının enerji tüketimleri gösterildiğinde ve benzer hane halklarıyla karşılaştırma yapılabildiğinde farkındalığın artacağı belirtilmektedir. Ayrıca bireylerin, ortalama hane halklarıyla karşılaştırma yaptığında kendi enerji tüketimlerini azaltmaya yöneldikleri ve bu sayede daha az tutarlı fatura ödedikleri gözlemlenmiştir. Avrupa Veri portalının raporuna göre açık veri kullanılarak enerji tüketiminin %16 azaltılabileceğini hesaplanmıştır. Bu durum sadece bireyler için değil aynı zamanda özel ve kamu sektöründeki kuruluşlar için de geçerlidir.
e. Güvenliğe katkıları
Verinin açılması sadece sağlık sektörüne fayda sağlamamakta, insan hayatını tehlikeye atabilecek olaylar engellenebilmektedir. Örneğin LuckyMe isimli uygulama, kullanıcılarının soyguna veya saldırıya uğrama risklerini bulundukları ortama göre puanlamaktadır. Kullanıcılar bu uygulama ile örneğin karanlık bir sokağa girmeden önce, sokağın risk oranını ölçebilmektedir. Ayrıca uygulama sayesinde kullanıcılar da, yaşadıkları olayları (soygun, kavga vb.) raporlayabilmekte veya bir konum hakkında kendi sübjektif hislerine göre puanlama yapabilmektedir.
f. Bilimsel gelişim
Özellikle üniversite bünyelerinde yapılan araştırmaların, tezlerin veya raporların kamuya açılması, ilgili konu hakkında çalışan kişilerin bunlardan yararlanarak bilimsel gelişimi desteklemesini sağlamaktadır. Ülkemizde de “ulusal tez merkezi” altında birçok konu hakkında yazılan tezlere ulaşılabilmektedir.
Açık veri denildiğinde tüm dünyada hükümetlere ait verilerin yine hükümet organizasyonlarına veya özel sektöre açılması anlaşılsa da açık veri kavramı özel sektöre ait verinin açılması durumunu da içermektedir. Bugün özel sektörün elinde en az hükümetler kadar önemli veri setleri bulunmaktadır. Hükümetlerin ve özel sektörün ellerindeki veri setlerinin açık veri haline getirilerek değiş tokuş edilmesi durumunda veriden elde edilecek faydalar artacaktır. Buna birkaç örnek verecek olursak;
i. 2020 yılına kadar dünyada neredeyse 3 milyar insanının akıllı telefonu olması beklenmektedir. Bir kriz anında bu telefonlarda konum belirleme (lokasyon) verisi paylaşılması bireylerin şehir içerisinde nasıl hareket ettiğini ortaya koyacak, dolayısıyla kriz yönetimi kolaylaşacaktır,
ii. Dünyanın etrafında 1000’in üzerinde uydu bulunmaktadır. Bu uydulardan dünyanın çeşitli bölgelerinin yol durumlarına, elektrik kullanımına vb. unsurlara dair alınan veriler dünyanın ekonomik gidişatı ve aktivitesi hakkında fikir verebilecektir,
iii. Her saniye 6000’in üzerinde tweet atılmaktadır; bu tweetlerin analiz edilmesiyle hükümetler vatandaşlarına daha iyi hizmetler sunabilecektir.
Bunun yanında halihazırda özel sektör verisinin açık veri olarak paylaşılması hem özel sektörün hem hükümetlerin kararlarını diğer kaynaklardan aldıkları veri setleri ile birleştirerek veri analitiği temelli yapmasını sağlayacaktır. Bugün veri temelli karar alma mekanizmalarını benimseyen şirketlerin %5-6 daha verimli ve etkili çıktı ile doğuran kararlar alındığı bilinmektedir. Özel sektör özelinde verilerin hükümetlere, özel sektöre veya vatandaşlara açılmasının faydalarını aşağıdaki temel başlıklar altında toplamak mümkündür;
Hukuki ve regülatif yükümlülüklerin yerine getirilmesi,
Veri ile ilgili hizmetlerin sunulması,
Hükümet özel sektör birlikteliğini desteklemek,
İşbirliğini geliştirmek ve işbirlikçi inovasyonu desteklemek,
Güven yaratmak ve tanınırlığı arttırmak,
Şeffaflık ve yolsuzluğu engelleyici önlemler almak,
Müşterilerle ilişki kurabilmek için platformalar yaratmak.
5.4. Dünyada Açık Veri Örnekleri
Bugün dünyada birçok merkezi ve yerel yönetim kamu veri kümelerini toplumun tüm kesimlerinin erişimine açarak açık devlet (open government) yaklaşımıyla yönetişimlerini açıklık, şeffaflık, hesap verilebilirlik, iş birliği, katılımcılık, karşılıklı etkileşim ilkeleri çerçevesinde şekillendirmektedir.
Açık devlet olabilmek için öncellikle kişisel verilerden, ticari sırlardan ve gizli devlet verilerinden arındırılmış, güncelliği sağlanmış, kamu kurum ve kuruluşları tarafından üretilmiş veri kümelerinin; herhangi bir kısıtlama olmadan açık lisanslar kapsamında, makine tarafından okunabilir formatlarda, toplumun her kesimi tarafından özgürce kullanılabilen ve dağıtabilen açık devlet verisi (open government data) haline dönüştürülmesi gerekmektedir. Dünyada başarılı açık veri amaçları ile kurulan kuruluşlar şöyle sıralanabilir [1,2]:
i. Uluslararası Açık Bilgi (Open Knowledge International, OKI). Nisan 2014 tarihine kadar Açık Bilgi Vakfı (Open Knowledge Foundation, OKF) olarak bilinen Uluslararası Açık Bilgi organizasyonu Rufus Pollack tarafından 24 Mayıs 2004 tarihinde Birleşik Krallık’ta kurulmuştur.
ii. Web Vakfı (World Wide Web (WWW) Foundation). Tim Berners-Lee tarafından 14 Eylül 2008 tarihinde Washington’da duyurulan Web Vakfı 15 Kasım 2009 tarihinde çalışmalara başlamıştır.
iii. Açık Devlet Ortaklığı (Open Government Partnership, OGP). 20 Eylül 2011 tarihinde Birleşmiş Milletler Genel Kurulundan 8 ülke tarafından kurulmuştur.
iv. Global Açık Veri İnisiyatifi (Global Open Data Initiative, GODI). 11 Haziran 2013 tarihinde 5 farklı organizasyon tarafından açık veri dünyasındaki eş güdümü sağlama amacıyla kurulmuş bir ortaklıktır.
v. Açık Veri İzleme (Open Data Watch). 2013 yılında kalkınma verisi uzmanları tarafından kurulmuştur.
vi. Kalkınma İçin Açık Veri (Open Data for Development, OD4D). 2011 yılında çalışmalara başlayan Kalkınma İçin Açık Veri oluşumu dünyada sürdürülebilir açık veri ekosistemlerinin oluşturulmasına destek olması için kurulmuş bir ortaklıktır.
Açık veri platformlarına ve kullanım alanlarına ilişkin olarak dünyada birtakım uygulamalar öne çıkmaktadır. Trafik verileri, nüfus verileri, sağlık verileri, emlak verileri gibi kamu elinde bulundurulan veriler üzerinden hayata geçirilmiş açık veri projelerinin niceliğinin yüksek olması nedeniyle, işbu rapor tahtında yer verdiğimiz örnekler de kamu sektörü altında yoğunlaşmıştır. Bu sebeple, bu başlık altında yer verdiğimiz uygulama örnekleri, sektörden ziyade konu bazında sınıflandırılmıştır:
i. Sağlık:
eHealth Ireland, İrlanda Sağlık sektöründen toplanan tüm verilerin bir araya getirildiği bir platformdur. Platform, birçok veri sağlayıcının yanı sıra, temel olarak Sağlık Bakanlığı ve Ulusal Sağlık Projesi tarafından sunulan açık veriyi kullanmaktadır. Söz konusu veri, en yakın ulaşılabilir sağlık servisleri, hastane vakalarına ilişkin istatistikler, ulusal bekleme listesi, sağlık müdahalelerinde ödenen ortalama ücretler vb. istatistikleri bir araya getirmektedir.
ii. Gayrimenkul:
NestReady, Kanada’nın uygulamalarına örnek teşkil eden NestReady, konut, inşaat ve emlak sektöründe faaliyet gösteren bir internet sitesidir. İlgili site, Kanada Nüfus Sayımı verileri ve ABD Nüfus Sayımı Bürosu’nun demografik verileri, Kanada Eğitim Bakanlıklarının eyalet düzeyinde eğitim verileri ve ABD Jeoloji Araştırması verilerini toplayarak konut arama maliyetlerini kişi özelinde özelleştirmekte ve bu maliyetleri azaltmaktadır. Ev satın alma işlemlerinde emlak şirketleri gibi aracıları aradan çıkartarak zamandan ve maliyetten tasarruf sağlamaktadır.
Rentsquare internet sitesi, bir bölgenin ne kadar tercih edildiğini ve genellikle ilgili bölgedeki kira fiyatlarının ne olduğunu analiz etmek için belediye verilerini toplamaktadır. Aynı veriler, ev arayan kişi sayısını ve hangi bölgelerde evlerin boş olduğunun belirlenmesinde kullanılmaktadır. Uygulama ile kiracılar uygun fiyatlı evleri bulabilmekte ve kiralarını çevre bölgelerin kira bedelleriyle karşılaştırabilmektedir.
iii. Ulaşım:
Waze, 2008 yılında 40 farklı dilde geliştirilmiş ve Hollanda Ulusal Trafik Bilgileri Veri Ambarı tarafından sunulan verileri kullanarak oluşturulmuş bir uygulamadır. Uygulama kullanıcılara gerçek zamanlı trafik ve yol bilgileri sunmakta olup, kullanıcılar gitmek istedikleri yer bilgilerini uygulamaya girerek, en uygun yol seçimi konusunda uygulama tarafından yönlendirilmektedirler. Ayrıca, kullanıcıların da sisteme veri sağlaması mümkün olmakta, kullanıcılar yolda karşılaştıkları kazalar ya da yapım çalışmaları gibi durumlar hakkında uygulamaya veri sağlayabilmektedirler.
Trafikkflyt, Norveç’ten çıkan bir uygulama olan Trafikkflyt ile Ulusal Kamu Yolu İdareleri’nden alınan bilgiler trafik yoğunluğuna ilişkin haritaların oluşturulmasında kullanılmaktadır. Gerçekleşmiş kazalar ve diğer trafik olayları insanların yoğun trafik bölgelerinden kaçınabilmeleri için bir haritada listelenmekte ve işaretlenmektedir. Uygulama ile daha iyi bir trafik akışı amaçlanmaktadır.
Tarktee yol, hava ve planlanan yol çalışmalarını dikkate alarak seyahat önerileri sunmakta ve daha verimli seyahat rotaları oluşturmaktadır. Uygulama ile açık veriler yol koşullarıyla eşleştirilmekte ve bu bilgiler seyahat tavsiyelerine uyarlanmak için kullanılmaktadır.
Predina, trafik kazalarına ilişkin risk faktörlerini analiz etmek adına açık kaza verilerini analiz etmektedir. Predina ayrıca risk faktörlerini kullanıcıya özel olarak ayarlamak için kullanıcı verilerini toplamaktadır. Bu sayede uygulama, kişisel verileri, sürüş stili verilerini geçmiş kaza verileriyle birleştirerek sürücü için en güvenli yolu belirlemektedir. Ayrıca Predina, herhangi bir sürücü için trafik kazası riskini azaltmak için yapay zeka teknolojisini kullanmaktadır.
iv. Hava Durumu
Meteo Protect, hava durumu risk yönetimine ilişkin bir sigorta ve reasürans brokeridir. Kurum, hava durumu verilerinin takibinde, hava durumu ve uydu bilgileriyle ilgili açık verileri kullanmaktadır. Bir sigorta hizmeti olan Meteo Protect, şirketlere ilişkin risklerin belirlenmesi için şirket başına hava durumu endeksi oluşturmaktadır. Hava şartları işletme kârlarını olumsuz yönde etkilediğinde veya ek maliyet oluşturduğunda açık veriden elde edilen bilgilere göre oluşturulan sigorta zararları karşılamaktadır.
v. Araştırma Altyapısı
Data.Gov, ABD hükümeti tarafından, iki farklı açık kaynak uygulamaları vasıtasıyla oluşturulan bir açık veri platformudur. Sağlık, iklim, ekosistem, eğitim, yerel yönetim, üretim, tarım, enerji, finans, kamu sağlığı, denizcilik ve bilim alanlarında verilere erişim sağlamakta olan platforma; federal, eyalet, yerel ve federal yönetime tabi olan kabile yönetimlerinin verileri kaynak oluşturmaktadır. Oluşturulan platform aracılığıyla kullanıcılar veri araması yapmak suretiyle kamu verilerine erişim sağlayabilmekte olduğundan, data.gov uygulamasının, açık veri platformları arasında en geniş kapsamlı örnek olduğu söylenebilmektedir.
OpenAIRE, Avrupa’da açık bursa geçişe önderlik eden ve bilimsel iletişimde açıklığı kolaylaştıracak bir AB kuruluşudur. Gerçek bir e-Altyapı olan OpenAIRE, AB bölgesinde açık bursu teşvik etmektedir ve bilimsel disiplinler ve tematik alanlarda, Avrupa’da ve sınır ötesindeki araştırma sonuçlarının bulunabilirliğini, erişilebilirliğini, paylaşıla bilirliğini, yeniden kullanılabilirliğini, yeniden üretile bilirliğini ve izlenmesini geliştirmektedir.
InstaVIN, araba satın alacakların, satın almak istedikleri araba ile ilgili bilgilerini artırmayı amaçlayan bir internet sitesidir. İlgili site çalıntı araçlar hakkında bilgi almak için ABD Adalet Bakanlığı ve kolluk kuvvetlerinden ilgili verileri toplamaktadır ve bu bağlamda bir arabanın durumu hakkında araç geçmişi verilerini kullanarak rapor oluşturmaktadır.
Quandl, gerçek zamanlı piyasa verilerini toplayan bir açık veri platformudur. 400.000’in üzerinde kullanıcıya finansal, ekonomik ve sosyal veri depoları havuzuna ücretsiz erişim sağlamaktadır. İlgili uygulama, aşağıdakiler de dahil olmak üzere birçok ülkenin resmi kurumlarından ekonomik veri ve endeksleri, sanayi, para, emtia ve faiz verilerini toplamaktadır, bu kurumlara ABD Uluslararası Kalkınma Ajansı, İsrail Bankası, Brezilya Coğrafya ve İstatistik Enstitüsü, Arjantin Merkez Bankası, Japonya Maliye ve Banka Bakanlığı örnek gösterilebilir. İlgili uygulama, ekonomi alanında çalışan profesyonellerin ve analistlerin veri aramak, veri temizlemek veya veri dönüştürmek gibi işlemlerde vakit kaybetmemelerini sağlamaktadır.
London Open Workspaces Map internet adresi, haritada mevcut çalışma alanlarının konumlarını tanımlamak için coğrafi veriler gibi açık veriler ile çalışma alanlarının kullanılabilirliği ve sağladıkları hizmetler hakkındaki verileri kullanır. London Open Workspaces Map, Londra’da yer alan kuluçka merkezleri, ortak çalışma alanları, start-up çalışma alanları ve sanatçı stüdyolarının tespitinde kılavuzluk yapmaktadır. Harita, kullanıma açık yaklaşık 330 çalışma alanının konumlarını ve içeriklerini işaretlemektedir.
Explore UK, coğrafi veriler ve suç oranları ve yoksulluk hakkındaki resmi veriler gibi açık verileri kullanmaktadır. Bu verileri etkileşimli bir harita oluşturmak için kullanmakta ve böylece ticari satış, web uygulamaları veya dahili kullanım için raporlar oluşturmaktadır. İlgili uygulama, Birleşik Krallık’ın herhangi bir yerinde taşınmaz satın almak veya kiralamak isteyenler için yararlı bir web uygulamasıdır. Platform; ulaşım, eğitim, çevre, suç ve nüfus istatistiklerini bir araya getirerek, interaktif bir harita üzerinde bölgeleri birbirleriyle kıyaslamaya olanak sağlamaktadır. Kişi harita üzerinden istediği bölgeye tıklayarak o bölge hakkındaki tüm bilgilere tek elden ulaşabilmektedir.
Grow London, Londra Belediyesi tarafından geliştirilmiş bir uygulama olup, nüfus, büyüme, işsizlik oranları, kiralık ve satılık bedelleri, semt bazında ticari özellikler, ulaştırma şebekesi ve daha birçok bilgiyi içermektedir. Bu uygulama ile Londra’da iş kurmak ya da Londra’ya herhangi bir şekilde yatırım yapmak isteyen tüm firmalara ihtiyaç duyacakları tüm bilgileri sunarak, kritik kararlar almaları aşamasında yardımcı olmak hedeflenmektedir.
Riigiteenused internet sitesi, Estonya hükümetinin Mart 2016’dan bu yana yayınlanmış açık veri hizmeti istatistiklerini kullanmaktadır. Sunulan istatistikler arasında kamu hizmet işlemlerinin sayısı, hizmet kanallarının türü ve ortalama memnuniyet durumu yer almaktadır. İlgili site, Estonya devlet hizmetlerinin kullanımı ve performansı hakkında kurumlar ve vatandaşlar arasındaki bağlantıda şeffaflık sağlamaktadır. Hangi devlet kurumlarının iyi hizmetler sunduğunu ve hangilerinin gelişmesi gerektiğini açık verilerin analizini yapmak suretiyle göstermektedir.
Open Oil, hükümet kaynaklarından, STK’lardan ve petrol şirketlerinden elde edilen açık verileri kullanmaktadır. Veriler biçimlendirilir, görselleştirilir ve kamuya duyurulur, böylece petrol şirketi ağları ve petrol, gaz ve madencilik projelerinin finansal modelleri daha şeffaf hale gelir. İlgili program petrol sözleşmeleri ve şirketleri ile ilgili bilgileri kolayca erişilebilir kılmaktadır. İnternet sitesi, kurumsal petrol şirketi ağlarını ve şeffaflığı arttırıcı faaliyetleri görselleştirmektedir.
vi. Sanat
The Albert Kahn Departmental Museum, müzedeki farklı sanat eserleri hakkında etkileşimli bir harita oluşturmak ve ziyaretçilere müzede yer alan eserlere ilişkin bilgi sağlamak için açık veri ve coğrafi verileri toplamaktadır. Müzenin internet sitesinde, kullanıcıların bir sanat eserinin hangi ülke, bölge veya ilde olduğunu görmek için tıklayabilecekleri etkileşimli bir harita bulunmaktadır.
5.5. Ülkemizde Açık Veri Örnekleri
Türk mevzuatında “açık veri” ibaresine açıkça yer verilen herhangi bir kanun, yönetmelik veya tebliğ bulunmamaktadır. Ancak Türkiye 2011 yılından bu yana açık veri anlamında birtakım çabalar sarf etmiştir. Açık Veri Dizininin 2013 yılı sonuçlarında yer almayan Türkiye, 2014 yılı sonuçlarına göre 97 ülke arasında 30. sırada, 2015 yılı sonuçlarına göre 122 ülke arasında 47. sırada, 2016 yılı sonuçlarına göre 94 ülke arasında 45. sırada yer almaktadır. Ülkemizde açık veri üzerine örnek çalışmalar şöyle özetlenebilir:
a. Resmi İstatistik Portalı
Resmi İstatistik Programı (“RİP”), resmi istatistiklerin üretimine ve yayımına ilişkin temel ilkeler ile standartları belirlemek, ulusal ve uluslararası düzeyde ihtiyaç duyulan alanlarda güncel, güvenilir, zamanlı, şeffaf ve tarafsız veri üretilmesini sağlamak amacıyla 5429 sayılı Türkiye İstatistik Kanunu’na dayanılarak beşer yıllık dönemler için hazırlanmaktadır. RİP kapsamında TÜİK ve Programa dahil tüm kurum ve kuruluşlarca üretilen istatistiklerin, Türkiye istatistik sistemine ilişkin bilgilerin ve gelişmelerin kamuoyuna internet üzerinden tek kapıdan sunumunu gerçekleştirmek amacıyla RİP Portalı hazırlanmış ve 2014 Mart ayında kullanıcıların hizmetine sunulmuştur. Bu portal üzerinden resmi olarak sağlanan tüm istatistiklere açık erişim sağlanabilmektedir.
b. T.C. Tarım ve Orman Bakanlığı Açık Veri Portalı
Bakanlık tarafından yönetilen ve üretilen verilere hızlı ve kolay erişimin sağlanması amacıyla hazırlanmış bir portaldir. Veri setleri; “sınırlar”, “arazi örtüsü”, “korunan alanlar” ve “su” olarak ayrıştırılmıştır.
c. TÜBİTAK Açık Arşivi
Türkiye Bilimsel ve Teknolojik Araştırma Kurumu (“TÜBİTAK”), “TÜBİTAK Açık Bilim Politikası” uyarınca, kendisi tarafından yürütülen veya desteklenen projelerden üretilen yayınlar (hakemli makaleler vd.) ile araştırma verilerinin TÜBİTAK Açık Arşivinde depolanmasını ve bu sayede bu verilere açık erişim sağlanmasını hedeflemektedir. TÜBİTAK Açık Arşivi Aperta adıyla geliştirilmektedir. Aperta kapsamına giren bilimsel çalışmalar, bu portala yüklenebilmekte ya da yüklenmiş çalışmalara kolayca erişilebilmektedir.
d. Açık Veri ve Açık Veri Gazeteciliği Derneği
28 Aralık 2015’te kurulan Açık Veri ve Veri Gazeteciliği Derneği (“AVVGD”) veri okuryazarlığı alanında çalışmalar yürütmektedir. AVVGD’nin en önemli çalışmalarından birisi Gazeteciler Cemiyeti ekibiyle birlikte oluşturduğu “Açık Veri Sözlüğü”dür. Çalışma kapsamında açık veri ve beraberinde gelişen yabancı terimler Türkçe ’ye kazandırılmıştır. Açık Veri El Kitabı (Open Data Handbook) kaynağından yararlanılarak hazırlanan “Açık Veri Sözlüğü”, açık veri ve veri gazeteciliği terimlerini öğrenmek isteyen, merak edenler için rehber niteliği taşımaktadır.
e. T.C. Sağlık Bakanlığı Açık Veri Portali
T.C. Sağlık Bakanlığı’nın 2018 yılı faaliyet raporunda Açık Veri Portali’yle ilgili olarak; “açık veri paylaşım ilkeleri, kişisel bilginin güvenliği / mahremiyeti gözetilerek kamu kurumlarında, yerel yönetimlerde, özel sektörde ve sivil toplum kuruluşlarında üretilen veriler açık veri olarak ortak bir veri kaynağından tüm fayda sağlayıcıların kullanımına açılacaktır” ifadelerine yer verilmiştir.
Bakanlığın internet sitesinde de “Açık Veri Portalı-pilot çalışma” başlığı altında birçok sağlık verisi yayımlanmaktadır. Ayrıca, Kan, Organ ve Doku Nakli Hizmetleri Dairesi Başkanlığı Resmi Sayfasının istatistikler bölümünde de organ doku istatistikleri paylaşılmaktadır.
f. Dijital Dönüşüm Portalı
Türkiye’de kamu kurumları, özel sektör, akademi ve STK gibi Dijital Devlet (d-Devlet) ekosistemi paydaşları arasında bilgi paylaşımı sağlamak amacıyla TÜBİTAK-BİLGEM Yazılım Teknolojileri Araştırma Enstitüsü (YTE) tarafından Dijital Dönüşüm portali oluşturulmuştur. Dijital dönüşüm kapsamında açık veri hakkında da çalışmalar yapıldığı görülmektedir. Başbakanlık ve TÜBİTAK-BİLGEM-YTE iş birliği ile 20 Mart 2013 tarihinde “Kamu Yönetiminde Gelişen Trendler: Açık Devlet ve Açık Veri” konulu panel düzenlenmiştir.
i. Ticaret Bakanlığı
T.C. Ticaret Bakanlığı’nın yayımladığı politikalar, stratejiler ve tarafından ülkemizde gerçekleştirilecek açık veri konusundaki faaliyetlere oldukça önem verilmekte ve de Bakanlık tarafından yürütülen büyük veri analizi ve yapay zeka projeleri kapsamında da, firmalar, üniversiteler ve araştırma kuruluşları ile işbirliği yapılması hedeflenmekte, bu kapsamda Bakanlıkça tutulan verilerin, daha etkin politikalar sunulması amacıyla diğer paydaşlarla paylaşımı konusunda çalışmalar devam etmektedir [3].
Bölüm Özeti
Açık Veri (open data), “Herkesin ücretsiz ve özgürce erişebileceği, kullanabileceği, dağıtılabileceği ve değerler üretebileceği” veridir. Verilerin makine tarafından okunabilir biçimde, toplu olarak ve açık lisanslı bir şekilde bulunması sayesinde açık hale getirilir. Dünyada son yıllarda internetin yaygınlaşmasıyla baş döndürücü şekilde yükselen trendlerin başında “açık veri” gelmektedir.
Kamu ve özel sektör konunun önemini kavramış, açık veri platformlarını kurarak verilerini araştırmacıların kullanımına açmaları ile şeffaflık, sürdürülebilirlik, teknolojik ve bilimsel alanlarda gelişimlerin inanılmaz hızda artmasının önü açılmıştır. Bu verilerin açık ve işlenebilir olması ise bilgi ve buna bağlı katma değer üretimindeki en önemli faktördür. Buna bağlı olarak da açık veri platformları yaygınlaşmaktadır. Uluslararası teknoloji devleri bu konulara en fazla yatırım yapan ve ürün geliştiren şirketlerdir.
Dünyada olgunlaşma seviyesini aşan ve neredeyse durağan hale gelen büyük verinin açık hale getirilmesi teknolojileri, analitiği, güvenliği ve mahremiyeti konularına baktığımızda ülkemizde bu konuyu önemseyen çalışmalar yapılsa da bunun yaygınlaştırılmasında işin başında olduğumuz da açıktır.
Açık veri platformlarının oluşturulması, kaynak israfını da önlemek için mevcut kaynaklardan faydalanılması, kurulu olan merkezlerden bilgiler alınması, çok gerekli ise de kurum bünyelerine kurulmalıdır.
Kaynakça
[1] Sağıroğlu, Ş. (2017). Büyük Veri Dünyası: Büyük Veri Büyük Etki. (Ed.), SAĞIROĞLU, Ş ve KOÇ, O., Büyük Veri ve Açık Veri Analitiği: Yöntemler ve Uygulamalar içinde (81-97), Grafiker Yayınları, Ankara.
[2] Lugmayr, A., Lugmayr, A., Stockleben, B., Stockleben, B., Scheib, C., Scheib, C., … & Mailaparampil, M. A. (2017). Cognitive big data: survey and review on big data research and its implications. What is really “new” in big data?. Journal of Knowledge Management, 21(1), 197-212.
[3] Özkan Özlem, (Ağustos 2019), “Açık Veri”, Hukuk, Düzenlemeler ve Kamu İlişkileri Çalışma Grubu Raporu. Türkiye Bilişim Vakfı.
[4] Web Sitesi (Son Erişim: Temmuz 2021)
URL: Sitesihttps://www.bundesregierung.de/breg-en/news/open-data-strategy-1940558

6. SEMANTİK VERİ

Ders Anlatimi – Video

Ders Anlatimi – Ses
Unite-6 Sunumu – PDF
Online Test – Unite Sorulari
Giriş

Semantik, en temel halinde kelimelerin içerdiği anlamları ifade eder. Web 3.0 ile birlikte yazıların içinde yer alan kelimelerden ziyade onların anlam bütünlüğü ön plana geçer. Arama motorları bu yol ile çok daha akıllı hale gelirler.
Semantik Web 3.0 sayesinde arama motoru, girişi yapılan semantik kelimeler üzerinden ne bulunmak istendiğini kısa sürede anlar ve en doğru arama sonuçlarına yönlendirir. Anlam bilimi olan Semantik, Web 3.0 teknolojisinin temellerinden biri olarak, insanlar ve yazılımlar arasında anlamsal ilişkinin kurgulanmasını sağlar. Bu sayede makineler ve insanlar arasında daha fazla etkileşim ön plana çıkar.
6.1. Semantik Veriye Giriş
World Wide Web (www)’in mucidi olarak bilinen bilgisayar bilimi mühendisi Tim-Berners-Lee, 1999 yılında semantik web için şu ifadeyi kullanmıştır: “Web için bir hayalim var, öyle ki bilgisayarlar web üzerindeki bütün veriyi, içerikler, linkler ve insanlarla bilgisayarlar arasındaki bütün işlemler gibi, analiz etmeye muktedir olacaklar. Henüz ortaya çıkmamış olsa da ortaya çıktığı zaman anlamsal ağ ticaretin günlük mekanizmaları, bürokrasi ve günlük yaşamlarımız birbiri ile konuşan makinalar tarafından yürütülecek. İnsanlığın asırlardır konuşup durduğu “akıllı ajanlar” nihayet gerçekleşecek.”
Semantik (Anlamsal) teknolojiler, çeşitli araştırma alanlarında veri ve kaynak keşfi, indeksleme, sorgulama ve entegrasyonda önemli bir rol oynamıştır. Semantik teknolojilerin kullanılmasının amacı, büyük veri içerisindeki veri ve kaynakların anlamlarını elde etmektir. Bu, kullanıcıların ve makinelerin içeriği anlamasına yardımcı olur. Doğal olarak dijital veri ve kaynaklar anlaşılabilir bir şekilde alınabilir, paylaşabilir ve birleştirebilirler. Bu anlamlandırma Şekil 6.1’de görüldüğü üzere farklı yöntemlerle geliştirilebilir.

Şekil 6.1. Verinin farklı yöntemlerle anlamlandırılması (semantik veri işleme)
Günümüzde, anlamsal meta verilerin kullanılmasına yönelik birçok servis vardır. Bilgiyi artık sadece metin üzerinden değil anlamı üzerinden de bulabilir ve organize edilebilmektedir.
Semantik (Anlamsal) teknolojiler kelimelerin veya tümceciklerin eşit olduğu yerleri kolayca anlayabilir. Örneğin ‘Jaguar’ kelimesini otomobil endüstrisi içeriği ile bulmak istendiğinde sistem ‘Jaguar’ kelimesini içeren hayvanlar ile ilgili dokümanları dikkate almayacaktır. Sistem bir aramanın konusu üzerinden diğer anlamsal ilgili konuları da içeren bilgilerin yerini belirleyerek kullanıcıya sunacaktır.
Anlamsal verilerin uygulanması webdeki çeşitli yerlerde, örneğin belirli arama deneyimlerinde görülmektedir. Bu zengin, yeni bilgi katmanı sayesinde, arama motorları ve diğer botlar, en alakalı içeriği doğrudan kullanıcıya sunabilir ve insanların zaman ve emekten tasarruf etmesini sağlayan en önemli parçalara göre düzenlenebilir. Bu sayede pratik ve somut bilgiler sorgulandığında konu ile ilgili hızlı bir öneri sunarak aranılan bilgi anında kullanıcıya sunulmaktadır. Örneğin Şekil 6.2’de arama motoruna ‘Almanya’nın Nüfusu’ şeklinde bir anahtar girildiğinde çıkan sorgu sayesinde istenilen bilgiye anında ulaşılmaktadır.

Şekil 6.2. Semantik web tabanlı sorgu sonuçları
Anlamsal teknolojiler, bilginin gösterilmesi (sunulması) yöntemlerini de geliştirmektedir. Sorgulama sonuçlarının bir sayfa içinde sıralı gelmesi yerine sonuçların anlamına göre sınıflandırılarak gösterilmesi mümkün olmamaktadır. Daha ileri adımlarda istediğimiz bilgi ile ilgili bulunan tüm dokümanlardan fazlalıkları ayıklayarak tümleştirip uygun bir özet haline getirildikten sonra kullanıcıya sunmak mümkün olabilmektedir. Dokümanlar içindeki temel varlıklar arasındaki ilişkiler kullanıcıya görsel olarak sunulabilmektedir. Tüm bunlar mevcut bir bilgiden anlamlı yeni bir bilgi yaratmak için çıkarsama yapmayı gerektirmektedir.
Farklı büyük veri ortamlarında yer alan veri tabanlarında, aynı kavramlar için farklı tanımlar kullanılmaktadır. Bu tür problemler aynı veritabanını kullanan veya geliştirenler için sözlükler kullanılarak giderilmektedir. Ancak farklı veri tabanlarındaki aynı kavramlar için henüz tam anlamıyla bir çözüm bulunabilmiş değildir. Anlamsal teknolojilerde ontolojiler kullanılarak bu tür problemler çözülmeye çalışılmaktadır. Bir anlamsal web dokümanı, terimlerin anlamlarını ve bu terimler arası ilişkileri ifade etmek için bir ontolojiye işaret etmektedir.
Ontoloji kavramı bir ajan ya da ajan topluluğunun sahip olabileceği kavramların ve ilişkilerin tanımıdır. Ontoloji, varlıkları ilişkileriyle birlikte tanımlayan felsefecilerin kullandığı bir sözcüktür ve semantik web en temel bileşenidir.
Kurum içi veya kurumlar arası farklı kaynaklarda bulunan bilginin entegrasyonu için anlamsal meta verinin kullanılması çok önem arz etmektedir. Çünkü kurumlarda bilginin sınıflandırılması ve tanımı için farklı şemalar kullanılmakla beraber bilginin kendi içinde de farklı terminolojiler kullanılmaktadır. Bu amaç doğrultusunda XML şemaları önemli bir imkan sunmaktadır. XML ve benzeri farklı bilgi gösterim şemaları arasında kurulacak eşleştirme işlemi ile kullanılacak bilgilerin birlikte çalışabilirliğini sağlamaya yönelik ortak bir gösterim anlamsal teknolojileri ile mümkün olabilmektedir. Buradaki temel amaç veriler ilgili veriler arasında tam bir uyum sağlayabilmek ve ilgili verilerle eşleştirme yapabilmektedir. Günümüzde veri uyumluluğunu sağlamak şirketlerin en çok para harcadığı alanlardandır. Bu sorunun üstesinden gelmek için yapay zekâ alanında da kullanılan ontolojilerden faydalanılması düşünülmüştür.
Anlamsal teknolojiler ortak yöntem ve işlemler içinde kullanılabilmektedir (Örn: web servisleri). Bir web servisi fonksiyonu anlamsal olarak tanılanabildiğinde, bu web servisine ihtiyacı olan sistem tarafından kolaylıkla bulunabilir. Mevcut web servislerine kendi fonksiyon ve bağlamının tanımlandığı meta veri sağlandığında, yeni web servisleri mevcut web servislerinin yeni yapısına otomatik olarak bağlanabilmekte ve iletişim kurabilmektedir. Bu amaç doğrultusunda farklı semantik veri modelleri geliştirilmektedir.
Semantik veri modeli (SDM) büyük veri kümeleri için üst düzey semantik tabanlı bir veritabanı açıklaması ve yapılandırma formalizmidir (veritabanı modeli). Bu veritabanı modeli, bir uygulama ortamının anlamını çağdaş veritabanı modelleriyle mümkün olandan daha fazla yakalamak için tasarlanmıştır. Bir SDM belirtimi, bir veritabanını uygulama ortamında var olan varlık türleri, bu varlıkların sınıflandırmaları ve gruplamaları ve bunlar arasındaki yapısal bağlantılar açısından tanımlar. SDM, bir uygulama ortamının semantiğini yakalamak için bir üst düzey modelleme ilkelleri koleksiyonu sağlar. SDM, türetilmiş bilgileri bir veritabanı yapısal özelliğinde barındırarak, aynı bilgilerin çeşitli şekillerde görüntülenmesine izin verir; bu, veritabanı uygulamalarında tipik olarak mevcut olan çeşitli ihtiyaçları ve işleme gereksinimlerini doğrudan karşılamayı mümkün kılar. Mevcut SDM’nin tasarımı, onun bir ön versiyonunu kullanma deneyimimize dayanmaktadır. SDM, veritabanı sistemlerinin etkinliğini ve kullanılabilirliğini artırmak için tasarlanmıştır. Bir SDM veri tabanı açıklaması, bir veri tabanı için resmi bir belirtim ve dokümantasyon aracı olarak hizmet edebilir; çeşitli güçlü kullanıcı ara yüzü olanaklarını desteklemek için bir temel sağlayabilir, veritabanı tasarım sürecinde kavramsal bir veritabanı modeli olarak hizmet edebilir ve yeni bir tür veritabanı yönetim sistemi için veritabanı modeli olarak kullanılabilir.
Büyük veri kümeleri üzerinde işlenen anlamsal web’in ön plana çıkan bazı kazanımları şu şekilde sıralamaktadırlar:
Bilgi anlamına uygun olarak kavramsal alanda organize edilecektir.
Tutarsızlıklar ve ortaya çıkarılan yeni bilgiyi kontrol etmek için otomatik araçlar sürekliliği destekleyecektir.
Anahtar kelime tabanlı arama, insancıl bir yolla sunulan, çıkarılan ve kurtarılacak olan veri tabanı sorgu cevapları tarafından istenilen bilgi değiştirilecektir.
Veri tabanı sorgu cevapları üzerinden çeşitli belgeler desteklenecektir.
Bilginin önemli parçaları için (belgelerin bölümleri) kimlerin görüntüleyebileceğini tanımlamak mümkün olabilecektir.
6.2. Semantik (Anlamsal) Verinin Gelişimi
Anlamsal veri modellerine duyulan ihtiyaç ilk olarak 1970’lerin ortalarında Birleşik Bilgisayar Destekli Üretim (ICAM) programının bir sonucu olarak ABD Hava Kuvvetleri tarafından fark edilmiştir. Bu programın amacı, bilgisayar teknolojisinin sistematik uygulaması yoluyla üretim verimliliğini artırmaktır. ICAM Programı, üretim verimliliğini artırmaya dahil olan kişiler için daha iyi analiz ve iletişim tekniklerine ihtiyaç olduğunu belirlemiştir. Sonuç olarak, ICAM Programı, aşağıdakileri içeren bir dizi teknik geliştirmiştir [1]:
IDEF0: Çevre veya sistem içindeki faaliyetlerin veya süreçlerin yapılandırılmış bir temsili olan bir “fonksiyon modeli” üretmek için kullanılır.
IDEF1: Çevre veya sistem içindeki bilginin yapısını ve anlamını temsil eden bir “bilgi modeli” üretmek için kullanılır. IDEF1X ise anlamsal bir veri modelleme tekniğidir. Bir ortam veya sistem içindeki bilginin yapısını ve anlamını temsil eden bir grafik bilgi modeli üretmek için kullanılır. Bu standardın kullanımı, bir kaynak olarak verilerin yönetimini, bilgi sistemlerinin entegrasyonunu ve bilgisayar veri tabanlarının oluşturulmasını desteklemeye hizmet edebilecek anlamsal veri modellerinin oluşturulmasına izin verir.
IDEF2: ortamın veya sistemin zamanla değişen davranış özelliklerini temsil eden bir “dinamik model” üretmek için kullanılır.
1990’larda, anlamsal modelleme tekniklerinin uygulanması, ikinci tür anlamsal veri modelleriyle sonuçlanmıştır. Bunun bir örneği, anlamsal modelleme dili Gellish (2005) olarak daha da geliştirilen ISO 15926 -2 (2002) olarak standartlaştırılmış anlamsal veri modelidir. Gellish dilinin tanımı, anlamsal bir veri modeli şeklinde belgelenmiştir. Gellish’in kendisi, başka anlamsal modeller oluşturmak için kullanılabilen bir anlamsal modelleme dilidir. Bu anlamsal modeller, anlamsal veri tabanları olan Gellish veritabanlarında saklanabilir.
Web’deki verilerin çok büyük olması, bu verilerin yazılımlar tarafından daha kolay kullanılabilir ve anlaşılabilir olmasını gerektirmektedir. Bu amaçla semantik Web ve semantik veri kavramı ortaya konmuştur. Son 15 yılda geliştirilen semantik web protokolleri ile Web verileri daha anlamlı bir şekilde tanımlanabilir ve birbiriyle ilişkilendirilebilir. Böylece bu tür verilerin yazılımlar tarafından aranması, bulunması ve kullanımı çok daha kolay olacaktır. Bu yöntemle açık semantik veriye geçiş yapılmış olacaktır. Bu şekilde verilerin tanımlandığı Web’e ise Web 3.0 denmektedir. Mevcut web’de bu standartlara uygun oldukça fazla veri bulunmaktadır ve bunlar da açık bir şekilde kullanıma sunulmaktadır.

Şekil 6.3 Web’in gelişimi [2]
Web 1.0 adı verilen ilk evrede bilgiye erişim ve ağda yer alma durumu söz konusu iken, Web 2.0 insanlar arası sosyal iletişimi sağlamayı amaçlamaktadır. Web 3.0 ise içinden geçtiğimiz dönemi kapsamakta ve bilgilerin anlamsal olarak ele alınarak makinelerin bunu okumasına olanak sağlamıştır. Web 3.0, anlamlandırıp bilgileri bağlama işini yaparak interneti daha kullanışlı ve keyifli kılmayı amaçlamaktadır. Web 4.0 daha sonraları karşımıza çıkacaktır. Web 4.0 her yerde erişebileceğimiz bir yapıda akılların birbiri ile bağlantısını sağlayacak internet olarak karşımızda olacaktır. İnternetin evrimi Şekil 6.3’te ve gelişim evreleri ile ilgili yapı Şekil 6.4’te verilmiştir.

Şekil 6.4. İnternet gelişimi ile semantik web’in doğuşu [3].
Semantik Web, Web 3.0 ile hayatımıza girmiş olup dokümanlara semantik anlamlar ekleyerek makinelerin bunu okuyabilir/anlayabilir hale getirilmesi ve makinelerin birbiri ile etkileşiminin artırılmasını sağlamaktır. Bu yüzden Web’de dokümanların hâkimiyeti yerine veriye doğru bir dönüşüm başlamıştır. Fakat şimdiye kadar gerçekleşen değişim çok sınırlıdır. Bunun ana sebebi çoğu web sayfasının farklı formatlarda biçimlendirilmemiş metin veya veri halinde olmasıdır.
Semantik web teknikleri günümüz teknolojileri için göreceli olarak yenidir. Bu yenilikleri takip ederek, kullanımını yaygınlaştırmak için ihtiyaçları analiz edip uygun alanlarda yeni tanımlamalar getirecek organizasyonlara ihtiyaç bulunmaktadır. Bu organizasyonlardan bir kısmı çok geniş alanlarda hizmet vermekteyken, bir kısmı web teknikleri, bir kısmı da semantik web üzerine standartlar geliştirmektedir.
Semantik web için standartları geliştiren bazı organizasyonlar aşağıdaki gibidir [3];
Uluslararası Standartlar Organizasyonu- International Organization for Standardization (ISO)
Uluslararası Elektroteknik Organizasyonu- International Electotechnical Commission (IEC)
Yapılandırılmış Bilgi Standartlarını Geliştirme Organizasyonu- Organization for the Advancement of Structured Information Standards (OASIS)
Dünya Çapında Ağ Birliği- World Wide Web Consortium (W3C)
İnternet Mühendisliği Görev Grubu- International Engineering Task Force (IETF)
Ulusal Standartlar ve Teknoloji Enstitüsü- National Institute of Standards and Technology (NIST)
Nesne Modelleme Grubu- The Object Modeling Group (OMG)
Anlamsal Ağ Servisi- Semantic Web Services Initiative (SWSI)
Birleşik Devletler Ulusal Tıp Kütüphanesi- United States National Library of Medicine (NLM)
Artan dijital sistemlerin uzaktan erişimi tetiklemesi, birçok işin web ortamına aktarılması ile günümüzde web sayfaları muazzam büyüklükte veri alanlarına dönüşmüştür. Bu sayfaların içerdiği veriler çeşitli araçlar veya uygulamalar için bir standart dahilinde olmadığından kullanılamaz durumdadırlar. Kullanıcıların uygulamaları ve web siteleri arasında yapısal veri aktarımı sağlamak ve tarayıcı uygulamalarında kullanıcı deneyimlerini geliştirmek için verilerin belirli kurallar dizisi çerçevesinde yayınlanması gerekliliği doğmuştur. Bu kurallar dizisi Şekil 6.5’te verilmiştir.
Bu gerekçelerden hareketle semantik web büyük veri kümelerinde hızlı yol almak adına geliştirilmiş ve günümüzde popüler olarak kullanılmaktadır. Bu tarihsel gelişim henüz nihai sonuca ulaşamamış olmakla birlikte web 4.0 ile çok daha gelişmiş ve web 3.0 temelleri üzerine kurulmuş daha akıllı ve daha hızlı ajanlar oluşturacağı aşikardır. Bu sayede makinelerin etkileşiminin yanında makine-insan etkileşiminin de üst seviyeye ulaşması beklenmektedir.

Şekil 6.5. Semantik web’in katmanları [4]
6.3. Semantik (Anlamsal) Verinin Temel Hedefleri
İki bilgi sisteminin anlamsal olarak veriyi işlemesi olarak karşımıza çıkan semantik web teknolojisini birlikte işlerlik bakımından yeni bir yaklaşım olarak görülmektedir. Semantik web teknolojisi beklenmedik bir durumda bile “doğru olanı yapan” profesyonel sistemler geliştirmemize yardımcı olabilecektir. Bu kadar uçsuz limitsiz bilgiyi barındıran dünyada, sınırlama yapan karar verme süreçlerine ihtiyaç duyulmaktadır. Örneğin internette özel yeni bir servis aradığımızda ilgili olan kelimeleri sınırlandırarak bir arama yapmamız gerekecektir. Klasik erişim kontrol mekanizmaları ile aradığınız sonuca ulaşmak çoğu zaman mümkün olmamaktadır. Daha esnek kuralların işlerlik kazandığı yeni karar verme süreçlerine ihtiyaç duyulmaktadır. Semantik web teknolojileri bunu gerçekleştirecek teknik çerçeveyi bünyesinde barındırmaktadır. Semantik web teknolojisi esnek, zeki bilgi sistemlerinin inşa edilmesi için çaba sarf edilen bir yaklaşımdır [5].
Semantik web çatısı altında oluşturulan anlamsal bir veri modeli birçok amaca hizmet etmek için kullanılabilir. Bazı temel hedefleri şunları içerir:
1. Veri Kaynaklarının Planlanması: Bir işletmeyi çalıştırmak için gereken verilerin genel bir görünümünü sağlamak için bir ön veri modeli kullanılabilir. Model daha sonra, paylaşılan veri kaynakları oluşturmaya yönelik projeleri belirlemek ve kapsamını belirlemek için analiz edilebilir.
2. Paylaşılabilir Veritabanlarının Oluşturulması: Kullanıcılar tarafından doğrulanabilen ve daha sonra çeşitli veritabanı yönetim sistemleri teknolojilerinden herhangi biri için fiziksel bir veritabanı tasarımına dönüştürülebilen verilerin uygulamadan bağımsız bir görünümünü tanımlamak için tam olarak geliştirilmiş bir model kullanılabilir. Tutarlı ve paylaşılabilir veritabanları oluşturmanın yanı sıra, veri modelleme yoluyla geliştirme maliyetleri önemli ölçüde azaltılabilir.
3. Satıcı Yazılımının Değerlendirilmesi: Bir veri modeli aslında bir organizasyonun altyapısını temsil ettiğinden, yazılımın ima ettiği altyapı ile şirketin fiilen iş yapma şekli arasındaki olası tutarsızlıkları belirlemek için satıcı yazılımı bir şirketin veri modeline göre değerlendirilebilir.
4. Mevcut Veritabanlarının Entegrasyonu: Mevcut veritabanlarının içerikleri anlamsal veri modelleri ile tanımlanarak bütünleşik bir veri tanımı türetilebilir. Uygun teknoloji ile, ortaya çıkan kavramsal şema, dağıtılmış bir veritabanı ortamında işlem işlemeyi kontrol etmek için kullanılabilir. ABD Hava Kuvvetleri Entegre Bilgi Destek Sistemi (I2S2), heterojen türde bir veritabanı yönetim sistemleri ortamlarına uygulanan bu tür teknolojinin deneysel bir gelişimi ve gösterimidir.
6.4. Semantik (Anlamsal) Web’in Uygulama Yerleri
Bilgisayar ile karşılıklı etkileşim sayesinde internet üzerinden iş yapma biçimi değişmiştir. Uygulamalarda kişiler, yerler ve kavramlar üzerine kurulu yönlendirmeler olanaklı hale gelmiştir. Bu alanlara aşağıdaki örnekler verilebilir:
Yazılım ajanı tabanlı dağıtık işlem uygulamaları:
Ontolojiler aracılığıyla tanımlanmış, yapılandırılmış ve anlamlandırılmış bilgiler, yazılım ajanlarının bu bilgileri büyük veri kümeleri içerisinde taraması, harmanlaması ve kullanmasını sağlayacaktır. Bu birçok alanda şu anda hayal edilen uygulamanın gerçekleştirilmesini sağlayacaktır. Web tabanlı yazılımların en önemli özelliklerinden biri olup bu alanda yoğun kullanılmaktadır.
Anlam tabanlı web arama makineleri:
Ontolojiler ile tanımlanmış web kaynakları, web arama makinelerinin daha akıllı sorgulamaları yapmasına imkân verecektir. Ülkelerin bağımsızlığını tehdit edecek kişi veya grupların web üzerinden kullanmış oldukları anahtar kelimelerin bir araya gelmesi ile takibe takılması sayesinde tehditlere erişimin sağlanması mümkündür.
Anlam tabanlı sayısal kütüphaneler:
Anlamsal web teknolojilerinin sağladığı etkili sınıflandırma ve endeksleme yöntemleri sayısal kütüphanelerde bulunan çoklu ortam veri içeriğine ulaşımı ve sayısal kütüphaneler arası birlikte işleye bilirliği kolaylaştıracaktır. Ülkemizde de en büyük sayısal kütüphane dergipark çatısı altında oluşturulmuş olup kaynakların bilgisayar ortamına aktarılması ile sayısallaştırılması olarak ifade edilmektedir.
Ontoloji destekli kurumsal bilgi yönetimi:
Küresel ekonomi ile birlikte, iş gücü, sermaye ve stok yönetimi gibi geleneksel kaynakların yanında, bilginin bir kaynak olarak kurumlarda yönetimi çok önem kazanmakta ve önemli bir üretkenlik etmeni olarak ortaya çıkmaktadır. Anlamsal web teknolojileri kurumsal bilgilerin etkin bir şekilde yönetilmesini ve kullanılmasını sağlamaktadır.
Otomatik web servisi keşfi, aktive edilmesi, karşılıklı işleyebilirliği ve izlenebilirliği:
Web servisleri son zamanlarda en çok konuşulan ve web ortamında yeni fırsatlara yok açacak bir teknolojidir. Anlamsal web bu servislerin otomatik olarak bulunması, seçilmesi, çalıştırılması, karşılıklı izlenebilirliğini ve izlenmesini sağlamaktadır.
Bölüm Özeti
Bilgi gün geçtikçe artmakta, farklı yapılarda büyük veri kümeleri oluşmakta ve bu bilgiler daha karmaşık bir hal almaktadır. Günümüzdeki teknolojilerle bilgiler arasındaki ilişkileri, anlamaları ortaya koymak oldukça güçtür. Semantik teknolojiler büyük veri üzerindeki bu olumsuzluk giderilerek sonuca ulaşma mümkün kılınmaktadır.
Semantik teknolojiler ile kullanıcıların büyük veri kümesi içerisinde aradıkları bilgilere daha kolay ve hızlı ulaşabilmesi hedeflenmektedir.
Semantik teknolojiler gün geçtikçe çok fazla araştırmacı, kurum ve kuruluşun ilgisini çekmiş, büyük kurumlar bu teknolojilere ciddi yatırımlarda bulunmuşlardır.
Semantik teknolojiler ile web 3.0 dönemine geçilmiş olup internet dünyasında devrim niteliğinde yeniliklere yol açmaya çalışılmaktadır.
Semantik web ile her geçen gün artan internet kullanıcı sayısı ve büyük veri yığını daha anlamlı hale gelecektir.
Web üzerinde yapılan dar aramalar yerine, birbiri ile ilişkilendirilebilen aramalar yapılabilecektir.
Her geçen gün artan ve yenilenen teknolojileri ile çok da uzak olmayan bir zamanda semantik web’in günümüzdeki web’in tamamen yerini alması beklenmektedir.
İnternetteki tüm bilgi kaynaklarını bir araya getirerek aranan bilgiye ulaşmayı sağlayan anlamsal web, geliştirilmeye devam etmektedir.
Kaynakça
[1] Stringfixer Web Sitesi, “Anlamsal veri modeli”. (Son Erişim:20.01.2022)
URL: https://stringfixer.com/tr/Semantic_data_model
[2] Spivack N. 2007 How the WebOS Evolves? (Son Erişim: 20.01.2022)
URL: http://www.novaspivack.com/technology/how-the-webos-evolves
[3] Beden Ş. “Bir Semantik Web-Tabanlı Öğrenme Yönetim Sistemi Modeli”, Yüksek lisans tezi, İstanbul Üniversitesi, 2012.
[4] W3C/MIT, 2001, W3C Semantic Web Activity, Proceedings of Semantic Web Kick-off Seminar, Finland.
[5] Berners-Lee, T., Hendler, J., ve Lassila, O. (2001). “The semantic web. Scientific American”, 184(5),34-43.

7. BÜYÜK VERİ TEKNOLOJİLERİ

Ders Anlatimi – Video

Ders Anlatimi – Ses
Unite-7 Sunumu – PDF
Online Test – Unite Sorulari
Giriş

Kullanıcıların bıraktığı ekonomik, sosyal ve psikolojik dijital izlerin çok yönlü olarak analizine imkan tanıyan büyük veri, maliyetli ve uzun süreçli saha araştırmalara alternatif ve adaptif teknolojiler olarak kullanılabilmektedir. Bu teknolojiler sayesinde, çok farklı coğrafyalardan ve örneklemlerden değişik boyutlarda veri, eş zamanlı olarak elde edilebilmekte ve düşük maliyetlerde analizi sağlanmaktadır. Ayrıca büyük veri teknolojilerinin çıktıları sayesinde kullanıcıların kişisel profillerinin çıkartılabilmesi ve zaman içerisinde değişen alışkanlıklarının tespit edilmesinde önemli bir planlama aracı olarak kullanılmaktadır.
Farklı sektörlerdeki müşteri ihtiyaçlarının belirlenmesi, kurumsal kaynak ve tesis planlama, yatırım yönetimi, gelir-gider yönetimi ve ömür boyu müşteri değerinin ölçülmesi konusunda oteller, ulaşım firmaları, seyahat acentaları, hizmet işletmeleri ve diğer sektörlerdeki işletmelerin müşteri özelliklerine göre ürün ve hizmet sunumunu gerçekleştirebilmesi ve maliyet avantajı sağlaması, ilgili sektörlerin büyük veri teknolojilerinin kullanımına bağlıdır. Hizmet sağlayıcılarının, büyük verinin elde edilmesi ve depolanması konusundaki fiziki altyapı imkanlarını geliştirmeleri oldukça önem arz etmektedir. Bu noktada, büyük verinin elde edilmesi, depolanması ve analiz edilerek yorumlanabilmesi/anlamlandırılması için teknik gereksinimlerin karşılanması ve büyük verinin işletmelerin faaliyetleri için kullanılabilir hale getirilmesine yönelik yetkin personel istihdamının sağlanması da önemli hususlar arasındadır.
7.1. Büyük Veri Teknolojileri
Günümüz dünyasında pandemi ile gelen dijitalleşmenin hız kazandırdığı, 5G teknolojileri sayesinde akıllı telefonlar, otomobiller, sosyal medya siteleri, dizüstü bilgisayarlar ve endüstriyel makineler gibi cihazlara yerleştirilen sensörler sayesinde veriler hızla artmaktadır. Bu nedenle, çeşitli kaynaklardan elde edilen veriler yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış biçimde bulunabilmektedir. Geleneksel yöntemler bu veri formatlarını işlemekte yetersiz kalmaktadır. Bu nedenle, şekil 7.1’de şematize edilen veri analitiği amacıyla büyük verilerle çalışmak için yeni araç ve tekniklere ihtiyaç duyulmaktadır.

Şekil 7.1. Büyük verinin analitiği.
Bugün geliştirilen bazı teknik ve teknolojiler sayesinde çok büyük yapılandırılmış ve yapılandırılmamış veri setleri kolayca analiz edilebilmektedir.
Büyük veri teknolojileri, veri madenciliği, veri depolama, veri paylaşımı ve veri görselleştirmeyi içeren yeni nesil yazılımlardır. Verileri araştırmak, dönüştürmek ve anlamlandırmak için kullanılan araçlar ve teknikleri içeren veri teknolojisini kapsar. Yapay zeka, makine öğrenimi, derin öğrenme ve IoT gibi diğer teknolojilerle geniş ölçüde ilişkilendirilir.
Büyük veri teknolojileri operasyonel ve analitik olmak üzere ikiye ayrılabilir;
1. Operasyonel Büyük Veri Teknolojileri
Çevrimiçi işlemler, sosyal medya veya büyük veri teknolojileri tabanlı yazılımlar aracılığıyla analiz için kullanılan belirli bir firmadan her türlü veri gibi günlük olarak üretilen veri miktarını gösterir. Analitik büyük veri teknolojilerini besleyen ham veri olarak düşünülebilir.
Operasyonel büyük veri teknolojileri; yöneticilerin birçok uluslu şirketteki ayrıntılarını, Amazon, Flipkart, Walmart, vb. firmalardan alınan çevrimiçi alım satım ve satın almaları, filmleri, uçuş, demiryolları ve otobüs vb. için çevrimiçi bilet rezervasyonu ve satın almasını içerir.
2. Analitik Büyük Veri Teknolojileri
Operasyonel büyük veri ile kıyasla biraz karmaşık olan analitik büyük veri teknolojileri gelişmiş bir büyük veri versiyondur. İş kararları için çok önemli olan büyük verilerin gerçek araştırması ve anlamlandırılması bu bölümün altındadır. Bu alanda ele alınan bazı örnekler, stok pazarlama, hava tahmini, zaman serisi analizi ve tıbbi sağlık kayıtlarıdır.
7.2. Büyük Veri Teknolojileri Bilinirlik Seviyeleri
TDWI Big Data Maturity Model temelinde Türkçe olarak tasarlanan ve 5 farklı kategoride anket soruları sayesinde değerlendirilerek belirlenmektedir. Bu kategoriler aşağıda sunulmuştur [1].
1. Kurumsal olarak büyük verinin bilinirliği: Kurumsal olarak büyük verinin bilinirliğinin ölçümünde ankette cevabı aranan sorular şöyledir: Başarılı bir büyük veri analitiği programı hangi ölçüde kurumsal strateji, kültür, liderlik ve bütçe olarak destekleniyor? Büyük veriler için bir analitik kültür mevcut mu? Büyük veri teknolojileri şirket tarafından takip ediliyor mu? Büyük veri analitiği teknolojileri şirket tarafından keşfedilmeye başlandı mı? Veri paylaşımı ve iş birliği şirket kültürünün önemli bir parçası mı?
2. Alt yapı seviyesi: Alt yapı seviyesi ölçümünde aşağıdaki soruların cevapları aranmaktadır: Büyük veri girişimini destekleyen mimari ne kadar gelişmiş ve tutarlı durumdadır? Var olan alt yapı şirketin tüm bölümlerini ve potansiyel kullanıcılarını ne ölçüde desteklemektedir? Büyük veri yönetimi yaklaşımı ne kadar etkin kullanılıyor? Hangi teknolojik donanım ve yazılımlar kullanılmakta ve var olan ortamla nasıl bütünleşmiş durumdadır?
3. Veri Yönetimi: Veri yönetimi kısmında: Şirketin meta veri için bölüm seviyesinde tanımlanmış ve kapsamlı bir veri yönetimi stratejisi var mı? Varsa bilgisayar kümesinde birden çok iş yükünü aynı anda yapabiliyor mu? Şirkette tanımlanmış bir veri yaşam döngüsü yönetimi ve baştan sona veri kullanımı sürecini tanımlayan çerçeve doküman mevcut mu?
4. Analitik çözümlerin bilinirliği: Analitik çözümlerin bilinirliği bölümü: Büyük veriler için kullanılan verilerin çeşitliliği, hacmi ve hızı ne kadardır? Şirket büyük verilerini analiz etmek için hangi yöntemleri kullanıyor? Büyük veri teknolojilerini yaygınlaştırmak isteyen üst düzey yönetici mevcut mu? Büyük veri konusunda deneyimli çalışanlar var mı?
5. Yönetim stratejilerinin bilinirliği: Yönetim stratejilerinin bilinirliği kısmı: Şirketin büyük veri yönetimi için stratejilerini takım halinde uyguluyor mu? Şirkette veri yönetimi ve entegrasyonunu denetlemek için kurulmuş bir yönlendirme kurulu var mı?
Bir organizasyonların büyük veri teknolojileri olgunluğu, ilgili tüm iç ve dış veri kaynaklarını bütünleştirme, yönetme ve etki alanına alma gibi yeteneklerindeki dönüşüm kabiliyeti olarak tanımlanmaktadır. Esasen, yenilikçi bir ekosistem oluşturma ve güçlü etkisi olan bir dönüşüme imkân tanıma olasılığı ile ilgilidir. Başka bir deyişle, büyük veri alanındaki olgunluk sadece devasa veriyi işleyebilecek gerekli donanımı satın alıp yerleştirmekten ibaret değildir. Ya da şirket markasının değerini ve müşteriler üzerindeki etkilerini sosyal medya paylaşımlarından analiz etmek değildir. Olgunluk, teknolojiler, veri yönetimi ve analitiği ve şirket bileşenlerini kapsayan dinamik bir ekosistem yaratmak ile ilgilidir [1-2].
7.3. Dünyada En Popüler Büyük Veri Teknolojileri
Günümüzde kurum ve kurumların bünyesinde elde edilen büyük veri setlerini saklamak, işlemek, yönetmek, analiz etmek ve anlamlandırmak için kullanılan teknolojilerin sayısı sürekli artmaktadır. Şekil 7.2’de büyük veri teknolojileri ekosistemi verilmiştir.

Şekil 7.2. Büyük veri ekosistemi.
Büyük veri teknolojileri her türlü yapıdaki veriyi işleme, ihtiyaca göre genişleme, verileri yedekleme, erişilebilir olmasını sağlama ve açık kaynaklı projeler olma gibi özelliklere sahiptir. Tablo 1’de verildiği üzere büyük veri teknolojileri, platform türüne göre lokal ve bulut olmak üzere iki sınıfa ayrılmaktadır.
Tablo 1. Platform türüne göre büyük veri teknolojilerinin sınıflandırılması.
Platform Türü
Teknoloji Araçları
Lokal
Hadoop, Spark, MapReduce, Cloudera, Hortonworks, InfoSphere, IBM BigInsights, Asterix
Bulut
AWS EMR, Google Compute Engine, Microsoft Azure, Pure System, LexisNexis HPCC Systems

Tablo 2’de verildiği üzere büyük veri teknolojileri veritabanı türüne göre SQL, NoSQL ve In-Memory olarak üç sınıfa ayrılmaktadır.
Tablo 2. Veritabanı türüne göre büyük veri teknolojilerinin sınıflandırılması.
Veritabanı Türü
Teknoloji Araçları
SQL
Greenplum, Aster Data, Vertica, SpliceMachine
NoSQL
Column
HBase, HadoopDB, Apache Spark, Cassandra, Hypertable, BigTable, PNUTS, Cloudera, MonetDB, Accumulo, BangDB
Key-Value
Redis, Flare, Sclaris, MemcacheDB, Hypertable, Valdemort, Hibari, Riak, BerkeleyDB, DynamoDB, Tokyo Cabinet, HamsterDB
Document
SimpleDB, RavenDB, ArangoDB, Mongo DB, Terrastore, CouchDB, Solr, Apache Jachrabbit, BaseX, OrientDB, FatDB, DjonDB
Graph
Neo4J, InfoGrid, Infinite Graph, OpenLink, FlockDB, Meronymy, AllegroGraph, WhiteDB, TITAN, Trinity
In-Memory
SAP HANA

Tablo 3’te verildiği üzere büyük veri teknolojileri fonksiyonellik açısından veri işleme, veri ambarı, veri toplama & transfer, arama, sorgu dili, istatistik & makine öğrenmesi, iş zekası, görselleştirme ve sosyal medya analizi olmak üzere farklı sınıflara ayrılabilmektedir.
Tablo 3. Fonksiyonellik açısından büyük veri teknolojilerinin sınıflandırılması.
Fonksiyonellik
Teknoloji Araçları
Veri İşleme
MapReduce, Dryad, YARN, Storm, S4, Kafka, BigQuery
Veri Ambarı
Hive, HadoopDB, Hadapt
Veri Toplama & Transfer
Sqoop, Flume, Chukwa
Arama
Lucene, Solr
Sorgu Dili
Pig Latin, HiveQL, DryadLINQ, MRQL, SCOPE, ECL
İstatistik & Makine Öğrenimi
Mahout, Weka, R, SAS, SPSS, Python, Pig, RapidMiner, Orange, BigML, Skytree
İş Zekası
Talend, Jaspersoft, Pentaho, KNIME
Görselleştirme
Google Charts, Fusion Charts, Tableau Software, QlinkView
Sosyal Medya Analizi
Radian6, Clarabridge

Büyük verilerin analizinde kullanılabilecek açık kaynak kodlu programların başında Hadoop, Apache Spark, MongoDB, MapReduce, Orange ve Weka gibi teknolojiler gelmekle birlikte bir sürü teknoloji bu bilim alanının gelişmesine katkı sağlamaktadır. Bu teknolojilerden bazıları şöyledir:
1. Büyük Tablo:
Büyük Tablo, Google Dosya Sistemi (Google File System-(GFS)) üzerine kurulmuş tescilli dağıtık veritabanı sistemidir. Büyük Tablo’nun temel amacı, web sayfalarının daha hızlı ve başarılı bir şekilde bulunması, depolanması ve güncellenmesidir.
Google Dosya Sistemi (GFS), Google tarafından geliştirilen tescilli dağıtık dosya sistemi olup; Hadoop geliştirilirken GFS den esinlenmiştir. GFS’nin amacı, büyük dosyaları depolamak ve bunlara erişimi sağlamaktır. Buradaki büyük dosyalar, sabit sürücüye depolanamayan dosyalardır [3].
2. Bulut Bilişim
Bulut bilişim, genellikle dağıtılmış bir sistem olarak yapılandırılmış yüksek ölçeklenebilir bilgi işlem kaynakların bir ağ üzerinden bir hizmet olarak temin edildiği bir işlem paradigmasıdır. Bulut ortamı, büyük verilerin hem temel altyapısında hem de analitik altyapısında kolaylaştırıcı olarak ortaya çıkmıştır. Bulut hem genel hem de özel bulut ayarlarında büyük veri analizi için bir dizi seçenek sunmaktadır. Altyapı tarafında, Bulut, çok büyük veri setlerini yönetmek ve bunlara erişmek için seçenekler sunarken aynı zamanda güçlü altyapı unsurlarını nispeten daha düşük maliyetle desteklemektedir.
Bugün bulut bilişim sayesinde hard disklerde depolanan veriler internet ortamında sanal sunucularda saklanılabilmektedir. Bulut Bilişim, daha hızlı veri transferi, kıt Bilgi Teknolojisi (BT) kaynaklarının daha etkin kullanılması ve daha hızlı yenilik (inovasyon) kabiliyetine izin vermektedir. İnovasyon düşük maliyetli sanal ortamların dinamik kullanımı ile etkin olup bu talep üzerine şirketleşme (birleşme) olabilmektedir. Özellikle büyük şirketler için iş gücü tasarrufu büyük önem arz etmektedir. Bugün sosyal ağlarda yüklenen video, müzik ve fotoğraf gibi birçok veri o sitelerin bulutlarında depolanmaktadır. Bulut depolama hizmetlerine örnek olarak Dropbox, Google Drive, SkyDrive, iCloud, Yandex. Disk, Turkcell Akıllı Bulut, TTNET Bulut ve Ubuntu One verilebilir [4].

Şekil 7.3. Bulut bilişimin veri etkileşimi.
Bulut bilişim temel kaynaktaki yazılım ve bilgilerin paylaşımı sağlar. Ayrıca mevcut bilişim hizmetinin bilgisayarlar ve diğer aygıtlardan internet üzerinden kullanılmasını sağlar. Şekil 7.3’te görüldüğü üzere, işletme maliyetini düşürmesine ek olarak bulut teknolojileri radikal iş buluşları, yeni iş modelleri ve bilişimi kullanan herkes için kullanışlılığı, gözle görülür verimliliği sağlamak için temel haline gelmiştir.
“Bulut” sözcüğü dosyaların bulunduğu yeri belirtir. Bulut bilişimde bu sözcük bilginin işlenme ve saklanma alanı anlamında kullanılmaktadır.
Bulut özellikle büyük verilerin analizinde çok büyük kolaylıklar sağlamaktadır. Bulut; sanal, uyarlanabilir, esnek ve güçlü yapısı sayesinde büyük verilerin değişen çevreye uygun hâle gelmesini sağlamaktadır. Bulut mimarileri, çok büyük veri kümelerinin işlenmesi için ideal olan sanal makine dizilerinden oluşmakta ve bu işlemler sayısız paralel süreçlere bölünebileceği ölçüde gerçekleştirilir. “Küme işlem” adı verilen bu paralel işlem mimarilerinde işlem düğümleri olan sunucular raflarda (racks) depolanmaktadır [5]. Bu da genellikle doğrudan analiz için kullanılabilecek Hadoop kümelerinin geliştirilmesine yol açmıştır.
4. Veri Ambarı
Veri ambarı, verileri raporlamak için optimize edilmiş özelleştirilmiş veritabanıdır. Bu veritabanı genellikle yapılandırılmış büyük miktardaki veriyi depolamak için kullanır. Veriler Şekil 7.4’te yer alan dış kaynaklar ve operasyonel veri depolarındaki ETL (extract, transform, and load- çek, dönüştür, yükle) araçları kullanılarak yüklenir ve sonuçlar genellikle veri küpü içerisinde yer alan iş zekâsı araçları kullanılarak üretilmektedir.

Şekil 7.4. Veri ambarı ve Veri Deposu
5. Data Mart
Bir veri ambarı, bir kuruluşun tüm verileri için merkezi bir depodur. Bununla birlikte, bir data mart’ın amacı, insan kaynakları yönetimi gibi organizasyon içindeki belirli bir kullanıcı grubunun belirli taleplerini karşılamaktır. Genel olarak, bir kuruluşun data martları kuruluşun veri ambarının alt kümeleridir [6].
6. Dağıtık Sistem
Dağıtık sistem, birden fazla bilgisayar, bir ağ üzerinden iletişim kurarak, ortak bir hesaplama problemini çözmek için kullanılır. Problem paralel çalışan bir ya da daha fazla bilgisayar tarafından çözülmekte ve bu bilgisayarların her biri birden fazla görevi gerçekleştirmektedir. Dağıtık sistemlerin avantajları düşük bir maliyetle yüksek performans, yüksek güvenilirlik ve daha fazla ölçeklenebilirliği içermesidir.

Şekil 7.5. Dağıtık sistemler.
Dinamo, Amazon tarafından geliştirilen tescilli dağıtık veri depolama sistemidir. Amazon DynamoDB, herhangi bir ölçekte tutarlı, tek basamaklı milisaniyelik gecikmelere ihtiyaç duyan uygulamalar için hızlı ve esnek bir NoSQL veritabanı hizmetidir. Dinamo esnek veri modeli ve güvenilir performansı sayesinde mobil, web, oyun, reklam teknolojisi, Nesnelerin İnterneti ve gerçek zamanlı veri işleme türü de dâhil olmak üzere diğer birçok uygulama için mükemmel bir uyum sağlar.
7. Hadoop Bileşenleri ve Mimarisi
Hadoop, bir makineden başlayarak, yüzlerce makine üzerine dağılabilen büyük veri kümelerini işlemek için kullanılan, Java ile geliştirilmiş (ücretsiz) yazılım çatısıdır. Bu uygulamalarda genellikle Web üzerinde kullanılabilen ve çoğunlukla kullanılan açık uygulama programlama ara yüzleri aracılığıyla açık veri kaynaklarından erişilen veriler kullanılır (Şekil 7.6).

Şekil 7.6. Hahoop ile büyük veri işleme.
Hadoop, Google’ın Eşleİndirge ve Google File System’inden esinlenerek geliştirilmiştir. Başlangıçta Yahoo geliştirmiş ve şu an Apache Yazılım Vakfı (Apache Software Foundation) bu sistemi bir proje olarak yönetmektedir. Apache Hadoop yazılım kütüphanesi, basit programlama modelleri kullanarak büyük veri kümelerinin bilgisayar kümeleri arasında dağıtılmasını sağlayan bir çerçevedir. Tekli sunuculardan binlerce makineye ölçeklenmek üzere tasarlanmış olup her biri yerel hesaplama ve depolama imkânı sunmaktadır. Yüksek erişilebilirlik sağlamak için donanıma güvenmek yerine, kütüphane kendisi, başarısızlıkları uygulama katmanında algılamak ve ele almak üzere tasarlanmıştır; bu nedenle, her biri başarısızlıklara eğilimli olabilen bir bilgisayar kümesinin üstünde yüksek oranda mevcut bir hizmet sunmaktadır. Apache Hadoop, anlamlı bilgiler elde etmek için analitikten yararlanmak için büyük miktarda veri kullanıldığında, büyük verileri işlemek için bir çözümdür. Apache Hadoop mimarisi, çeşitli hadoop bileşenleri ve karmaşık iş problemlerini çözmek için muazzam yetenekleri olan farklı teknolojilerin birleşmesinden oluşur.
Hadoop ekosistemindeki tüm bileşenler açık bir şekilde belirginleştirilmiştir. Hadoop mimarisinin bütünsel yapısını Hadoop Ekosistemi’ndeki; Hadoop Ortak (Hadoop Common), Hadoop YARN (Yet Another Resource Negotiator), Hadoop Dağıtılmış Dosya Sistemi (Hadoop Distributed File System-(HDFS)) ve Eşleİndirge (MapReduce) elemanları oluşturmaktadır. Bu ana bileşenlerin altında ise başka araçlar bulunmaktadır. Hadoop Ortak, tüm Java kitaplıkları, yardımcı programlar, OS (Operating System) seviyesinde soyutlama, gerekli Java dosyalarını ve Hadoop’u çalıştırmak için komut dosyası sağlarken; Hadoop YARN, iş planlaması ve küme kaynak yönetimini yapan bir çerçevedir. Hadoop mimarisindeki HDFS, uygulama verisine yüksek verimlilikte erişim sağlar ve Hadoop Eşleİndirge, büyük veri kümelerinin YARN tabanlı paralel işlenmesini sağlar.
HDFS, Google Dosya Sistemi’ne dayanmakta ve güvenilir, hataya dayanıklı küçük bilgisayar makinelerinin büyük kümeleri (binlerce bilgisayar) çalıştırılacak şekilde tasarlanmış bir dağıtılmış dosya sistemidir. Apache Hadoop için varsayılan büyük veri depolama katmanı HDFS’dir. Kullanıcılar, büyük veri kümelerini HDFS’ye dökebilecekleri için HDFS, Apache Hadoop bileşenlerinin “Gizli Sosu” olarak adlandırılır ve veriler analiz için burada hazır hâle getirilir. HDFS bileşeni, güvenilir ve hızlı veri erişimi için farklı kümeler arasında dağıtılacak veri bloğunun birkaç kopyasını oluşturur.
Eşleİndirge (Map-Reduce), Google tarafından oluşturulan ve HDFS içerisindeki gerçek verilerin verimli bir şekilde işlenmesini sağlayan Java tabanlı bir sistemdir. Eşleİndirge, büyük bir veri işleme işini küçük görevlere bölerek yapar. Eşleİndirge, sonuçları bulmak için veriyi küçültmeden önce büyük veri kümelerini paralel olarak analiz eder. Hadoop ekosisteminde, Hadoop Eşleİndirge, YARN mimarisine dayanan bir çerçevedir. YARN tabanlı Hadoop mimarisi, büyük veri kümelerinin paralel işlenmesini destekler ve Eşleİndirge, arıza ve hata yönetimini göz önüne alarak, binlerce düğümde kolayca uygulamalar yazmada bir çerçeve sağlar.
YARN olarak bilinen Hadoop 2.0, günümüzde dağıtılan büyük verilerin işlenmesi ve yönetilmesi için yaygın olarak kullanılmakta olan, Ekim 2013’te piyasaya sürülen en son teknolojidir. Hadoop YARN, Hadoop veritabanı ve HBase ile birlikte Hadoop Ekosistemi ile bağlantılı tüm teknolojilere fayda sağlayacak performans geliştirmeleri sağlamak üzere Hadoop 1.0’a bir yeniliktir. Hadoop YARN, Hadoop distribitörleri tarafından gönderilen Hadoop 2.x dağıtımlarıyla birlikte gelir. YARN, Hadoop Eşleİndirge’yi Hadoop Sistemlerinde kullanmak zorunda kalmayan iş planlaması ve kaynak yönetimi görevlerini yerine getirir. Hadoop YARN, Hadoop 1.0’ın özgün özelliklerinden farklı olarak geliştirilmiş bir mimariye sahiptir. Bu sayede sistemler yeni seviyelere kadar ölçeklenebilir ve Hadoop HDFS’deki çeşitli bileşenlere sorumluluklar açıkça atanabilmektedir [7].
8. Spark
Spark; hız, kullanım kolaylığı ve sofistike analitik üzerine kurulmuş açık kaynaklı bir büyük veri işleme çerçevesidir. Başlangıçta 2009 yılında UC Berkeley’nin AMPLab’da geliştirilmiş ve 2010 yılında açık kaynaklı bir Apache projesi olarak hazırlanmıştır. Apache Spark, piyasaya sürülmesinden bu yana geniş çaplı endüstrilerdeki işletmeler tarafından hızla benimsenmiştir. Netflix, Yahoo ve eBay gibi internet santralleri, toplu olarak 8000’den fazla düğüm kümeleri üzerinde birden fazla petabayt veri işleyen Spark’ı büyük çapta kullanıma açmıştır. Spark 250’den fazla şirketin 1000’in üzerinde katkıda bulunanların, büyük veri alanındaki en büyük açık kaynak topluluğu hâline gelmiştir.
Spark, hızlı hesaplama için tasarlanmış yıldırım hızlı küme bilgi işlem teknolojisidir. Spark, Hadoop ve Storm gibi diğer büyük verilere ve Eşleİndirge teknolojilerine kıyasla birçok avantaja sahiptir. Her şeyden önce Spark, doğada çok çeşitli veri setleri (metin verileri, grafik verileri vb.) ve veri kaynağına ulaşıp kullanmayı sağlar [8]. Spark’ın temel özelliği, bir uygulamanın işlem hızını arttıran bellek içi küme işlemidir. Spark, toplu iş uygulamaları, yinelemeli algoritmalar, etkileşimli sorgular ve akış gibi çok çeşitli iş yüklerini kapsayacak şekilde tasarlanmıştır. Spark tüm bu iş yükünü ilgili bir sistemde desteklemenin yanı sıra, ayrı araçları muhaza ederek yönetim yükünü de azaltmaktadır. Spark aşağıdaki özelliklere sahiptir [9].
1) Hız: Spark Hadoop kümesinde bir uygulamayı çalıştırmaya yardımcı olmaktadır. Spark, Hadoop kümelerindeki uygulamaları bellekte 100 kat daha hızlı ve disk üzerinde çalışırken bile 10 kat daha hızlı çalıştırmayı sağlar. Bu sayede, diske okuma/yazma işlemlerinin sayısı azalmaktadır [10].
2) Birden çok dili destekler: Spark; Java, Scala veya Python’da hızlı bir şekilde uygulamalar yazmayı sağlamaktadır. Spark 80’den fazla üst düzey operatörden oluşan dâhili bir küme ile birlikte gelir. Bu nedenle Spark, kabuk (shell) içindeki verileri sorgulamak için etkileşimli olarak kullanılabilir.
3) Gelişmiş Analitik: Spark sadece ‘Eşle’ ve ‘İndirge’yi desteklemekle kalmaz. Aynı zamanda SQL sorguları, akış verileri, makine öğrenme ve grafik algoritmalarını da desteklemektedir. Spark geliştiricileri, bu özellikleri tek başlarına kullanabilir veya tek bir veri hattı kullanım örneğinde çalıştırmak için birleştirebilirler.
9. Storm
Storm (Gerçek Zamanlı Akış İşlemci, Şekil 7.7), büyük verilerin gerçek zamanlı akışını işlemek için tasarlanmış teknolojilerdir. Apache Storm Hadoop ile gerçek zamanlı olarak verileri işleme imkânı sağlayan dağıtılmış, hataya dayanıklı ve açık kaynaklı bir sistemdir. Akış işlemcisi; finansal hizmetlerdeki algoritmik işlem (alım satım), RFID (Radyo Frekanslı Tanımlama) durum işleme uygulamaları, dolandırıcılık tespiti, süreç izleme ve telekomünikasyondaki konuma dayalı hizmetler gibi uygulamalar sağlar.

Şekil 7.7. Storm işlemleri.
10. Metaveri
Metaveri, veri dosyalarının içeriğini ve bağlamını (kaynağını) tanımlayan verilerdir. Örneğin dijital fotoğraf makinesi ile çekilen fotoğraflarda, fotoğraf dosyası içerisine kaydedilen; fotoğrafın çekildiği tarih, fotoğrafın yatay ve düşey piksel boyut, fotoğrafın yatay-düşey çözünürlüğü, fotoğrafın odak uzaklığı, fotoğraf makinesinin markası ve modeli ile fotoğrafın çekildiği yerin GPS koordinatları gibi bilgiler birer metaveridir. Veri kaynaklarındaki verilerin büyük veri teknolojileri ile ilişkilendirilmesi ve metadatanın yönetimi Şekil 7.8’de verilmiştir.

Şekil 7.8. Metadata yönetim araçları.
11. NoSQL
NoSQL, ilişkisel veritabanı yönetim sistemlerine (RDBMS) bir alternatif olarak ortaya çıkmıştır. NoSQL, internetteki artan veriyi depolayabilmek ve hızlı veri akışına sahip sistemlerin ihtiyaçlarını karşılamak için yatay ölçeklemeye başvuran sistemlerdir. Bu özellik her gün terabaytlarca veriyi işleyen Facebook, Google ve Amazon gibi büyük firmaların NoSQL veri tabanlarını tercih etmelerinde etkin rol oynamıştır. Bunlar aynı anda birden fazla sunucu ile birlikte çalışabilmekte ve çok büyük ve karmaşık veriler üzerinde işlemler yapabilmektedir. Bu yönüyle bu veri tabanları veri seli ile mücadele de kuruluşlar için önemli bir araç olarak ortaya çıkmıştır. NoSQL veri tabanları SQL dilini kullanmadıkları için bunlara “Not Only SQL” adı verilmiştir. NoSQL veritabanı yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış bütün verileri çok hızlı bir şekilde özümseyebilmekte ve yüksek performanslı sorgulama kapasitesi sunabilmektedir (Şekil 7.9). NoSQL veri tabanlarına örnek olarak; Cassandra, HBase, Oracle NoSQL, MongoDB, memsql, Neo4j ve nuodb gibi araçlar verilebilir. Bu veri tabanlarının her birinin kendine özgü mimarileri bulunmaktadır93. Örneğin Cassandra yatay ölçeklenebilme özelliği sayesinde kümeye (cluster) yeni sunucular eklenmesine olanak sağlayarak kapasitenin artmasına izin verir. Ayrıca Cassandra doğrusala yakın ölçeklendirme sayesinde yüksek performansın artmasını sağlar.

Şekil 7.9. NoSQL’in yetenekleri.
12. BigQuery
BigQuery Mayıs 2012 de Google tarafından geliştirilmiş, büyük veri kümelerinin etkileşimli analizini sağlayan bir web hizmetidir. BigQuery servisi Google’ın altyapısını kullanarak büyük veri setlerinin hızlı bir şekilde analiz edilmesini sağlar. BigQuery, iç içe geçmiş verileri depolamak için kolona yönelik bir düzen kullanan dağıtılmış ve ölçeklenebilir bir sorgu sistemi olan Dremel üzerinde kurulmuştur [11]. BigQuery’nin tercih edilmesindeki en büyük etken Dremel’i kullanmasıdır. Google tarafından gerçekleştirilen Dremel altyapısı Eşleİndirge altyapısına göre üç avantaja sahiptir.
Birincisi, Dremel kolon bazlı veri modelini kullandığı için satır bazlı veri modelini kullanan Eşleİndirge’ye göre daha hızlı çalışmaktadır. Bundan dolayı Dremel, büyük veri setleri üzerindeki analitik işlemlerde çok hızlıdır.
İkinci olarak, kolon bazlı veri modelinde isim verileri kolon bazında tutulduğu için tekrar eden veri sayesinde sıkıştırma durumunda satır bazlı veri modeline göre Dremel daha avantajlıdır. Kolon bazlı veri modellerinin dezavantajı ise az veri ile sorgulama yapıldığında veriye birden fazla okuma ile ulaşılacağından sorgu performansında bir düşüş olur. Sonuç olarak kolon bazlı veri modelinin büyük veri setlerini okurken tüm kolonlar yerine belirli kolonlardaki veriye erişilmesinin tercih edilmesi performansın artmasını sağlamaktadır.
Üçüncü olarak, ölçeklenebilirlik açısından; Dremel Google’a göre büyük ölçekli sistemler ile test edilmiş tek yöntemdir. Dremel, BigQuery servisleri ile büyük veri analizleri Google sunucuları üzerinden yapıldığı için ayrıca bir veri merkezi kurulmasına gerek olmadığı için herhangi bir sermaye ayırmaya gerek duyulmaz [12].
13. Büyük Veri Bilimi’nde Python ve R Dilinin Önemi
Python, genel amaçlı bir web programlama dili olarak popülerken, özellikle istatistiksel hesaplama için geliştirilen R, veri görselleştirme için mükemmel özellikleriyle popülerdir. Python ve R dili, veri bilimin de istatistiksel hesaplamalar için kullanılan temel araçların başında gelmektedir. Veri bilimciler arasında R veya Phyton’dan hangisinin daha iyi olduğu konusunda tartışmalar hala sürmektedir. Ancak her iki programlama dili de birbirlerinin tamamlayıcı nitelikte anahtar özelliklerine sahiptirler.
Veri bilimi; istatistik hesaplama, tahmin modelleri oluşturma, verilere erişme ve manipüle etme, açıklayıcı modeller oluşturma, veri görselleştirmeleri yapma, modelleri üretim sistemlerine entegre etme ve verilere ilişkin çok daha fazlası gibi birkaç birbiriyle ilişkili ancak farklı faaliyetlerden oluşmaktadır. Python programlama, veri bilimcilerine, tüm bu işlemleri veri üzerinde gerçekleştirmelerine yardımcı olan bir dizi kütüphane sağlamaktadır.
Python, sözdizimi basitliği ve farklı ekosistemlerde çalışabilmesinden dolayı geniş bir popülerlik kazanmıştır. Bu nedenle Python veri bilimi için genel amaçlı çok paradigmalı programlama dilidir. Python programlama, programlayıcıların veriyle oynamalarına yardımcı olabilir; ihtiyaç duydukları her şeyi veri ile çözme, veri sürtüşme, web sitesi silme, web uygulaması oluşturma, veri mühendisliği ve daha pek çok şey yapabilmektedir. Python dili, programcıların bakımı kolay, büyük ölçekli sağlam kod yazmalarını kolaylaştırır.
R dilinden farklı olarak, Python dilinde dâhili paketler bulunmamakla birlikte, veri bilimcilerinin yararlı istatistiksel ve makine öğrenme görevlerini yerine getirmek için kullanabilecekleri Scikit, Numpy, Pandas, Scipy ve Seaborn gibi kütüphaneleri desteklemektedir. Python programlama, sözde koda benzer ve İngilizce dili gibi mantıklıdır. Python da kodda kullanılan ifadeler ve karakterler matematiksel olabilir, ancak mantık koddan kolaylıkla anlaşılabilmektedir.
R programlama dili, S. adlı bir programlama dilinin bir dalı olup, R, S’nin açık kaynaklı bir uygulamasıdır. R, S-plus’dan büyük ölçüde yalnızca komut satırı biçiminde farklıdır. R, Yeni Zelanda Auckland Üniversitesi’nde profesör olan Ross Ihaka ve Robert Gentleman tarafından geliştirilmiştir. Bu profesörlerin adlarının ilk harflerinden dolayı programa R ismi verilmiştir. Programın geliştirilmesindeki temel amaç, öğrencilerin veri analizi yapıp, grafik çizebilecekleri ücretsiz bir yazılım geliştirmektir. R, öncelikle istatistikçiler tarafından benimsenmiş ve günümüzde istatistiksel hesaplama için kullanılan bir programdır.
R Dili, Linux, Windows ve Mac’te bulunan istatistiksel hesaplama ve grafik için açık kaynak programlama dili ve ortamıdır. R dili, geliştiricilerin, veri ve kodların çapraz platform dağıtımını ve testini sağlayarak işlevselliği yeni boyutlara taşımasını sağlayan yenilikçi bir paket sistemine sahiptir. R paketleri; R fonksiyonları, veriler ve kodlardan oluşmaktadır. Paketlerin bilgisayarda saklandığı dizine library denir. R dili, 27 Aralık 2016 itibariyle Veri Bilimi ve analizi için 10.000’e yakın ücretsiz paketi desteklemektedir.
Milyonlarca veri bilimcisi ve istatistikçi, istatistiksel hesaplama ve niceliksel pazarlamayla ilgili büyük sorunları ortadan kaldırmak için R programlamayı kullanıyor. Günümüzde R dilini kullanan şirketler ve kullandıkları alanlar şöyledir: LinkedIn, Twitter, Bank of America, Facebook, Yhoo, Amazon, Airbnb, Google, Microsoft, Ford and Drug Administration, Ford Motor Company, Llyod ve Uber gibi finans ve işletme analiz odaklı kuruluşlar için önemli bir araç hâline gelmiştir. Bu şirketlerden bazısının R’yi kullandıkları alanlar şöyledir: Google reklam kampanyalarında yatırım gelirlerini hesaplamada, ekonomik etkinlik tahmininde, TV reklamlarının etkinlik analizinde, Facebook statü güncellemelerinde, sosyal network grafiklerinde, Microsoft istatistiksel analiz için, Bank of America raporlamada, Ford Company veri temelli karar vermede, Llyod’s sigortalamada ve Uber istatistiksel analiz için kullanmaktadır [13].
Bölüm Özeti
Büyük verinin günümüzde bu kadar önemli ve üzerinde durulan bir konu haline gelmesinin temel nedeni; süper devletlerin, gelişmiş toplulukların, kamu kurum ve kuruluşların ve özel sektörün yaptıkları işler ve verdikleri hizmetler yanında, sosyal medya, internet ve benzeri teknolojilerin kullanımı ile yaygınlaşan uygulamaların sunucularında oluşan ve günümüze kadar değerlendirilmeyen verilerin öneminin anlaşılmasıdır. Belirtilen bu organizasyonlar büyük verinin işlenmesi ve anlamlandırılması ile kendileri için büyük fayda sağlayabilecek çıkarımlarım üretebileceklerinin farkına varmışlardır. Bunun sonucunda günümüzde bu sektöre çok büyük yatırımlar yapmaktadırlar. Bu sonuç büyük veri kavramının popülerliğinin artmasına, araştırmacıların ilgi odağı haline gelmesine vesile olmuştur. Büyük veri ile birlikte yalnızca teknoloji alanında değil, insan davranış ve düşünme analizinde, algılama biçimlerimizde, yeni araştırma yöntemlerimizde, daha pek çok farklı alanda büyük değişiklikler yaşanmaktadır.
Yeni teknolojilerin üretimi veya kullanımı konusunda başta özel sektör olmak üzere kurumlar ve kuruluşlar ile bireylerin de bu değişimlerin dışında kalamayacağı sonucuna varılmıştır. Özellikle araştırma kurumları büyük verinin etkin kullanımı konusunda öncü olmalı, üniversitelerin ve bilimle ilgili diğer kurum ve kuruluşların büyük veri ile ilgili teknoloji ve uygulama geliştirilmesine destek vermeleri gerekmektedir. Büyük veriyi kendi meslekleri doğrultunda değerlendirmek isteyenler için, gerekli eğitimi almaları konusunda gerekli ortam sağlanmalı, bu konuya eğitim programlarında yer verilmelidir. Büyük veri konusunda yurt dışı çalışmalar örnek alınıp incelenmeli, benzeri modeller yurtiçinde özellikle üniversiteler öncülüğünde gerçekleştirilmelidir. Şüphesiz bu konu birtakım yatırımları gerektirmektedir. Bu durumda malî destek devlet kurum ve kuruluşları tarafından sağlanabilir.
Kaynakça
[1] Halper, F., & Krishnan, K. TDWI big data maturity model guide interpreting your assessment score. TDWI Benchmark Guide, 2013.
[2] Ayvaz, S. & Salman, Y.B. Türkiye’de Firmaların Büyük Veri Teknolojileri Bilinirliği ve Kullanımı Analizi. Avrupa Bilim ve Teknoloji Dergisi, (18), 728-737, 2020.
[3] Ghemawat S, Gobıoff H, Leung S.T. “The Google File System”, 19th ACM Symposium on Operating Systems Principles, Lake George, NY, October 2003.
[4] Demir T., “Bulut Bilişim (Cloud Computing) Nedir?”, 2016, http://www.timurdemir.com.tr/bulutbilisim-cloud-computing-nedir, (07.01.2016).
[5] Gürsakal N, “Büyük Veri”, Genişletilmiş 2. Baskı, Dora, Bursa, ISBN:978 605-4798-803, syf. 157, 2014.
[6] Rouse M. “Data mart (datamart)”, May 2014. (Son Erişim: 12.12.2017)
URL: http://searchsqlserver.techtarget.com/definition/data-mart
[7] DeZyre, “Hadoop 2.0 (YARN) Framework – The Gateway to Easier Programming for Hadoop Users”, 25 November 2014, https://www.dezyre.com/article/hadoop-2-0-yarn-framework-the-gateway-to-easierprogramming-for-hadoop-users/84, (10.02.2017).
[8] Apache Spark – Tutorial, “Apache Spark – Introduction”, 2016, https://www.tutorialspoint.com/apache_spark/apache_spark_introduction.htm, (01.02.2016).
[9] Penchikala Srini, “Big Data Processing with Apache Spark – Part 1: Introduction”, Jan 30, 2015, https://www.infoq.com/articles/apache-spark-introduction, (22.10.2017).
[10] Databricks, “What is Apache Spark™?”, 2016, https://databricks.com/spark/about/, (01.02.2016).
[11] Melnik S, Gubarev A, Long J.J, Geoffrey R, Shivakumar S, Tolton M, Vassilakis T. “Dremel: Interactive Analysis of Web-Scale Datasets”, Proceedings of the VLDB Endowment, Vol. 3, No. 1, Singapore, 2010.
[12] Derinöz C., “Google BigQuery Servisi İle Büyük Veri İşlemleri Ve Sorgu Sonuçlarının BIME İş Zekası Ürünü İle Görselleştirilip Android Tabanlı Mobil Cihazlar Üzerinden İzlenmesi”, Data & Analytics, Nisan 22, 2014.
[13] Çelik S. “Büyük Veri ve İstatistikteki Uygulamaları”, Ph.D. thesis, Social Science Institution, Econometrics, University of Uludağ, 2018.

8. BÜYÜK VERİ ANALİZİNDE KULLANILAN TEKNİKLER

Ders Anlatimi – Video

Ders Anlatimi – Ses
Unite-8 Sunumu – PDF
Online Test – Unite Sorulari
Giriş

Büyük veri analizi (veri analitiği), yararlı bilgileri keşfetmek üzere verileri temizleme, dönüştürme ve modelleme sürecidir. İşletmenizin zayıf noktalarını tanımlamanıza, güçlü yönlerden yararlanmanıza ve veriye dayalı kararlar almanıza yardımcı olur.
Büyük veri analizi; şirketlerin müşterilerini daha iyi anlamaları, reklam kampanyalarını değerlendirmeleri, içerikleri kişiselleştirmeleri, içerik stratejileri oluşturmaları ve ürün geliştirme açısından oldukça etkili olabilir. Performans ve kârlılıklarını artırmak isteyen işletmeler veri analizini küçümsememelidir.
Veri analizlerini profesyonel yazılımlar kullanarak birkaç tıklama ile gerçekleştirmek de mümkündür. Böylece hiçbir şeyi manuel olarak hesaplamanıza gerek kalmadan BI (Business Intelligence) raporlama araçları kullanılabilir.
Son zamanlardaki bu trendle birçok veri analizi tekniği için, makine öğrenme algoritmalarını ve otomasyonunu entegre eden özel sistemlere ve yazılımlara başvurulmakta. Ayrıca veri analizi programları, verilerin depolanması ve paylaşılmasını da kolaylaştırmaktadır.
8.1. Büyük Veri Analizinin Önemi
Büyük veriyi analiz etmek (veri analitiği), büyük ve çeşitli veri setleri üzerinde işlem yapılarak gizli örüntüleri çıkarma, bilinmeyen ilişkileri keşfetme sürecidir. Kullanılan yöntemlerle elde edilen bilgi; firmalara, kurum-kuruluşlara veya ticari girişimlere yönelik önemli bilgiler sağlamaktadır. Büyük veri analiz uygulamaları veri bilimcilere modelleri tahmin etme, istatistikçilere ve diğer analiz alanında çalışan profesyonellere büyüyen verileri kolay analiz etme yeteneği kazandırır. Büyük veri analitiği klasik yöntemlerle yönetilmesi çok zor olan çok büyük, yapılandırılmamış ve çok hızlı değişen veriyle uğraşır ve anlamlı örüntüler elde eder. Yani büyük veri analizinin temel amacı, elde edilen bilginin bilinçli kararlar vermek için kullanılabilmesi için verilerde anlam bulmaktır.

Şekil 8.1. Büyük verini katma değerli çıktıya dönüşüm süreci.
Büyük verinin analizi, doğru verilerle ve yöntemlerle yapıldığında, kurum ve kuruluşlara stratejik ve kritik kararlarında yapılabilecek birçok hatanın önüne geçilmesini sağlayabilmektedir. Şekil 8.1’de görüldüğü üzere büyük verinin anlamlandırılması amacıyla yapılan büyük veri analizini endüstri, finans, eğitim, sağlık ve güvenlik sistemleri gibi birçok sektör müşteri memnuniyetini ölçmek ve artırmak amacıyla da kullanmaktadır.
Büyük veri analizi, farklı türlerde içerik barındıran çok geniş ve farklı kayıtları işlemek adına geliştirilmiş analitik ve paralel tekniklerin kullanılmasıdır. Bu noktada büyük veri analitiği araçları, geleneksel veri tabanı teknikleri kullanılarak işlenmesi zor olan, hızla değişen ve çok miktardaki yapısal, yarı yapısal ve yapısal olmayan verinin bir bütün olarak analizi ile veriden değerli bilgiler elde edilmesini amaçlamaktadır.

Şekil 8.2. Firmalar için büyük verinin analiz edilmesinin önemi.
İşletmeler için büyük veri analizi; yeni projelerde kararlar, yapılacak yatırımlar, büyüme ya da küçülme gibi kritik karar alma süreçlerinde etkin bir araç olarak kullanılabilecek bilimsel bir yöntem olarak karşımıza çıkmaktadır. Şekil 8.2’de görüldüğü üzere firmaların büyük veri analizi sürecinde kullanılan 5 temel adım vardır. Bazı özel durumlar için bu adımlar değişse de geleneksel analiz adımları şöyledir:
1. Amaç Belirleme: Veri analizi sürecinde elde edilmek istenen amaçlar önceden belirlenmeli ve analiz bu amaçları ortaya çıkaracak şekilde planlanmalıdır. Hedefler belirlenirken, amaçları yerine getirebilecek düzeyde farklı alt gruplar elde edilebilir.
2. Veri Toplama: Her ne kadar depolama hacmini ve ek yatırım bütçesine sebep olmasına karşın farklı kaynaklardan ve çeşitlerden, olabildiğince çok veri toplamak veri analizinin daha doğru sonuçlar ortaya koymasının önünü açacaktır. Günümüzde veri toplamak için farklı yöntemler kullanılsa da en sık kullanılanlar arasında bilgisayarlar, sosyal medya ve bloglar, forum siteleri, mobil uygulamalar ve web siteleri yer almaktadır.
3. Veri Temizleme: Elde edilen verilerin analize uygun olmayanları elemek ve yanıltıcı sonuçların ortaya çıkmasını önlemek için planlı hareket edilmelidir. Bu işlem ön hazırlık olarak da adlandırılmaktadır ve veri toplama süreçlerindeki yapısal olmayan verilerin düzenlenmesi olarak da ifade edilebilmektedir.
4. Veri Analiz Ekibi ile Çalışma: Büyük veriden anlamlı ve katma değerli çıktılar elde etme sürecini yürütmek için veri analisti kullanılmaktadır. Veri analizi tek başına uzmanlık gerektiren bir iş olduğundan, işletmede çalışan herhangi birinin ek görevi olarak ele alınmamalı; veri analizi konusunda uzmanlaşmış kişiler tarafından süreç yönetimi gerçekleştirilmelidir.
5. Tekrar Etme ve Optimizasyon: Veri analizi sürecindeki işlemler mümkün olduğunca çok tekrarlanarak, verilerin tutarlılığı izlenip, en doğru sonuçlara ulaşmak gerekir. Burada analistin tecrübesi ve veriyi yorumlaması sayesinde en uygun sonuçların elde edilmesi ve raporlanması sürecidir.
Büyük veri analizi nicel veri analiz yöntemleri ve nitel veri analiz yöntemleri olarak 2 ana kategoride sınıflandırılabilmektedir.
i. Nicel Veri Analizi Yöntemi: Bu yöntem, nicel veriyi baz alarak sonuca ulaşır. Nitel yönteme kıyasla daha kesin sonuçlar veren bu yöntem grubuna dâhil olan teknikler betimsel ve kestirimsel istatistiktir. Teknikler kapsamında sayısal veriler analiz edilip düzenlenerek sonuca ulaşılır. Betimsel istatistik, bilimsel araştırmaların yorumlanması için en etkili teknik olup nicel verilerin tanımlayıcı indekslere evrilmesi adına kullanılır. Kestirimsel istatistik, betimsel istatistik tekniği kullanılarak ulaşılan sonuçların genellemesinde tercih edilir ve tahmine dayalıdır.
ii. Nitel Veri Analizi Yöntemi: Bu yöntem ise nitel veriyi (sayısal olmayan) baz alarak sonuca ulaşır. Sosyal gerçekliğin ortaya konmasında kullanılan yönteme dâhil olan teknikler arasında içerik analizi ve betimsel analiz bulunur. İçerik analizi tekniğinde veriler detaylı olarak incelenerek kavram ve ilişkilerle açıklanmaya çalışılır. Betimsel analizde ise derinlemesine inceleme yapılmaz; veriler betimlenir, bulgular yorumlanarak düzenlenir.
Ayrıca büyük verinin analiz yöntemleri bilimsel araştırma yöntemler açısından aşağıdaki şekilde sınıflandırılmaktadır:
1. Betimsel Analiz (Descriptive Analysis): En basit ve herkes tarafından kolaylıkla anlaşılabilir veri analizi türüdür. Ortalama, standart sapma, yüzde ve sıklık gibi veriler elde etmek için ya tam veriye ya da özetlenmiş sayısal veri örneğine dayanır. Analiz için kullanılan verilerden “Yaş aralığı” ve “Nicelik” gibi sonuçların hızlı ve kolay bir şekilde ortaya çıkmasını sağlar.
2. Keşif Analizi: Analiz sürecinde kullanılan veriler arasındaki doğrudan ya da dolaylı ilişkileri anlamak için keşif analizinden yararlanılır.
3. Çıkarımsal Analiz (Inferential Analysis): Küçük miktarda veri kullanarak, daha büyük miktardaki gruplar hakkında yorum yapabilmek ya da kararlar alabilmek için çıkarımsal analiz kullanılır.
4. Tahmin Analizi (Predictive Analysis): Bir grup ya da olaydaki verileri kullanarak başka bir grup ya da olay hakkında yorum yapabilmek için tahmin analizi kullanılır. Yani bu analiz mevcut veya geçmiş verilere dayanarak gelecekteki sonuçlar hakkında tahminlerde bulunmak için kullanılır. Doğruluğu, ne kadar ayrıntılı bilgiye sahip olduğunuza bağlıdır. Bir trendin, modelin veya olayın neden gerçekleştiğini anlarsanız, karşılaşabileceklerinize dair bilinçli bir projeksiyon geliştirebilir, potansiyel sorunların kontrolden çıkmasını önleyebilirsiniz. Bu sayede, kurum veya kuruluşunu için girişimlerinizi formüle edebilir, etkili kampanyalar başlatabilirsiniz.
5. Teşhis Analizi (Diagnostic Analysis): Bu yöntemi, istatistiksel analizi bir adım daha ileri götürerek, bir şeyin neden olduğunu cevaplamak için kullanabilirsiniz. Teşhis analizi, verilerin davranış kalıplarını tanımlamak için yararlıdır.
6. Metin Çözümlemesi (Text Analysis): Metin analizine; “Veri Madenciliği” de denir. Veritabanlarını kullanarak büyük veri kümelerindeki bir deseni keşfetmeye ve ham verileri iş öngörülerine dönüştürmeye yarar.
7. İstatistiksel Analiz (Statistical Analysis): İstatistiksel analiz, bir veri kümesinin veya bir veri örneğinin analizi için verilerin toplanmasını, analizini, yorumlanmasını, sunumunu ve modellenmesini içerir. Betimsel Analiz ve Çıkarımsal Analiz olarak iki kategoriye ayrılabilir.
Analiz edilecek veri miktarı arttıkça, bu verinin işlenmesi ve yorumlanması için uzmanlık ve doğru uygulama zorunluluğu doğar. Uzman kişiler tarafından ve veri analiz uygulamaları kullanılarak gerçekleştirilen veri analiz işlemleri zamandan tasarruf sağladığı gibi, en doğru sonuçlara ulaşmak için de gerekli olup en doğru yolu seçmelerine olanak sağlanır (Şekil 8.3) [1].

Şekil 8.3. İşletme için doğru kararlara büyük veri analitiği sayesinde ulaşılır.
Büyük veri analizinde cevap bulunması gereken önemli sorular vardır. Bunlar:
Büyük veri boyutu ve çeşitliliği arttıkça, veri analitiğinde karşılaşılacak sorunlarla nasıl başa çıkılacaktır?
Verinin tamamı depolanmalı mıdır?
Verinin tamamı analiz edilmeli midir?
Hangi büyük veri unsurlarının gerçekten önemli olduğuna nasıl karar verilmelidir?
En iyi avantajı elde etmek için büyük veri nasıl kullanılmalıdır?
Cevap bekleyen bu sorular, büyük verinin analiz aşamasında çok büyük zorlukları da beraberinde getirmektedir. Büyük veri, yapısal, yarı yapısal ve yapısal olmayan veri türlerinden oluştuğu için büyük veri analitiğinde ileri kabiliyetlere gereksinim duyulmaktadır ve çözülmesi gereken en önemli sorunların başında gelmektedir. Yapısal olmayan verinin yapısal veriye nazaran büyüklüğünün ve büyüme hızının çok fazla olması, bu manada yapısal olmayan verinin veri tabanlarında yüksek depolama alanı ve enerji tüketimine ihtiyaç duyması başlıca zorluklar arasında yer almaktadır. Bununla birlikte yapısal olmayan verinin yapısal veri gibi ilişkisel veri tabanlarında belirli bir düzende depolanamamasından dolayı birlikte çalışabilirliğin olmaması da aşılması gereken diğer bir zorluktur. Bu zorlukları aşmak için veri depolama sistemlerinde ve sistemler üzerinde çalışan sorgu dilleri mantığında da değişikliklere gidilmiştir.
Bununla birlikte veri üzerinde yapılması gereken analiz türü, elde edilecek sonuçlara da bağlıdır. Analiz aşamasında ya tüm büyük veri unsurları birleştirilir, ya da hangi büyük veri unsurunun elde edilecek sonuçla alakalı olduğu belirlenir [2, 3].
8.2. Büyük Veri Analizi Sayesinde Elde Edilen Kazanımlar
Müşterileriniz her gün bol miktarda veri üretir; devletlerin vatandaşlarına sunduğu her türlü hizmetlerini kullandığın, e-postanızı her açtıklarında, mobil uygulamanızı kullandıklarında, sizi sosyal medyada etiketlediklerinde, mağazanıza girdiklerinde, çevrimiçi alışveriş yaptıklarında, bir müşteri hizmetleri temsilcisiyle konuştuklarında veya sanal bir asistana sizin hakkınızda soru sorduklarında. Büyük veri analitik araçları bu verileri toplar ve kurum/kuruluşunuz için yararlı olacak şekilde analiz eder.
Daha fazla veriyi daha hızlı bir şekilde analiz edebilme yeteneği, bir kurum/kuruluşa büyük faydalar sağlayabilir. Bazı önemli kararları almak için veya bazı problemleri tespit etmek için verilerin daha verimli bir şekilde kullanılmasına olanak sağlar. Büyük veri analitiği, kurum/kuruluşların fırsatları ve riskleri belirlemek için birden çok kaynaktan büyük miktarda veriyi birden çok biçimde kullanmasına izin vererek kurum ve kuruluşların hızlı hareket etmelerine ve kârlarını iyileştirmelerine yardımcı olur.
İşletmeler, işle ilgili bazı kararları hızlı ve doğru bir şekilde alabilmek için büyük veri analitiği sistemlerini ve yazılımlarını kullanabilir. Büyük veri analitiği daha etkili pazarlama, yeni gelir fırsatları, müşteri kişiselleştirme ve iyileştirilmiş operasyonel verimlilik gibi konularda yardımcı olabilir. Bu faydalar etkili bir strateji ile rakiplere göre büyük avantajlar sağlayabilir.
Büyük veriyi, her boyuttaki kurum veya kuruluşlar kullanabilir ve yararlanabilir. Organizasyonunuzun, verimliliğini artırmak, kâr hanenizi büyütmek ve yeni iş modellerini güçlendirmek için büyük veri analitiğinin size sağladığı kazanımlardan yararlanabilirsiniz [4].
i. Maliyetleri azaltır: Büyük veri analitiği, kullanıcıların işletmelerindeki maliyetleri düşürmelerine yardımcı olur. Hadoop ve bulut tabanlı analiz sistemleri, kullanıcıların verilerini depolamanın ucuz ve verimli yollarını sağlar. Elde ettiğiniz veriler ve iç görüler sayesinde işletmenizin düşük ve yüksek performans gösteren yönlerini kolayca tespit edebilirsiniz.
Örneğin, E-ticaret sitenizde, reklam ve pazarlama biriminiz çok başarılı kampanyalar yürüterek birçok potansiyel müşteriyi sitenize yönlendirmesine rağmen gerekli satışları yapamadığınızı düşünelim. Büyük veri analitiğini kullanarak, satışlarınızı kaybetmenize hangi faktörlerin sebep olduğunu araştırabilir ve bunlar için gerekli önlemleri alabilirsiniz. Belki ödeme sayfanız iyi optimize edilmemiştir, belki sitenizin hızı yeterli değildir. Bu durumda sorunu çözmek için gerekli aksiyonları hızlıca alabilirsiniz.
ii. Hızlı kararlar almanızı sağlar: Geniş verilerin detaylı ve hızlı bir şekilde kullanılabilir hale gelmesi sayesinde, kullanıcılar daha hızlı bir şekilde kritik kararlar alabilirler.
iii. İş performansınızı optimize eder: İşletmenizi her yönüyle genel kapsamda görebilmenin önemli faydaları vardır. Bu sayede çalışmalarınızın veya işlemlerinizin sorunlu olduğu noktaları veya eksiklikleri kolayca teşhis edebilir ve gerekli önlemleri hızlıca alabilirsiniz. Çoğu büyük veri analitiği sistemleri, destekleyici faktörler veya ilişkili veri noktaları gibi en azından bazı teşhis bilgilerinin sağlanmasına yardımcı olacaktır.
iv. Verilerinizi doğru yönetmenizi sağlar: Veri yönetimi, büyük verilerin kritik bir özelliğidir. Genel Veri Koruma Yönetmeliği gibi bazı yasal düzenlemelerden dolayı verilerin akışını kontrol etmek kritik öneme sahip bir konudur. Veri kalitesi yönetimi verilerin temizlenmesini, toplanmasını, dağıtılmasını ve ilişkilendirilmesini içerir.
v. Eğilimleri analiz etmenizi sağlar: Eğilimleri tahmin etmek ve davranışları analiz etmek, büyük veri analitiğinin en önemli özellikleri arasındadır. Geçmiş verilerden yola çıkarak, büyük veri analitiği, sonraki dönemler için tahminler yapmaya çalışacak ve aynı zamanda sonuçları etkileyebilecek, mevsimsellik, fiyat dalgalanmaları, farklı tüketici davranışları, marka etkileşimi gibi faktörleri de hesaba katacaktır.
vi. Analizleri kolayca paylaşmanızı sağlar: Görselleştirilmiş ve tablolara dönüştürülmüş İç görüleri kuruluşunuzdaki diğer kişilerle hızlıca paylaşmanızı sağlar. Tablolar dinamik bir şekilde güncellenir, etkileşimli pencereler ham verilere dönüştürülür. Tablolar, büyük ölçüde pazarlama, satış veya yönetim gibi belirli kullanım durumları için uyarlanmıştır. Görselleştirmeler, verimli ve anlamlı yollarla iletişim kurarak verilerin hikayesini anlatmaya yardımcı olur.
8.3. Büyük Veri Analiz Aşamaları
Büyük veri analizi, verileri keşfetmenizi, içinde bir kalıp bulmanızı ve buna dayanarak kararlar almanızı sağlayan bir süreçtir. Tüm organizasyonunuzu daha bilgili kılmayı amaçlar. Kapsamlı bir veri analizi aşağıdaki aşamaları içerir:
1. İhtiyaçları Belirleme: Verilerinizi analiz etmeye veya herhangi bir analiz tekniğini incelemeye başlamadan önce, kuruluşunuzdaki tüm kilit paydaşlarla iş birliği yapmalı, analiz yapmanın amacına, neyi analiz edeceğinize ve nasıl ölçeceğinize karar vermelisiniz.
2. Soruları Belirleme: Temel hedeflerinizi belirledikten sonra, görevinize ulaşmanıza yardımcı olmak için hangi soruların cevaplanması gerektiğini düşünmelisiniz. Bu, başarınızın temellerini şekillendireceğinden en önemli veri analizi tekniklerinden biridir. Verilerinizin çalıştığından emin olmak için doğru sorularını sormanız gerekir.
3. Veri Toplama: En doğrulanmış kaynaklardan veri toplamaya, veri toplarken, verilerin toplanma tarihine ve kaynağına dair notlar tutulmasına ve verilerin analiz için organize edilmesine önem gösterilmelidir. Kullanılacak veriler geçmiş verileri veya belirli bir girişim için toplanan yeni bilgileri içerebilir. Bir kitlenin demografik özellikleri, ilgi alanları, davranışları ve daha fazlası hakkında bilgiler içerebilir. Müşteriler ve site ziyaretçilerinden toplanabilir veya diğer kuruluşlardan satın alınabilir. Bir şirketin kendi müşterileri hakkında topladığı verilere birinci taraf verileri, bir şirketin başka bir kuruluştan elde ettiği verilere ikinci taraf verileri denir ve bir şirketin bir pazardan satın aldığı toplu verilere üçüncü taraf verileri denir.
4. KPI’ları Belirleme: KPI’lar, göz ardı etmemeniz gereken birincil yöntemlerden biridir. Anahtar Performans Göstergelerini (KPI) tanımlamak, verileri doğru bir şekilde ölçmenizi sağlar. KPI’lar başarıyı ve sonuçları nasıl ölçtüğünüzü tanımlamanıza yardımcı olur. Bir dizi önemli performans göstergesi (KPI) ile belirli alanlardaki ilerlemenizi izleyebilirsiniz. KPI Nedir? adlı detaylı yazımızı incelemenizi öneririz.
“Kilit performans göstergesi anlamına gelen KPI (Key Performance Indicator), şirketlerin, projelerin ya da bireylerin kilit hedeflerine etkili bir şekilde ulaşıp ulaşmadığını gösteren ölçülebilir bir değerdir.”
5. Verileri Temizleme: Toplanan veriler arasında yinelenen kayıtlar, hatalı ve alakasız olanlar gibi gereksiz bilgi yığının kırpılması gerekir. Analizden önce veri temizliğinin yapılması, analizin yalın bilgilerle beklentilere uygun sonuçlanmasını sağlar. Faydasız olduğunu düşündüğünüz verileri ayıklamak için referans olarak KPI’larınızı kullanmalısınız. İşletme hedeflerinize uymayan veya KPI yönetim stratejilerinize uymayan tüm istatistikler, olgular, rakamlar veya metrikler denklemden çıkarılmalıdır.
6. İstatistiksel Analiz: Veriler toplandıktan ve temizlendikten sonra analiz için hazır hale gelir. Bu aşamada, gereksinimlere göre sonuçlarınızı anlamanıza ve yorumlamanıza yardımcı olacak yukarıdaki gibi veri analiz tekniklerini ve yazılımlarını kullanabilirsiniz. En önemli analiz türlerinden biri istatistiklerdir. Küme (cluster), Cohort, Regresyon ve Faktör gibi istatiksel araçlarla veri analizinize daha mantıklı bir yön vermeniz kolaylaşır.
7. Veri Yönetimi Yol Haritası: Verilerinizi depolamanıza, yönetmenize ve işlemenize yardımcı olacak bir “veri yönetimi yol haritası” oluşturmak analiz yöntemlerinizin daha başarılı olmasına yardımcı olacaktır.
8. Doğru Teknolojiyi Entegre Etmek: Verileri analiz etmenin elbette ki birçok yolu vardır, ancak doğru yazılımın, güçlü analiz platformlarının seçilmesi zamandan ve emekten tasarruf edilmesini sağlayacak ve başarınızda etkili olacaktır.
9. Soruların Cevaplanması: Tüm bu aşamalardan sonra ikinci adımda belirlediğiniz soruları hızla cevaplamaya başlayabilirsiniz. Büyük veriler ve doğru analiz önemli soruların cevaplarını sunarken, iç ve dış paydaşların, müşterilerle birlikte, verilerden yararlanmasını da sağlamış olur.
10. Verilerin Görselleştirilmesi: Verileri görselleştirme, kuruluşunuzdaki herkesin, teknik altyapısı olmayanların bile neler olduğunu görebileceği anlamına gelir. Verilerin kolay anlaşılması için grafiksel olarak gösterilmesi; bilinmeyen gerçekleri ve eğilimleri keşfetmek için kullanılır. Bu şekilde ilişkileri gözlemleyerek ve veri kümelerini karşılaştırarak, anlamlı bilgiler elde etmenin etkili bir yolunu bulabilirsiniz. Veri görselleştirme, metriklerinizle bir hikaye anlatmanıza da olanak tanıyan güçlü bir araçtır.
11. Metin çözümlemesi: Metin madenciliği olarak da bilinen metin analizi, büyük miktarda metin verisini yönetmeyi kolaylaştıracak şekilde düzenleme işlemidir. Modern analiz araçları ve teknikleri; ürün incelemeleri, makaleler, sosyal medya iletişimleri ve anket yanıtları da dahil olmak üzere çeşitli kelime tabanlı veri kaynaklarından bilgi elde etmenize yardımcı olarak metin analizi sürecini hızlandırabilir.
12. Tanı analizi: Belirli sorulara doğrudan ve eyleme geçirilebilir yanıtlar sağlamak üzere tasarlanan bu aşama, perakende analitiği gibi önemli organizasyonel işlevlerin yanı sıra dünyanın en önemli araştırmada yöntemlerinden biri olarak kabul edilir. Tanı verileri analizi, analistlerin ve şirket yöneticilerinin, bir şeyin neden olduğuna dair sağlam bir bağlamsal anlayış kazanmalarına yardımcı olur. Bir şeyin neden olduğunu ve nasıl olduğunu biliyorsanız, sorunu tam olarak çözmenin yollarını belirlemeniz de kolaylaşır.
13. Otonom Teknoloji: Yapay zeka (AI) ve makine öğrenimi (ML) gibi otonom teknolojiler, verilerin daha etkili bir şekilde nasıl analiz edileceğini anlamada önemli rol oynar. Örneğin, tedarik zinciri KPI’larını izliyorsanız, geçersiz veya düşük kaliteli veriler göründüğünde tetiklenecek şekilde akıllı alarmlar ayarlayabilirsiniz. Modern veri analizi tekniklerinden biri olan akıllı alarmlar, bir veri kümesindeki belirli komutlara veya olaylara dayalı otomatik sinyaller sağlar.
14. Veri Öyküsü: İnsan beyni güçlü hikayelere inanılmaz derecede iyi yanıt verir. Verilerinizi temizledikten, şekillendirdikten ve görselleştirdikten sonra hikayeleştirmeniz; analitik çabalarınızı daha erişilebilir, sindirilebilir ve evrensel hale getirebilir.
8.4. Büyük Verinin Analizi
İşletmelerin elindeki büyük veriyi analizi için karar vermesi gereken önemli bir husus da analiz işlemlerinin nasıl bir donanım/yazılım platformunda hayata geçirecekleri ile ilgilidir. Son yıllarda popülaritesi artan bulut mimarisi ön plana çıkmaktadır. Bunun yanında veri mahremiyeti veya veri güvenliği ile ilgili firmaya özel kısıtlara bağlı olarak klasik tip sunucu yapıları da kullanılmaktadır.
Büyük veri uygulamalarının altyapısı genellikle Hadoop ve Spark tabanlı olduğu için ve bu platformlar dağıtık mimariye izin verdiği için, artık tek bilgisayar üzerinde de çoklu sunucular üzerinde de fiziksel ve/veya sanal makineler kullanılarak büyük veri uygulamaları ve analizleri geliştirmek mümkün olmaktadır.
Günümüzde firmaların büyük veri departmanları ve araştırmacılar çok değişik büyük veri problemleri ile karşılaşmaktadırlar. Ellerindeki donanım/yazılım mimarisinin farklı problemlere en hızlı şekilde uyarlanabilmesi başlı başına bir problemdir. Problemler farklı büyüklüklere ve kurgulara sahip olduklarından ötürü uygulama geliştiricileri önemli bir ölçekleme problemi ile karşı karşıya kalmaktadırlar.
Burada sistem yöneticilerinin önünde Şekil 8.4’te verilen iki temel seçenek bulunmaktadır:

Şekil 8.4. Yatay ve Dikey Ölçekleme
1. Yatay Ölçekleme
Bu sistemler tek başına çok fazla işlem gücü olmayan bir veya daha fazla bilgisayar/sunucu içeren bir mimarinin üzerindeki bilgisayar/sunucu sayısını arttırarak daha güçlü işlem gücüne sahip bir sisteme dönüştürülmesine karşılık gelmektedir.
Dağıtık mimari ve sanallaştırma teknolojilerindeki ilerlemelere bağlı olarak artık donanım ve yazılım bazlı paralelleştirmede oldukça iyi seviyelere varılmıştır. Bunun sonucu olarak çok sayıda “mütevazi” bilgisayar veya sunucunun uygun kurgulamalarla tek bir sunucu gibi hareket etmesi sağlanabilmektedir.
Oluşan bu paralel bileşke sistemin işlem gücüne sahip tek bir fiziksel sunucunun maliyeti çok daha masraflı olmaktadır. Bu sebeple yatay ölçekleme güçlü bir fiziksel/sanal/bulut sunucu öbeği kurmak isteyen sistem yöneticileri için iyi bir seçenek sunmaktadır.
Yatay ölçeklemenin avantajları arasında esneklik ve fiyat avantajı ön plana çıkmaktadır. Bu sistemler üzerinde çalışılan problemin büyüklüğüne bağlı olarak istenilen şekilde ölçeklenebilir. Var olan donanım, problem için yeterli değilse, istenilen işlem gücü veya büyüklüğe varılana kadar yatay ölçekleme yapılabilir. Teorik olarak bu ölçeklemenin sınırı olmadığından her tür problem üzerinde çalışmak mümkündür. Veri büyüdükçe maliyeti karşılama (ölçekleme) masrafı lineer olarak artmaktadır.
Yatay ölçeklemenin dezavantajları ise genellikle yazılım tarafında karşımıza çıkmaktadır. Çok sayıda farklı donanım biriminden oluşan dağıtık mimari üzerinde verimli bir paralelleştirmenin gerçekleştirilmesi, gerçek zamanlı hızlı başarım sağlanması, birimler arası haberleşmenin yaratabileceği gecikme veya senkronizasyon problemleri bu şekilde bir ölçekleme gerçekleştirilen sistemlerde her zaman istenen verimin alınamamasına yol açabilir. Ayrıca yatay ölçeklemeyi en üst seviyede kullanabilen nispeten sınırlı sayıda yazılım mevcuttur. Fakat bu dezavantajların giderilmesine yönelik çalışmalar devam etmektedir ve her geçen gün iyi performans gösteren paralel mimari temelli açık kaynak yazılımların sayısı artmaktadır.
2. Dikey Ölçekleme
Bu sistemler genellikle tek bir sunucu mimarisi üzerinde çalışan yapıların yine tek sunucu olan fakat daha güçlü işlem gücüne sahip bir sisteme dönüştürülmesine karşılık gelmektedir.
Sunucu tek olmasına karşılık artık günümüzde aynı kart üzerinde çok sayıda işlemci (veya aynı işlemci üzerinde çok sayıda çekirdek) bulunmaktadır. Dolayısıyla tek sunucu sistemlerde bile aynı sunucu içinde de olsa paralel mimari söz konusudur. Bu paralellikten işletim sistemi ve/veya gerektiğinde yazılım seviyesinde faydalanılmaktadır. Ayrıca sanal makineler oluşturularak paralellik de sağlanabilmektedir.
Dikey ölçeklemenin en önemli avantajı tek sunucunun sağladığı kurgulama ve yönetim kolaylığıdır. Ne kadar kolay kurgulanırsa kurgulansın, parallelleştirme donanım ve yazılım seviyesinde ekstra bir çaba gerektirecektir. Bunun yanı sıra birçok yazılım tek sunucu üzerinde en iyi başarımı sağlayacak şekilde çalışmaktadır, bu dağıtık mimari içeren sistemlerde bir yavaşlama yaratabilir. Ayrıca bazı problemlerin bu tip sistemlerde modellenmesi de kolay olmayabilir.
Buna karşılık dikey ölçeklemenin ciddi dezavantajları da bulunmaktadır. İşlem gücünü arttıracak şekilde tek sunuculu bir sistemin maliyeti toplamda aynı işlem gücüne sahip çok sayıda bilgisayar/sunucudan oluşan bir sisteme kıyasla çok daha pahalı olacaktır. Ayrıca bu tarz bir sistemde problem büyüklüğü ölçeklemesi de gerçek anlamda sağlanamamaktadır.
Problem küçük de olsa büyük de olsa, mimari aynı kalacaktır. Bunun sonucu olarak sistem yöneticisi işlem gücünü karşılaşılabilecek en büyük probleme göre kurgulamak zorunda kalacaktır. Daha küçük bir problemle karşılaşıldığında bu gereksiz işgücü fazlası verimsizlik yaratacaktır. Buna karşılık daha büyük bir problemle karşılaşıldığında eğer mevcut işlem gücü yetersiz kalırsa sistem kullanılamayacaktır. Ayrıca ölçeklemenin bir fiziksel üst sınırı bulunmaktadır. Artan işlem gücü ve veri işleme gereksinimine bağlı maliyetler yatay ölçeklemenin aksine üstel olarak artacaktır. Tüm bu dezavantajlar günümüzde dikey ölçeklemeye bağlı çözümlerin eskisi kadar tercih edilmemesine yol açmaktadır.
Bugün istatistik ve bilgisayar bilimlerinde kullanılan araçlara bağlı olarak veri analizinde farklı birçok teknik kullanılmaktadır. Araştırmacılar özellikle verilerin yeni kombinasyonlarını analiz etmek için yeni teknikleri geliştirerek mevcut olanları da geliştirmeye devam ediyor. Bugün için büyük miktardaki veriyi analiz eden en gelişmiş teknikler şunlardır: Yapay Sinir Ağları, Tahmini Analiz Yöntemleri, İstatistikler ve Doğal Dil İşleme’dir. Büyük veri işleme yöntemleri, uygulamalı matematik, istatistik, bilgisayar bilimleri ve ekonomi gibi farklı disiplinlerden yararlanmaktadır. Bu disiplinler Veri Madenciliği, Sinir Ağları, Makine Öğrenmesi, Sinyal İşleme ve Görselleştirme Yöntemleri gibi veri analiz tekniklerinin temelini oluşturmaktadır. Bu yöntemlerin çoğu birbiri ile ilişkili olup veri işleme sırasında eşzamanlı olarak kullanılır. Dikkat edilirse bu teknikler büyük veri kullanılmasını gerektiren tekniklerin tamamı değildir. Bazıları küçük veri setlerine de etkili bir şekilde uygulanabilmektedir. Örneğin, A/B testi ve regresyon analizi küçük veri setlerine de uygulanabilmektedir. Ancak aşağıda listelenen tekniklerin tamamı büyük verilere uygulanabilir [5, 6].
Veri Madenciliği
Veri Madenciliği, veritabanı yönetimi ile istatistik ve makine öğrenme (machine learning) yöntemlerini birleştirilerek büyük veri setlerinden desenleri ayıklamak için kullanılan bir dizi tekniktir. Bu teknikler, ilişkili öğrenme, kümeleme analizi, sınıflandırma ve regresyondur. Veri Madenciliği’ne örnek olarak; müşterilerin satın alma davranışlarını modellemek için pazar sepeti analizinin kullanılması, insan kaynaklarının veri madenciliğini kullanarak en iyi çalışanlarının karakterlerini belirlemesi ya da müşteri verisi kullanarak bir teklife olası verilebilecek cevapların belirlenmesi verilebilir.
Sınıflandırma
Sınıflandırma tekniği bir dizi kategorilere ayırmak için kullanılır. Bu teknik yeni veri noktalarına sahip, daha önceden kategorize edilmiş veri noktalarını içeren bir eğitim setine dayanmaktadır. Örnek olarak özel müşteri segment (iş kolu) davranışının tahmini verilebilir ki, burada kesin bir hipotez ya da objektif bir sonuç yoktur. Yine müşterilerin satın alma kararları, abone kayıp ve tüketim oranı sınıflandırmaya örnek olarak verilebilir. Bu tekniklerde genellikle bir eğitim seti mevcut olduğundan denetimli öğrenme (supervised learning) olarak tanımlanmaktadır. Ayrıca, bu teknikler denetimsiz öğrenmenin (unsupervised learning) bir türü olan kümeleme analizine zıt olup veri madenciliği (data mining) için kullanılır [5].
Kümeleme Analizi
Kümeleme Analizi, nesneleri sınıflandıran istatistiksel bir yöntemdir. Bu yöntem benzer nesneleri daha küçük gruplar halinde çeşitli alt gruplara ayırır ki, bu nesnelerin benzer karakteristik özellikleri daha önceden bilinmemektedir. Kümelemede amaç sınıflar arasındaki benzerliğin minimum, sınıfın kendi içerisinde benzerliğinin maksimum olmasıdır. Kümeleme analizine bir örnek olarak hedefe yönelik pazarlama için tüketicilerin kendi benzerliklerine göre gruplara ayrılması verilebilir. Bu yöntem denetimsiz öğrenmenin bir türü olduğundan burada eğitim verisi kullanılmaz. Kümeleme analizi sınıflandırmaya zıt olup genellikle veri madenciliğinde kullanılmaktadır [5].
Genetik Algoritmalar
Genetik Algoritmalar, optimizasyon için kullanılan bir teknik olup, bu doğal evrim sürecinden veya “en güçlünün hayatta kalmasından” esinlenmiştir. Bu teknikte, olası çözümler birleştirilebilir ve mutasyon geçirebilir “kromozomlar” olarak kodlanmıştır. Bu bireysel kromozomlar nüfusun her bir bireyinin dayanıklılığını ya da performansını belirleyen bir modellenen “çevre” içinde hayatta kalmak için seçilir. Genellikle “evrimsel algoritma” türü olarak tanımlanan genetik algoritmalar doğrusal olmayan (nonlinear) problemlerin çözümü için çok uygundur. Genetik algoritmalara örnek olarak, üretimde iş planlaması iyileştirilmesi ve yatırım portföyünün performansının optimize edilmesi verilebilir [5].
Makine Öğrenme
Yapay zekâ olarak da adlandırılan makine öğrenme; algoritmaların tasarımı ve geliştirilmesi ile ilgili bilgisayar biliminin bir alt bilim dalıdır. Bu algoritmalar bilgisayarların ampirik verilere dayalı davranışları evrimleştirmeye izin vermektedir. Makine öğrenme araştırmalarının en önemli odak noktası otomatik olarak karmaşık desenleri tanımak ve verilere dayalı akıllı kararlar almaktır. Makine öğrenmeye örnek olarak, doğal dil işleme verilebilir.
Doğal Dil İşleme
Doğal Dil İşleme (NLP), bilgisayar bilimi ve dil biliminin bir alt bilim dalından gelen tekniklerin bir kümesi olup, beşeri (doğal) dil analizinde bilgisayar algoritmalarını kullanmaktadır. Birçok NLP tekniği makine öğrenme türleri arasında yer almaktadır. NLP’ye örnek olarak, müşterilerin marka kampanyasına tepkilerini belirlemek için sosyal medya duygu analizinin kullanılması verilebilir.
Yapay Sinir Ağları
Bilişimsel modeller, verilerdeki desenleri bulmak için biyolojik sinir ağlarının yapısından ve çalışmasından esinlenerek geliştirilmiştir. Sinir ağlarına örnek olarak, bir beynin içindeki hücreler ve bağlantıları verilebilir. Sinir ağları tekniği nonlineer (doğrusal olmayan) desenleri bulmakta oldukça başarılıdır. Ayrıca sinir ağları, örüntü tanıma ve optimizasyon için de kullanılabilmektedir. Bazı sinir ağı uygulamaları denetimli öğrenmeyi içerirken bazısı da denetimsiz öğrenmeyi içermektedir. Bununla birlikte, sinir ağlarına örnek olarak, belirli bir şirketten ayrılma riskiyle karşı karşıya olan yüksek değerli müşterilerin ve sahte sigorta taleplerinin belirlenmesi verilebilir.
Optimizasyon
Optimizasyon, eldeki sınırlı kaynakların en etkin şekilde kullanılması anlamına gelmektedir. Optimizasyonu matematiksel olarak bir fonksiyonun maksimize veya minimize edilmesi olarak tanımlamakta mümkündür. Optimizasyona örnek olarak; maliyet, hız ya da güvenilirliği vermek mümkündür. Optimizasyon uygulama örnekleri; geliştirici işlemsel süreçler olarak, zaman planlama, dağıtım ve zemin düzenleme ve stratejik kararlar olarak; ürün yelpazesi stratejisi, bağlantılı yatırım analizleri ve Ar-Ge portföy stratejisini içermektedir. Bununla birlikte genetik algoritmalar da optimizasyon tekniğine örnek olarak verilebilir.
Sinyal İşleme
Sinyal işleme, elektrik mühendisliğinden ve uygulamalı matematikten gelen tekniklerin kümesidir. Bu teknikler ayrık (discrete) ve sürekli sinyalleri analiz etmek için geliştirilmiştir. Yani analog fiziksel büyüklüklerin (dijital olarak temsil edilse bile) temsilleri; radyo sinyalleri, ses ve görüntüdür. Bu kategori sinyal algılama tekniklerini içermekte ve bunlar sinyal ve ses arasındaki farkı ölçebilmektedir [5].
Mekânsal Analiz
Mekânsal analiz, insan davranış kalıplarını ve mekânsal ifadesini, matematik ve geometri bakımından, yani konumsal analiz açısından açıklamaya çalışan bir coğrafi analiz türüdür. Mekânsal analizin sonuçları, analiz edilen nesnelerin konumuna bağılı olup, bu tekniği uygulamak için nesnelerin konumlarına ve özelliklerine erişmek gerekmektedir. Konum verilerine örnek olarak, adresler veya enlem/boylam koordinatları da dâhil olmak üzere verileri yakalayan coğrafi bilgi sistemleri (GIS) verilebilir. Mekânsal analiz uygulamalarına örnek olarak mekânsal regresyonlar (Örneğin, bir ürünün yer ile ilişkili tüketici istekliliği nasıl olur?) veya simülasyonlar (Örneğin, bir imalat tedarik zinciri ağı, farklı yerlerdeki sitelerle nasıl bir performans gösterebilir?) verilebilir.
Zaman Serileri Analizi
Zaman Serileri, ardışık eşit zaman aralığındaki veri noktalarının dizilerini analiz etmek ve veriden anlamlı sonuçlar elde etmek için istatistik ve sinyal işleme teknikleri kullanılır. Zaman serisine örnek olarak bir borsa endeksinin saatlik borsa değeri ya da her gün belli koşullar altında tanısı konulan hasta sayısı verilebilir. Zaman serisi tahmini; aynı veya başka bir dizi bilinen geçmiş değerlere dayalı bir zaman serisinin gelecekteki değerlerini tahmin etmek için modelin kullanılmasıdır. Bu tekniklerden bazıları örneğin yapısal modelleme yaparak serileri; trend, mevsimsellik ve kalıntı bileşenlerinden ayrıştırır. Zaman serileri uygulamalarına örnek olarak tahmini satış rakamları ya da bulaşıcı bir hastalık için tanısı konulacak insan sayısının tahmin edilmesi verilebilir.
Görselleştirme (Visualization), Büyük Veri ve Görselleştirme
Görselleştirme, büyük veri analizlerini iletmek, anlamak ve geliştirmek için resimler, diyagramlar ya da animasyonlar oluşturmak için kullanan bir tekniktir. Görselleştirme, insan ve elektronik veri işlemenin güçlü yönlerini birleştiren bir teknoloji sunmaktadır. Görselleştirme, insanların ve makinelerin, en etkili sonuçlar için farklı yetenekleri kullanılarak işbirliği yaptığı, yarı otomatikleştirilmiş bir analitik sürecin aracı hâline gelmiştir. Görselleştirme de kullanıcı, analizin yönlendirilmesinde nihai otoriteye sahiptir. Bununla birlikte, sistemin belirli görevleri yerine getirmesi için etkin etkileşim araçlarına da ihtiyaç vardır. Görselleştirme özellikle çok boyutlu veri setlerinin analizinde büyük öneme sahiptir. Çünkü görselleştirme verideki karmaşık ilişkileri keşfetmemize ve anlamamıza yardımcı olmaktadır. Büyük veri setlerini tek başına analiz etmek hem önemli hem de zorken, bu teknikle aynı anda birden fazla veri seti dikkate alındığı için pek çok sorunun üstesinden kolayca gelinir. Bugün, VisualCue ve veri görselleştirme metotları kullanılarak büyük miktardaki veriyi resim, diyagram ve renklere dönüştürmek mümkündür [7].
Bölüm Özeti
Büyük veri analizi, bir konu üzerinde kritik karar verme sürecinde kullanılacak bilgileri keşfetmek için verileri temizleme, dönüştürme ve modelleme süreci olarak tanımlanabilir. Veri analizinin amacı, verilerden faydalı bilgiler çıkarmak ve bu bilgiler doğrultusunda doğru kararlar verebilmektir. Kısaca veri analizi, geçmişten günümüze toplanan tüm verilerin incelenerek geleceğe dair tahminlerin oluşturulmasına imkan veren bir süreçtir.
Büyük veri analizi, verileri keşfetmenizi, içinde bir kalıp bulmanızı ve buna dayanarak kararlar almanızı sağlayan bir süreçtir. Tüm organizasyonunuzu daha bilgili kılmayı amaçlar. Kapsamlı bir veri analizi birçok adımdan oluşmaktadır.
İşlerini büyütmek, ilgili sektör ile oluşacak eğilimleri, gelecek tahminlerini yapabilmek için kurum ve kuruluşlar ellerindeki verileri doğru bir şekilde analiz etmektedirler. Firmalar, sürekli artan veri miktarını kullanabilme yeteneği, dünyayı ve içindeki her şeyi anlama yeteneği sayesinde hizmet kalitelerin artırmaya ve yeni hizmetler geliştirme imkanına kavuşacaktır. Bu amaç doğrultusunda en popüler tercih edilen analiz yöntemleri; yapay sinir ağları, tahmini analiz yöntemleri, istatistikler ve doğal dil işlemedir. Büyük veri işleme yöntemleri, uygulamalı matematik, istatistik, bilgisayar bilimleri ve ekonomi gibi farklı disiplinlerden yararlanmaktadır.
Büyük veri işlemede teknoloji firmalarının karşılaştığı en önemli problemlerin başında verinin hangi altyapıda analiz edilmesidir. Bu mevcut donanım/yazılım kaynakları ile ilgili olup bu konuda 2 ölçekleme yöntemi kullanılmaktadır: yatay ve dikey ölçekleme.
Kaynakça
[1] Gtech Web Sitesi, “Veri Analizi ve Etkili Veri Analiz Yöntemleri”. (Son Erişim:20.01.2022)
URL:https://www.gtech.com.tr/veri-analizi-ve-etkili-veri-analiz-yontemleri/
[2] Katal, A., Wazid, M. ve Goudar, R. H. (2013, 08-10 Ağustos). Big Data: Issues, Challenges, Tools and Good Practices. 2013 Sixth International Conference on Contemporary Computing (IC3), Noida, India, 404-409.
[3] Aktan E. “Big Data: Application Areas, Analytics and Security Dimension”, Bilgi Yönetimi 1: 1, pp:1-22, 2018.
[4] SmartMind Web Sitesi, “Büyük Veri Analitiği”. (Son Erişim:20.01.2022)
URL: https://www.smartmind.com.tr/buyuk-veri-analitigi-nedir-i-963
[5] Manyika J, Chui M, Brown B, Bughin J, Dobbs R, Roxburgh C, Byers A.H, “Big Data: The next frontier for innovation, compettition, and productivity”, Report McKinsey Global Institute, June 2011.
[6] Çelik S. “Büyük Veri ve İstatistikteki Uygulamaları”, Ph.D. thesis, Social Science Institution, Econometrics, University of Uludağ, 2018.
[7] Lidong W, Wang G, Cheryl Ann A., “Big Data and Visualization: Methods, Challenges and Technology Progress”, Digital Technologies, Vol. 1, No. 1, 27 June 2015, pp. 33-38.

9. BÜYÜK VERİ VE YAPAY ZEKA

Ders Anlatimi – Video

Ders Anlatimi – Ses
Unite-9 Sunumu – PDF
Online Test – Unite Sorulari
Giriş

Çok sayıda veriyi bir arada kullanabilmek için bir koordinasyon gereklidir. Geliştirilen veya geliştirilmeyen verilerin büyük bir çoğunluğu, analiz edilmediği ve kullanıma geçirilmediği sürece anlamsız kalmaktadır. Kullanıcıların bu verilerdeki teknolojiyi kullanıma alabilmesi için yapay zeka ve büyük teknolojileri birbiri ile koordine bir şekilde çalışması gerekir.
Büyük veri analizleri ve yapay zeka algoritmaları günümüz çağında bilgisayar biliminde kullanılan iki büyük kategoridir. Dijitalleşmenin hız kazandığı günümüzde, büyük veri ve yapay zeka üzerine yapılan çalışmalar son sürat devam etmektedir. Büyük veri, yapay zeka teknolojisi ile bütünleşmiş bir yapıdır. Öncelikle, büyük veri teknolojisi üzerine yapılan çalışmaların gelişimi yapay zekaya bağlı şekilde ilerler. Çünkü büyük verinin gelişiminde birden fazla yapay zeka teorisi ve yöntemi kullanılmaktadır. Diğer yandan bakıldığında ise, yapay zeka algoritmaları ve teknolojisinin gelişimi için de büyük veri teknolojisine ihtiyaç duyulmaktadır. Çünkü yapay zeka teknolojisini desteklemek için büyük verilerinin bulunması gerekmektedir.
Gelişmiş donanım kaynakları ve paralel veri işleme teknikleri kullanan makine teknolojileri ve algoritmalar verilere dayalı kararlar verebilir, aynı zamanda duygusal zekaya sahip büyük veri sayesinde ulaşabilir. Yani büyük veriler ile duygusal zekaya dayalı kararlara doğru hızlı bir şekilde ulaşılabilecektir.
9.1. Yapay Zeka’nın Veri Bilimindeki Önemi
Doğadaki varlıkların akıllı davranışlarını yapay olarak üretmeyi amaçlayan, bu sayede işini mükemmel yapan canlı sistemlerini ve insan beynini model alan yapay zeka çalışmaları; günlük hayatın farklı alanlarında ürünler vermesinin yanında, tahmin, sınıflandırma, kümeleme gibi amaçlar için de kullanılmaktadır.
Genel anlamda yapay zekadan kastedilen; insan zekasının, sinir sistemi, gen yapısı gibi fizyolojik ve nörolojik yapısının ve doğal olayların modellenerek makinelere (bilgisayar ve yazılımlara) aktarılmasıdır.
Özetle yapay zeka; “insan gibi düşünen, insan gibi davranan, akılcı düşünen ve akılcı davranan”, canlıların zekice olarak kabul edilen davranışlarına sahip bilgisayar sistemleridir ve makine öğrenmesi bu anlamda yapay zekanın son evresi olarak kabul edilmektedir. Şekil 9.1’de yapay zekanın bilgisayar bilimi altındaki yeri ve kapsama alanları verilmiştir.

Şekil 9.1. Yapay zeka bilimi.
Pandemi ile her şeyin uzaktan yapıldığı dijital çağın en büyük getirisi büyük miktarda toplanan verilerdir. Sürekli farklı ortamlardan akan, değişen ve yüklü miktardaki veri adeta bir sermaye haline gelmiştir. Büyük veri, sağlıktan eğitime, endüstriden üretime insanoğlunun yaşamının her alanına doğrudan nüfuz etmektedir. Bugün pek çok devlet, kurum, kuruluş ve şirket büyük verinin sunduğu fırsatlardan yararlanarak analizler yapmakta ve insanlığa faydalı işler için büyük veriyi anlamlandırmaktadır.

Şekil 9.2. Büyük verinin yapay zeka ile kodlanması.
Farklı sektörlerde ve farklı ortamlarda sınırsız veri bulunmakta, dağınık ve erişilebilir durumdadır. Veri bilimi, sezgisel gözlemlerle elde ettiğimiz bilgileri daha derin ve kullanılabilir bir seviyeye taşımamızı sağlayan süreçleri barındırmaktadır. Büyük verinin işlenmesi ve analizinin sorunsuz bir şekilde ilerleyebilmesi için toplanılan verilerin özenli bir şekilde kayıt altında tutulması gerekir. Önemli olan bu veri yığınını anlamlı bir hale dönüştürüp ihtiyaç dahilinde kullanmaktır. Büyük veri, veri setleri ile etkili ve kullanılabilir hale getirilmektedir. Hassasiyetle toplanan veriler aracılığıyla büyük veri setleri oluşturulur. Bu setler, var olan verilerin düzenlenmiş ve yapılandırılmış halini içermektedir. Büyük veri içerisinde doğru soruların sorulması ve belirli kalıpların kullanılmasıyla, firmaların ihtiyaçlarına cevap veren veri setleri oluşturulur.
Veri setleri oluşturmak için büyük hacimli ve yapılandırılmış/yapılandırılmamış halde bulunan verileri dikkatlice işlemek gerekmektedir. Bunu yaparken hız ve sürat, veri setinin güncelliğini ve kullanılabilirliğini artırmaktadır. Hız ve süratin önemli olduğu veri setlerinin bir örneği, sosyal medyadan elde edilen verilerle oluşturulan veri setleridir Sosyal medya kanallarını içerecek bir veri setinin her saniye gerçekleşen paylaşımları içerecek şekilde hazırlanması gerekmektedir. Veri setlerinin güncelliği çalışmaların sağlıklı ilerlemesi için önem arz etmektedir.
Bilgi teknolojilerinin gelişmesi ile birlikte büyük miktarda veri yığınları meydana gelmiştir. Bu da mevcut veri yığınları arasındaki anlamlı ilişkilerin, yapıların ve eğilimlerin ortaya çıkarılması ihtiyacını doğurmuştur. Bu noktada gelişen yapay zeka teknolojilerinin alternatif veri setlerinin oluşturulmasında ve büyük verinin işlenmesinde veri bilimine katkı sunacağı öngörülmektedir.
Şekil 9.3’te görüldüğü üzere büyük verinin toplanmasından işlenmesine kadar veri bilimin her alanında kullanılabilecek olan yapay zeka teknolojileri, geleneksel veri analiz yöntemlerinden daha verimli sonuç elde edilmesini sağlamaktadır.

Şekil 9.3. Büyük veri ve yapay zeka ilişkisi
Büyük verinin ve analizinin önemini kavrayan ve yönetim süreçlerine dahil eden şirketler bu alanda daha hızlı, daha etkili sonuç almak için yapay zeka teknolojileri ile güçlendirilmiş veri analiz süreçlerine entegrasyonu teşvik etmektedirler. Öyle gözüküyor ki yapay zeka teknolojileri veri biliminde olduğu gibi daha pek çok alanda kullanıcılarına yeni fırsatların kapısını aralayacaktır.
9.2. Büyük Veri’de Yapay Zeka Kazanımları
Yapay zeka temelli büyük veri analiz uygulamalarında aşağıda belirtilen önemli kazanımlar elde edilmektedir:
1. Yapay Zeka, tekrarlayan öğrenme ve verisel keşifleri otomatikleştirir.
Ancak yapay zeka, donanım odaklı robotik otomasyondan farklıdır. Yapay zeka, manuel görevleri otomatikleştirmek yerine sık, yüksek hacimli, bilgisayarlı görevleri güvenilir bir şekilde ve yorulmadan gerçekleştirir. Bu tür bir otomasyon için, sistemi kurmak ve doğru soruları sormak adına insan gücü hala gereklidir.
2. Yapay Zeka, halihazırdaki ürünlere zeka ekler.
Çoğu durumda, yapay zeka bireysel bir uygulama olarak satılmayacaktır. Bunun yerine, halihazırda kullandığınız ürünler, Siri’nin yeni nesil Apple ürünlerine bir özellik olarak eklenmesi gibi, AI yetenekleriyle geliştirilecektir. Otomasyon, konuşma platformları, botlar ve akıllı makineler, güvenlik istihbaratından yatırım analizine kadar evde ve işyerinde birçok teknolojiyi iyileştirmek için büyük miktarda veriyle birleştirilebilir.
3. Yapay Zeka, verilerin programlamayı yapmasına izin vermek için aşamalı öğrenme algoritmaları aracılığıyla uyum sağlar.
Yapay Zeka, verilerde yapı ve düzenlilik bulur, böylece algoritma bir beceri kazanır: sınıflandırıcılık veya tahmincilik. Yani, algoritma nasıl satranç oynanacağını kendi kendine öğretebildiği gibi, bir sonraki ziyaretinde kişiye hangi ürünü önereceğini kendi kendine öğretebilir. Ve modeller yeni veriler geldiğinde de buna uyum sağlar. Geri yayılma, modelin, ilk yanıt tam olarak doğru olmadığında, eğitim ve eklenmiş veriler yoluyla ayarlamasını sağlayan bir yapay zeka tekniğidir.
4. Yapay zeka, birçok gizli katmana sahip sinir ağlarını kullanarak daha fazla ve daha derin verileri analiz eder.
Beş gizli katmana sahip bir sahtekarlık tespit sistemi kurmak birkaç yıl önce neredeyse imkansızdı. Tüm bunlar inanılmaz bir bilgisayar gücü ve doğrudan akışkan büyük veriden öğrendiklerinden, derin öğrenme modellerini eğitmek için çok sayıda veriye ihtiyacınız var. Onları ne kadar çok veriyle beslerseniz, o kadar doğru olurlar.
5. Yapay Zeka, derin sinir ağları sayesinde önceden imkansız olan bir doğrulukla çalışır.
Örneğin, Alexa, Google Aramaları ve Google Fotoğraflar ile etkileşimlerinizin tümü derin öğrenmeye dayalıdır ve biz onları kullandıkça daha doğru olmaya devam ederler. Tıp alanında, derin öğrenme, görüntü sınıflandırma ve nesne tanıma gibi yapay zeka teknikleri, artık yüksek eğitimli radyologlarla aynı doğrulukla MRI’larda kanseri bulmak için kullanılabilir.
6. Yapay Zeka, büyük verilerden en iyi şekilde yararlanır.
Algoritmalar kendi kendine öğrenirken, verinin kendisi fikri mülkiyet haline gelebilir. Cevap veride saklıdır; size sadece yapay zekayı kullanarak onu ortaya çıkarmak düşer. Verinin rolü artık her zamankinden daha önemli olduğundan, rekabet avantajı yaratabilir Rekabetçi bir sektörde en iyi veri sizdeyse, herkes benzer teknikleri uygulasa bile, her zaman en iyi veri kazanır.
9.3. Yapay Zeka ve Veri Analitiği
Büyük Veri ve yapay zeka arasında karşılıklı bir ilişki vardır. Yapay zeka temelli sistemleri oluşturulurken çok miktarda veriye ihtiyaç duyulur. Yani veri olmazsa yapay zeka uygulamalarının bir anlamı da olmaz. Büyük verinin yapay zeka sistemlerinde kullanılması yapay zekanın gücünü daha da attırır. Öte yandan yapay zeka da büyük veri kullanıcılarına emek isteyen ve zaman alan analitik işlemleri otomatikleştirme ve geliştirme imkanı sunar. Derin öğrenme, yapay sinir ağları, anormali tespiti ve örüntü tanıma, büyük veri ve yapay zekayı bir arada kullanan teknolojilerden bazılarıdır.
Yapay zekâ ve veri analitiği alanındaki son gelişmeler, bazı tüketici işlerinin (örn. Akıllı evlerde ve kendi kendine giden arabalarda) otomasyonunu kolaylaştırıyor ve büyük veriye dayalı, mikro hedefli pazarlama uygulamalarının kullanılmasına fırsat sağlıyor. Bunun yanında bu gelişmelerin pazarlamacılar, tüketiciler ve politika yapıcılar için bir gerilim yaratabileceği iddia edilmektedir.
Bir yandan, tüketici seçimlerini daha kolay, daha pratik ve daha verimli hale getirerek tüketicinin refahına katkıda bulunabilirler. Diğer yandan, tüketicilerin özerklik duygusunu da baltalayabilirler ve bu duygunun olmaması tüketicinin refahı için zararlı olabilir. Pazarlama, ekonomi, felsefe, sinirbilim ve psikolojiden farklı perspektiflerden yararlanarak, tüketicilerin seçim yapmadaki özerklik duygusunun refahlarını nasıl etkilediğini keşfedilmektedir.
Yeni teknolojilerin tüketicilerin seçimlerini kontrol altında tutma algılarını nasıl geliştirebileceğini veya azaltabileceğini ve bunlardan herhangi birinin tüketicinin refahını nasıl azaltabileceği araştırılmaktadır. Buna dayanarak, seçim, refah ve tüketici refahı alanındaki açık araştırma sorularını belirliyor ve gelecekteki araştırmalar için yeni yollar sunmaktadır. Yapay Zekâ ve Büyük Veri Çağı Tüketici Seçimini Nasıl Yönlendiriyor? Günümüz tüketicileri, bu seçenekler hakkında her zamankinden daha fazla seçenek ve daha fazla bilgiyle karşı karşıyadır. Fayda teorisinin standart ekonomik perspektifine göre, bu gelişme, tüketicilerin ihtiyaçlarına en uygun seçenekleri bulmalarına ve seçmelerine yardımcı olmalı, arama maliyetlerini düşürmelerine ve seçimlerinden elde ettikleri faydayı artırmalarına izin vermelidir.
Pazarlamacılar, araştırmacılar ve politika yapıcılar genellikle arama, işlem ve karar verme maliyetlerini düşürmenin tüketicileri güçlendirdiğini ve tüketici refahını artırdığını varsaymaktadır. Örneğin, büyük miktarlarda tüketici verisini karıştıran gelişmiş algoritmalar, çevrimiçi pazarlamacıların yalnızca doğru ürün veya hizmeti sunmalarına olanak tanıyarak, tüketicileri yalnızca arama maliyetlerinden değil, aynı zamanda tüketici seçiminin gerektirdiği tatsız ve zor ödünleşmelerden de kurtarır.
Örneğin, davranışsal hedefleme için büyük veri ve yapay zeka kullanan Outbrain veya Taboola gibi içerik öneri sistemlerini veya Netflix veya Amazon’unki gibi içerik yönetim sistemleri incelendiğinde bu tür sistemler, bir kişinin mevcut tercihlerine göre tüketmekten keyif alacağı içerik önerir ve tüketicilerin ilgilendikleri içeriği çaba harcamadan keşfetmelerine olanak tanır. Başka bir örnek olarak, otonom arabalar (örneğin, Mobileye ve Google) sadece zorlu sürüş görevini üstlenmekle kalmaz, aynı zamanda farklı sürücülerin tercihlerini ne tür bir rota veya ne tür bir rota için tahmin etmeyi öğrenebilmeleri de beklenir.
Hızlı teknolojik gelişmeler, nesnelerin internetinin nasıl olduğunu da değiştirmektedir. İster kullanıcıların sıcaklık tercihlerini öğrenen termostatlar (ör. Google’ın Nest) olsun ister tüketicilerin belirttiği isteklerini dinleyen cihazlar olsun hepsi müşteri tercihlerini tahmin etmeye yönelik çalışmalardır. Ya da müşterinin sesle istediğini yerine getiren ses tanıma sistemleri de aynı şekilde onların ihtiyaçlarını ve tercihlerini tahmin etmeyi öğrenebilen cihazlardır. Örnek olarak Amazon’un Alexa’sı, Google’ın Ev veya Apple’ın Siri’si verilebilir.
9.4. Yapay Zeka Kullanan Büyük Veri Örneği
Spotify, İsveç merkezli müzik akışı sağlayıcısı, yapay zeka ve büyük veriyi kullanan şirketlere bir örnek olarak verilebilir. Spotify veri odaklı bir şirkettir ve müşterilerinin deneyimlerini arttırmak amacıyla müşteri bilgilerini (dinledikleri müzik türleri vb.) biriktirir. Toplanan veriler, dinleyicilerin müzik tercihlerini tahmin etmek ve onlara yeni öneriler sunmak için makine öğrenme algoritmalarını eğitmekte kullanılır. Spotify, Şekil 9.4’te verilen ‘Haftalık Keşif’ özelliğiyle kullanıcılara, bu platformda, daha önce duymadıkları kişiselleştirilmiş bir çalma listesi hazırlar. Spotify’ın haftalık keşif listesini oluştururken kullandığı üç farklı model vardır:
1.Collaborative Filtering: Benzer kullanıcıların tercihlerini göz önünde bulundurarak kullanıcıların tercihleri hakkında otomatik tahminler yapmaya çalışır. Algoritma birçok kullanıcıdan gelen bilgileri analiz eder ve benzer olanların örüntülerini belirler. Bu kullanıcıların ne dinlediğini dikkate alarak bir kullanıcının müzik zevkini tahmin etmeye çalışır.
2.Natural Language Processing (NLP): Bu algoritmayı kullanarak her şarkı için bir profil bulmaya çalışır (makaleleri, blog yayınlarını veya müzikle ilgili başka metinleri bulmak için sürekli olarak web’te gezinir).
3.Convolutional Neural Networks (CNN): Spotify’ın öneri sistemini geliştirmek ve doğruluğunu artırmak amacıyla kullanılır. CNN algoritması diğer algoritmalar gibi az bilinen şarkıları ihmal etmez. CNN, çok popüler olmayan şarkıların yanı sıra yeni şarkıların da dikkate alınmasını sağlar.

Şekil 9.4. Spotity firmasının büyük veriyi yapay zeka ile anlamlandırması.
(Kaynak: https://medium.com/nettsi/büyük-veri-yapay-zeka-ai-ve-kelebek-etkisi-ca203f749256)
9.5. Yapay Zeka Yöntemleri
Doğadaki varlıkların akıllı davranışlarını yapay olarak üretmeyi amaçlayan yapay zeka çalışmaları; uzman sistemler, genetik algoritmalar, bulanık mantık, yapay sinir ağları, derin öğrenme, makine öğrenmesi gibi teknikler, genel olarak yapay zeka teknolojileri olarak adlandırılmaktadır. Bu tekniklerin yanı sıra doğanın taklidi amacıyla da canlılar incelenmekte ve benzeri akıllı yöntemler önerilmektedir. Karınca kolonisi, genetik algoritmalar, uzman sistemler, parçacık sürü ve yapay arı gibi algoritmalar, yapay zeka optimizasyon teknikleri olarak kullanılmaktadır. Özetle yapay zeka; canlıların zeki davranışlarının bilgisayar sistemlerine aktarılmasıdır ve bu süreç makine öğrenmesi olarak isimlendirilmektedir.
Geçmişi daha öncelere dayanan derin öğrenmenin son yıllarda popülaritesinin hızla artmasının temelinde bahsettiğimiz bu iki neden vardır. Bol miktarda veri ve bu veriyi işleyebilecek uygun donanıma erişimin artmasıyla derin öğrenme yöntemlerinin kullanımı ve geliştirilmesi üssel olarak artış sağlamıştır. Derin öğrenmeye olan yönelimin artmasında bir diğer neden; Şekil 9.5.’te [1] görüldüğü gibi geleneksel makine öğrenme yöntemlerinin başarım oranlarının artan veri miktarına paralel olarak artmamasıdır. Dolayısıyla araştırmacıların bu geniş ölçekli veriyi etkin bir biçimde kullanacak olan yöntem arayışlarına girmeleri bu alandaki çalışmaların artmasında rol oynamıştır.

Şekil 9.5. Derin öğrenme performans veri miktarı ilişkisi [1]
1. Makine Öğrenmesi
Arthur Samuel Makine öğrenmesini 1959’da bilgisayarlara açıkça kod yazmadan öğrenme kabiliyetini kazandıran çalışma alanı olarak tanımladı [2]. Daha yeni ve formal bir tanımlama olarak Tom Mitchell makine öğrenmesini şu şekilde tanımlar; bir bilgisayar programının bir T görevini E tecrübesinden P performans ölçümü ile öğrenmesidir. Eğer P ile ölçülen performans T görevi üzerinde E ile iyileşiyorsa bu işlem makine öğrenmesi ile gerçekleştirilebilir [3]. Bu iki tanımı birleştirerek makine öğrenmesini şu şekilde tanımlayabiliriz: Bir görevi açıkça kod yazarak gerçekleştirmek yerine performans ölçümüne bağlı tecrübe ile bilgisayarın öğrenmesini sağlamaktır. Veri tabanlı yaklaşım da diyebileceğimiz bu yaklaşımda bilgisayar gerekli tecrübeyi bir veri seti üzerinden öğrenir.
Makine öğrenme algoritmaları; veri setinden öğrenme tipine göre denetimli (supervised), denetimsiz (unsupervised), yarı denetimli (semi-supervised) ve pekiştirmeli (reinforcement) olarak sınıflandırılır.
a. Denetimli Öğrenme (Supervised Learning)
Denetimli öğrenme etiket adı da verilen cevap değişkeninin bulunduğu veri setlerine uygulanır. Burada cevap değişkeni sürekli veya kategorik olabilir. Denetimli öğrenme bir dizi eğitim örneğinden oluşan bu etiketli eğitim verilerinden bir fonksiyon çıkarımı yapar [4]. Örneğin bir dizi hastaya ait olan veri setinde cevap değişkenimiz her bir hastanın kanser olup olmadığı olabilir veya verilen bir ülke veya şehirdeki ev fiyatlarını veren veri kümesinde cevap değişkenimiz ev fiyatları olabilir [5]. Denetimli öğrenme örnek girdi cevap çiftlerine göre bir girdiyi bir cevaba eşleyen fonksiyonu öğrenerek eğitimde kullanılmayan yeni örnekler için kullanılabilecek fonksiyon çıkarımını üretir [6].
b. Denetimsiz Öğrenme (Unsupervised Learning)
Cevap değişkenlerinin diğer adıyla etiketli verilerin olmadığı veri setlerinde öğrenme denetimsiz olarak gerçekleştirilir. Denetimsiz öğrenme veri kümesi içerisinde bazı benzerlik veya mesafe ölçümlerine göre gerçekleşir. Denetimsiz öğrenmede en çok kullanılan teknik kümelemedir. Denetimsiz öğrenmeye örnek olarak sosyal ağ analizi, görüntü segmentasyonu, klimatoloji, pazarlamada müşteri segmentasyonu ve daha birçok uygulama sayılabilir [5].
c. Yarı Denetimli Öğrenme (Semi-Supervised Learning)
Yarı denetimli öğrenme geniş miktarda etiketsiz verinin yanı sıra az miktarda etiketli veriyi kullanan öğrenme algoritmasıdır. Geniş miktardaki etiketsiz veri az miktarda etiketli veri ile birlikte kullanıldığında denetimsiz öğrenmeye göre daha yüksek başarı elde edilirken denetimli öğrenmenin zaman ve maliyet gereksinimlerinden de kaçınılmış olur [7]. Denetimli öğrenmede veri setinin hazırlanması ve veri setindeki her bir verinin etiketlenmesi zaman ve maliyet gerektiren işlemlerdir.
d. Pekiştirmeli Öğrenme (Reinforcement Learning)
En iyi sonucu üretebilmek için denetimli ve denetimsiz öğrenme algoritmalarının her ikisi de temiz ve doğru veriye ihtiyaç duyar. Algoritmanın görmediği örnekler üzerinde de çalışabilmesi için eğitim setinde kullanılan verinin kapsayıcı olması gerekir. Pekiştirmeli öğrenme, yalnızca verilerin başlangıç durumunun bir girdi olarak mevcut olduğu ve tek bir olası cevabın olmadığı ancak çok fazla sonucun mümkün olduğu durumlarda ideal bir seçimdir [5]. Robotik ve sürücüsüz araçlarda uygulanan makine öğrenme algoritmaları pekiştirmeli öğrenme algoritmaları sınıfındandır. Pekiştirmeli öğrenme algoritmaları sürekli olarak çevresinden öğrenen algoritmalardır.
2. Yapay Sinir Ağı Temelleri
Özel bir makine öğrenme tekniği olan Yapay sinir ağları (YSA) memeli cerebral korteksinden esinlenerek tasarlanmış daha küçük ölçekli işleme aygıtlarıdır [8]. YSA’lar değişkenler arasındaki doğrusal olmayan ilişkileri öğrenebilme ve yüksek dereceli ilişkileri tanıma konusunda oldukça yeteneklidir. YSA’lar denetimli ve denetimsiz öğrenme algoritmalarının her ikisiyle de uygulanabilirler [5]. Olabilecek en basit sinir ağı tek bir nöronun hesaplamalı modeli olan Perceptron’dur. Perceptron Warren McCulloch ve Walter Pitts’in daha önceki çalışmalarından esinlenilerek 1950’lerde Frank Rosenblatt tarafından geliştirilmiştir [9]. Günümüzde YSA çalışmalarında kullanılan temel nöron modeli sigmoid nöron olarak adlandırılır. Şekil 9.6’da basit bir nöronun hesaplama işlemleri verilmiştir.

Şekil 9.6 Nöronun bileşenleri.
3. Konvolüsyonel Sinir Ağı (Convolutional Neural Network, CNN)
Derin öğrenme olarak adlandırılın derin sinir ağlarının başında gelen konvolüsyonel sinir ağı, nöronları arasındaki bağlantı şekli hayvan görsel korteksinden ilham alınmış bir tür ileri beslemeli yapay sinir ağıdır. CNN bir sınıflandırma işlemini gerçekleştirmeyi direk olan görüntülerden, videolardan, metin veya ses dosyalarından öğrenen en popüler derin öğrenme algoritmalardan biridir. Sıradan YSA’lara oldukça benzeyen CNN tıpkı sıradan YSA’lar gibi öğrenilebilen ağırlık ve bias değerlerine sahip nöronlardan oluşur [10, 11]. CNN’in sıradan YSA’lardan en büyük farkı doğası gereği girişlerini iki veya üç boyutlu görüntü olarak varsaymasıdır. Bu durum ağ parametrelerinin sayısında ciddi miktarda azalma sağlarken görüntü işleme problemlerinde aşırı öğrenmenin önüne geçerek verim artışı sağlar. Klasik bir CNN mimarisi Şekil 9.7’de verilmiştir.

Şekil 9.7. CNN mimarisi
Şekil 9.7.’de [12] görüldüğü gibi CNN bir giriş katmanı ile başlayıp tam bağlantılı bir katmanla (fully connected layer) son bulan sıralı bir modeldir. Giriş katmanı, giriş görüntülerinin ham piksel değerlerini tutar. Giriş katmanının boyutları, bir CNN’de kullanılacak veri kümesine göre belirlenir. Tipik bir konvolüsyonel sinir ağı giriş katmanı ile tam bağlantılı katman arasında farklı sayılarda ve kombinasyonlarda tekrarlanan üç tip katmana sahiptir. Bu katmanlar sırasıyla konvolüsyon katmanı, ReLU katmanı ve Pooling katmanıdır (Pooling layer). Bu üç tip katman CNN oluşturulurken defalarca tekrarlanarak ağın derinliği ayarlanır.
Bölüm Özeti
Teknoloji ve yaşamın son yıllarda geldiği noktada, üretilen veriler de çağın gelişmişlik düzeyi ile birlikte katlanarak büyümektedir. Klasik yöntemlerle keşfedilemeyecek ilişkilerin keşfedilebilmesi, büyük veri analizinin parlak yönü olarak tebarüz etmektedir. Büyük veri, işletmelere yapay sinir ağları, derin öğrenme, doğal dil işleme, görüntü tanıma ve ileriye yönelik kişiselleştirme teknolojileri ile işlem görerek çok daha fazla akıl ve öngörü verebilmektedir. Öte yandan getirdikleri yaklaşımlarla doğadaki canlıların akıllı davranışlarını taklit eden, insan gibi düşünen ve karar veren modeller oluşturmayı amaçlayan yapay zeka teknikleri, büyük verilerin üzerinde yapılan çalışmalarda da sağladığı avantajlar ile tercih edilmektedir.
Bugün artık Twitter’ da tweetlerin analizi, Google’ da arama yaparken olası sonuçların tahmini, Facebook’ ta beğenilen sayfa, içerik veya etkileşime geçilen arkadaşların incelenerek benzer konuların önerilmesi, Apple’ın Siri ve Google’ın Google Now gibi yazılımları gibi bilgisayar ve sosyal medya analizleri yapay zeka tekniklerinin de kullanıldığı büyük veri analizleri ile yapılmaktadır.
Kaynakça
[1] Ng, A., Machine Learning Yearning: Technical Strategy for AI Engineers, In the Era of Deep Learning, Andrew Ng., Draft Version, 2018.
[2] Samuel, A.L., Some studies in machine learning using the game of checkers, IBM Journal of Research and Development, 3(3), 210-229, 1959.
[3] Mitchell, T., Machine Learning. McGraw Hill, 1997.
[4] Mohri, M., Rostamizadeh, A., Talwalkar, A., Foundations of Machine Learning, The MIT Press, 2012.
[5] Ramasubramanian, K., Singh, A., Machine Learning Using R, 2nd edn., Apress, 2019.
[6] Russell, S.J., Norvig, P., Artificial Intelligence: A Modern Approach, Third Edition, Prentice Hall, 2010.
[7] van Engelen, J.E., Hoos, H.H. A survey on semi-supervised learning, Mach Learn, 109, 373–440, 2020.
[8] Caudill, M., Neural Network Primer: Part I, AI Expert, 2(12), 46-52, 1987.
[9] Rosenblatt, F., The perceptron: A probabilistic model for information storage and organization in the brain, Psychological Review, 65(3), 386-408, 1958.
[10] Lu, Le., Zheng, Yefeng., Carneiro, Gustavo., Yang, Lin., Deep learning and convolutional neural networks for medical image computing: Advances in Computer Vision and Pattern Recognition, Springer, 2017.
[11] Aghdam, H.A., Heravi, E.J., Guide to Convolutional Neural Networks: A Practical Application to Traffic-Sign Detection and Classification, Springer, 1st edn., 2017.
[12] Matlab for Artificial Intelligence, https://www.mathworks.com/solutions/deep-learning/convolutional-neural-network.html, Haziran 2020.

10. TÜRKİYE’DE VE DÜNYADA BÜYÜK VERİ UYGULAMALARI

Ders Anlatimi – Video

Ders Anlatimi – Ses
Unite-10 Sunumu – PDF
Online Test – Unite Sorulari
Giriş

Şehirleşmenin hızlanması, üretim kapasiteleri ve tesislerin büyümesi, ağa bağlı cihaz sayısının hızla artması, Büyük Veri’nin anlamlı aksiyonlara dönüştürülmesini zorunlu kılıyor. IDC, ‘Büyük Verinin Devrimi’ olarak da adlandırılan ve şirketleri daha verimli ve yenilikçi hale getirme potansiyeli olan bu değişime kolay adapte olabilen şirketlerin, rakiplerine göre büyük avantaj elde edeceğini öngörüyor. IDC’nin yaptığı en son araştırmaya göre, Türkiye’de de her geçen gün daha fazla şirketin, hayatın her alanında ve hemen her sektörde fark yaratacak bir güç olan Büyük Veri’nin önemini kavramaya başladıklarını ortaya koyuyor.
Pazar araştırma şirketi International Data Corporation’ın (IDC) açıkladığı son tahminlere göre, Türkiye’de Büyük Veri ve Analitik yatırımları 2018 yılında 247 milyon dolar olarak gerçekleşti. 2023 yılına kadar pazarın yıllık yüzde 16 oranında büyüyerek, 520 milyon dolara ulaşacağı öngörülüyor.
Dünyanın dört bir yanındaki şirketlerin veriyi analiz ederek anlamlı sonuçlar çıkarmalarına yardımcı olan Hitachi Vantara’nın sponsorluğunda IDC tarafından gerçekleştirilen araştırmaya göre, Türkiye’deki kurumların yüzde 55’i şirket içindeki büyük veri işleme konusundaki çalışmalarını sürdürmektedir.
Türkiye’deki her 10 kurumdan 8’i ‘makine öğrenmesi’ni, kurumu için anlamlı ve değerli görürken, her iki şirketten biri, yani katılımcıların yarısı, geçmiş verileri analiz etmek için çok sayıda veri kaynağını bir araya getirmekte zorlandığını belirtmektedir.
Geniş bilgi kaynaklarının etkin bir şekilde kullanımı, kaynak kullanımında ve karar vermede öngörülemeyen yeni fırsatlar sağlamaktadır. Büyük verilerin kullanımı birçok kritik alanda bilişimin karar desteğini bir üst boyuta taşıyarak ciddi tasarruflar ve yeni olanaklar sağlamaktadır. Bu çalışmada, büyük veri uygulamalarının Türkiye’de ve Dünyadaki örnekleri anlatılacaktır.
10.1. Büyük Veri Uygulamalarının Temelleri
Uzun yıllar bilişim dünyasında adından sıklıkla bahsedilen ve her geçen gün yeni geliştirilen araçlarla kullanımı yaygınlaşan büyük veri uygulamaları, dünya ölçeğinde Şekil 10.1’de görülen Google, Facebook, LinkedIn, Yahoo ve daha birçok büyük teknoloji şirketleri tarafından yaygın olarak kullanılmaktadır. Kamu ve özel kurumların veri analizinde kullandıkları teknolojilerin büyük veriye adapte edilmesi konusunda kendilerini baskı altında hissettikleri belirtilmektedir [1].

Şekil 10.1. Dünyada büyük veri uygulamaları.
Obama Yönetimi, büyük veri teknolojilerini geliştirmek, büyük veri uygulamalarını göstermek ve yeni nesil veri bilimcilerini eğitmek için 2012 yılında Büyük Veri Araştırma ve Geliştirme Girişimi’ni başlatmış, aynı zamanda Beyaz Saray’a ilk kez Veri Bilimi Yöneticisi işe almıştır [2]. ABD’de yayınlanan raporlar ve hükümetin bu alana verdiği önem sonucunda, eğitim alanı da dahil olmak üzere farklı sektörlerde birçok devlet ve özel sektör büyük veri ile ilgili araştırmalara başlamış, önemli yatırımlarda bulunmuşlardır. Buna bağlı olarak farklı kaynaklardan farklı ürünler ve hizmetler insanoğlunun kullanımına sunulmuştur. Başarılı iş uygulamaları, teknik altyapı yatırımlarına, alan uzmanlarının yetkinlik düzeyine ve özellikle değer yaratma potansiyelinin keşfedilmesiyle mümkün hale gelmiştir. Bu gelişim doğrultusunda veriler arasındaki ilişkiler, bağlantılar ve örüntüler ortaya çıkartılabilmiş, alınacak kararların sonuçlarını kestirmek mümkün olmuştur.
İşletmelerin büyük veri kaynakları; müşteri (kişisel, demografik, ses, fotoğraf, video, beğeni, yorum, paylaşım, tercih), ürün (tür, miktar, fiyat, satın alma sıklığı, renk, beden), network cihazları, sensörler, web ve mobil uygulama (konum, giriş zamanı ve sayısı, tıklama, görüntüleme, ziyaret), doküman (plan, program, liste, çizim) gibi verilerinden oluşmaktadır. Ayrıca, kendi verileri dışındaki hava durumu, sosyal medya siteleri, arama motoru sorguları, ticaret odaları ve merkezi nüfus idaresi gibi dış kuruluşların verileri de işletmelerin büyük verilerinin bir kısmını oluşturmaktadır. Bu veriler sayesinde insanlığa faydalı ürünler oluşturabilmenin yanında işletmelere önemli ekonomik girdilere dönüştürülmüştür. Büyük verinin ekonomik değer kaynağı olduğunu, içgörüler ya da değer yaratan mal ve hizmetler üretmek için bilgiden faydalanılması gerektiğini, değer elde etmeksizin yapılan analizlerin işletmelere katkı sağlamayacağını, herhangi bir büyük veri planı/stratejisi olmayan/gerçekleştirmekte başarısız olan/geç kalan işletmelerin rekabet etmesinin güçleşeceğini göstermektedir.
Dijital çağ tanımlarının yapıldığı günümüzde verilerin etkin kullanımı hem kamu politikalarının başarı oranını hem de kamusal hizmetlerin kalitesini artıracak bir fırsattır [3]. Doğru kurgulandığı ve kullanıldığı takdirde, işletmelere önemli faydalar sağlamakta ve iş yapma şekillerini değiştirmektedir.
Geleceğin işletmelerinde rekabet üstünlüğünün ancak işletme içinde ve dışında bulunan karmaşık bilginin üretilmesi, tüketilmesi ve yönetilmesi sayesinde mümkün olacağı değerlendirilmektedir. Örneğin, iş dünyasında kişiselleştirilmiş ürün ve hizmet sunumuna dönük iş modelleri geliştirilebilmekteyken sağlıkta, akıllı cihazlarla toplanan verilerle hastalıkları öğrenebilen modeller oluşturulabilmekte; tarımda, sensörlerle toprağın, havanın, bitkilerin durumları tespit edilerek ürünler özel bir bakımla yetiştirilebilmektedir. Bu kapsamda büyük veri çalışmaları kurumlar, kuruluşlar, işletmeler ve araştırmacılara önemli getirilerde bulunması beklenmektedir [4].
Türkiye’de büyük veri, birçok araştırmacı ve işletme için yenidir. Özel sektördeki büyük veri uygulamaları artış göstermekle birlikte büyük bir kısmı bu konuya yapılan yatırımlar düzeyindedir. Buna karşılık kamu kurumlarında gerçekleştirilmiş başarılı büyük veri uygulamaları ya da uygulamalara girdi sağlayabilecek projeler daha fazladır. Bunlara, Kamu Bilgi Yönetim Sistemi (KAYSİS), enerji tahmin sistemi, e-bildirge sistemi, Milli Eğitim Bakanlığı Bilişim Sistemleri (MEBBİS), e-okul, e-Nabız gibi çalışmalar örnek olarak verilebilir [5, 6]. Ayrıca son iki yılda, Araç ve Sürücü Davranış Modellemesi, Erken Uyarı Sistemleri, Dolandırıcılık Tespiti, Canlı Trafik Tahmini uygulamaları ile büyük veri kullanılmaya başlanmıştır [7].
10.2. Türkiye’de Büyük Veri Uygulamaları
Ülkemizde birçok büyük veri uygulaması devlet eliyle açık veri haline getirilmiş örnekleri ile vatandaşların kullanımına açılmıştır. Bu uygulamaların en popüler örneklerinden bazıları aşağıda verilmiştir:
e-Devlet Portalı:
Ülkemizde büyük veri çalışmalarının en önemli örneklerden biri de “e-Devlet” portalıdır. e-Devlet, hem kamunun sayısal dönüşümüne iyi bir örnek olması açısından hem de neredeyse ülke nüfusunun tamamının hayatını büyük ölçüde kolaylaştıran bir büyük veri çalışması olması açısından önemli bir örnektir. www.turkiye.gov.tr internet adresi üzerinden hizmet veren portalda adaletten, telekomünikasyona, vergi yükümlülüklerinden şikâyet ve bilgi edinmeye kadar birçok işlem devlet kurumlarına gitmeye gerek kalmaksızın çevrimiçi olarak vatandaşların faydasına sunulmaktadır.
Portalda yalnızca devlet kurumlarına ait işlemler değil elektrik, doğalgaz, telekomünikasyon gibi özel sektör eliyle yürütülen hizmetler için de abonelik sorgulama, abone olma ve abonelikten ayrılma başvurusu gibi işlemleri yapmak mümkündür. e-Devlet üzerinden Ağustos 2020 itibarı ile 670 farklı Kuruma ait 5.125 hizmet alınabilirken, bu portala kayıtlı kullanıcı sayısı 50 milyona yaklaşmıştır.

Şekil 10.2. e-Devlet uygulaması.
Resmi İstatistik Programı (RİP)
Resmi istatistiklerin üretimine ve yayımına ilişkin temel ilkeler ile standartları belirlemek, ulusal ve uluslararası düzeyde ihtiyaç duyulan alanlarda güncel, güvenilir, zamanlı, şeffaf ve tarafsız veri üretilmesini sağlamak amacıyla 5429 sayılı Türkiye İstatistik Kanunu’na dayanılarak beşer yıllık dönemler için hazırlanmaktadır.

Şekil 10.3. Resmi istatistik portalı.
RİP kapsamında TÜİK ve Programa dahil tüm kurum ve kuruluşlarca üretilen istatistiklerin, Türkiye istatistik sistemine ilişkin bilgilerin ve gelişmelerin kamuoyuna internet üzerinden tek kapıdan sunumunu gerçekleştirmek amacıyla RİP Portalı hazırlanmış ve 2014 Mart ayında kullanıcıların hizmetine sunulmuştur. Bu portal üzerinden resmi olarak sağlanan tüm istatistiklere açık erişim sağlanabilmektedir.
TÜBİTAK Açık Arşivi
Türkiye Bilimsel ve Teknolojik Araştırma Kurumu (“TÜBİTAK”), “TÜBİTAK Açık Bilim Politikası” uyarınca, kendisi tarafından yürütülen veya desteklenen projelerden üretilen yayınlar (hakemli makaleler vd.) ile araştırma verilerinin TÜBİTAK Açık Arşivinde depolanmasını ve bu sayede bu verilere açık erişim sağlanmasını hedeflemektedir. TÜBİTAK Açık Arşivi Aperta adıyla geliştirilmektedir. Aperta kapsamına giren bilimsel çalışmalar, bu portala yüklenebilmekte ya da yüklenmiş çalışmalara kolayca erişilebilmektedir.

Şekil 10.4. TÜBİTAK Açık Veri Portalı.
T.C. Sağlık Bakanlığı Açık Veri Portali
T.C. Sağlık Bakanlığı’nın 2018 yılı faaliyet raporunda Açık Veri Portali’yle ilgili olarak; “açık veri paylaşım ilkeleri, kişisel bilginin güvenliği / mahremiyeti gözetilerek kamu kurumlarında, yerel yönetimlerde, özel sektörde ve sivil toplum kuruluşlarında üretilen veriler açık veri olarak ortak bir veri kaynağından tüm fayda sağlayıcıların kullanımına açılacaktır” ifadelerine yer verilmiştir.

Şekil 10.5. T.C. Sağlık Bakanlığı Açık Veri Portalı.
Bakanlığın internet sitesinde de “Açık Veri Portalı-pilot çalışma” başlığı altında birçok sağlık verisi yayımlanmaktadır. Ayrıca, Kan, Organ ve Doku Nakli Hizmetleri Dairesi Başkanlığı Resmi Sayfası’nın istatistikler bölümünde de organ doku istatistikleri paylaşılmaktadır.
Dijital Dönüşüm Portalı
Türkiye’de kamu kurumları, özel sektör, akademi ve STK gibi Dijital Devlet (d-Devlet) ekosistemi paydaşları arasında bilgi paylaşımı sağlamak amacıyla TÜBİTAK-BİLGEM Yazılım Teknolojileri Araştırma Enstitüsü (YTE) tarafından Dijital Dönüşüm portali oluşturulmuştur. Dijital dönüşüm kapsamında büyük/açık veri hakkında da çalışmalar yapıldığı görülmektedir. Başbakanlık ve TÜBİTAK-BİLGEM-YTE iş birliği ile 20 Mart 2013 tarihinde “Kamu Yönetiminde Gelişen Trendler: Açık Devlet ve Açık Veri” konulu panel düzenlenmiştir.

Şekil 10.6. Dijital Dönüşüm Portalı.
Ticaret Bakanlığı
T.C. Ticaret Bakanlığı’nın yayımladığı politikalar, stratejiler ve tarafından ülkemizde gerçekleştirilecek açık veri konusundaki faaliyetlere oldukça önem verilmekte ve de Bakanlık tarafından yürütülen büyük veri analizi ve yapay zeka projeleri kapsamında da, firmalar, üniversiteler ve araştırma kuruluşları ile işbirliği yapılması hedeflenmekte, bu kapsamda Bakanlıkça tutulan verilerin, daha etkin politikalar sunulması amacıyla diğer paydaşlarla paylaşımı konusunda çalışmalar devam etmektedir. Halihazırda, Bakanlıkça tutulan çeşitli verilerin paylaşımın faydalı olabileceğinin düşünüldüğü bazı proje başlıkları aşağıda sıralanmaktadır [8].
Boyner Grup
Çok katlı mağazacılık, özel marka, e-ticaret ve mobil uygulama ile hizmet veren Türkiye’nin lider mağaza ve moda perakendesi grubu olup bu özel işletmenin büyük veri çalışmaları, akıllı telefonlara yüklenen mobil alışveriş uygulaması ile yön bulmuştur. Bu yazılımla müşterilerin gün içindeki hareketleri, hangi ürünlerle ilgilendikleri, hangi sayfalarda uzun zaman geçirdikleri, konum bilgileri tespit edilebilmektedir. Bu yolla elde edilen değerler şöyledir [9]:
Büyük veride amaç, müşterinin davranışlarını tanımak ve anlamlandırmaktır. Bu doğrultuda, yeni açılan mağazalarının ve mobil uygulamanın müşteri profilleri arasındaki benzerlikler belirlenmiş, mağaza civarında oturanlar seçilmiş, daha sonra mağazanın yakınından geçmekte olan müşterilere tanıtım mesajları gönderilerek paracık olarak adlandırdıkları ödül-puan sistemi hediye olarak sunulmuştur. Bu davet ile cironun %27’si elde edilmiştir. Bir diğer analizde, 24 saatlik alışveriş hareketleri incelenmiş, internet üzerinden alışverişlerin en yoğun 06.00-10.00 aralığında yapıldığı bilgisi elde edilmiştir. Isı haritası olarak nitelendirdikleri bu işlemlerin mahalle, sokak, köy, kasaba dahilinde hangi şehirlerde gerçekleştirildiği saptanmış; böylece sadece harcamalar değil alınan ürünün türü, rengi, bedeni gibi bilgilere de erişmek mümkün olmuştur.
Yemeksepeti (yemeksepeti.com)
Çevrimiçi yemek siparişi hizmeti sunan web sitesi olup paket servisi bulunan restoranlar ve yemek sipariş etmek isteyen internet web kullanıcılarını buluşturmaktadır. Mobil uygulaması da bulunan şirket, 2020 itibariyle 78 bini geçen restoran ve 19 milyonu geçen kullanıcısı ile Türkiye’de en çok kullanılan yemek sipariş ortamı olmuştur [x10]. Büyük veri ile geliştirdiği özgün iş modeli, şirketin başarısının ve büyümesinin özünü oluşturmaktadır.
Yemek siparişinde zaman çok önemli bir faktördür ve hizmetin 30-40 dk. içerisinde tamamlanması beklenmektedir. Ayrıca yemek yeme; görünce sipariş verme, yemeyi isteme şeklinde gelişebilen duygusal ve dürtüsel bir davranıştır. Bu da sektörel bazda her türlü değişikliğin takip edilmesini, iş ve teknik birimlerin hızlı cevap vermesini gerektirmektedir. Bilinmeyen ilişkiler analizle ortaya çıkarılmaktadır [11]. Şirketin büyük verisine konu olan önemli bazı kategoriler Tablo 10.1’de verilmektedir.
Tablo 10.1. Yemek Sipariş Sitesi 2015-2019 Verileri [12].

Yemeksepeti’nin en popüler büyük veri başarısı, şirkete ödüller kazandıran “Fakat İyi Yedik” projesidir. Proje, kullanıcıların kişiselleştirilmiş verilerinin sunulduğu bir mikrositeden oluşmaktadır. Büyük verideki 10 milyar veri, anahtar kategorilerle 1,5 milyara indirgenmiş; kişinin siparişleri, yeme alışkanlıkları, ilginç yemeksepeti verileri ve eğlenceye dönük sorular kullanıcıya video olarak sunulmuştur. Büyük veri, istek anında oluşan, her siparişle yenilenen dinamik bir formata dönüşmüştür. Bu, büyük verinin görselleştirilmesi açısından önemli bir başarıdır. Proje sonucunda mikrositeye 1,5-2 aylık sürede 630 bin ziyaret, 212 bin video, 2 milyon sayfa görüntüleme, 5 binden fazla Twitter mesajı geri bildirim olarak dönmüştür. Böylece şirket markasını sunabilmiş, viral pazarlama ya da ağızdan ağıza reklam olarak bilinen müşteri odaklı pazarlama faydası sağlamıştır [4, 11].
Akbank
Türkiye’nin en büyük bankalarından biri olup sigorta acenteliği faaliyetleri de yürütmektedir. Dünyadaki teknolojik eğilimler doğrultusunda altyapısına önemli yatırımlar yapmaktadır [13].
Büyük veri, iç ve dış veri kaynaklarının sürekli birleştirilmesini, müşteri ve organizasyonu anlamak üzere yapılandırılmış ve yapılandırılmamış verilerin bir araya gelmesini içermektedir. Bu amaçla, büyük veri alt yapısı yeniden düzenlenmiştir. Çözüm ortakları ile yapılan çalışmalarda, farklı veri kaynaklarında depolanmış pazarlama kampanyası verileri ve sonuçları birleştirilerek analizlerin çalıştırılma süresi düşürülmüş ve yeni davranışsal içgörüler arayan kampanya verileri oluşturulmuştur. Böylece, kampanyalar bittikten sonra değil devam ederken sonuçları görmeye olanak veren müşteri merkezli bir sistem oluşturulmuştur [14].
Akbank, büyük verinin hem görsel olarak sunabildiği hem de işlemlerin müşteriye özel gerçekleştirebildiği bir mobil uygulamaya sahiptir. Yapay zeka altyapısı ile hazırlanan uygulamada, finansal kararlara yardımcı olacak kişiselleştirilmiş içgörüler ve akıllı ipuçları yer almaktadır. Uygulamada, 300 fonksiyon, 40 farklı içgörü senaryosu, 23 milyon içerik yer almaktadır. Bu içeriklerle, haftalık nakit akışına ilişkin öngörü ve önerilerin yanı sıra kullanıcıların karşılarına çıkan içerikleri kişiselleştirme olanağı sunulmaktadır [15]. Mobil girişin kullanıcının özçekim fotoğrafıyla da yapılabilmesi, yapılandırılmamış verinin kullanımına ilişkin net bir özelliktir [4].
Enerjisa
Elektrik dağıtımı ve satışından oluşan iki ana iş kolu bulunan enerji şirketidir. 14 ilde 10.1 milyon müşteriye ulaşarak yaklaşık 21 milyonu aşkın kullanıcıya dağıtım hizmeti sağlamaktadır.
Büyük veri ile müşteriyi tanımanın yolu müşterinin veri tabanındaki hareketlerini izlemekle mümkündür. Enerjisa bu konuda müşteri verilerine yönelik tek bir havuz oluşturmak üzere çözüm ortağıyla birlikte kayıtları birleştirip temizlemiş ve bu şekilde çift kopyalar azaltılarak %25 daha az kayıt elde edilmiştir. Ayrıca elde edilen veriler, ticaret odaları ve merkezi nüfus idaresi gibi dış kuruluşların verileriyle eşleştirilerek zenginleştirilmiş, müşteri bilgilerinin tamlık oranı %30 artırılmıştır. Böylece, daha güvenli müşteri bilgileriyle daha detaylı bir hizmet ve pazarlama yaklaşımı geliştirebilmek için kritik bir adım atılmıştır [16].
Çeşitli uygulamalar ile dijital dönüşümünü gerçekleştiren şirket, sanal gerçeklik uygulamalarıyla da teknolojik etkinliğini artırmıştır. Artırılmış gerçeklik gözlüğü kullanılarak işlerin uzaktan kumanda edilebiliyor oluşu, zorlu yerlerde çalışılabilmesini mümkün hale getirmiştir. Bunun bir uygulaması, doğal gaz tesisinde gerçekleştirilen son bakım çalışmaları ve test aşamalarında gerçekleştirilmiştir. Bir diğer uygulama ise linyit fabrikasında her depoyu kişisel olarak ziyaret eden bir merkez çalışanının yürüttüğü fiziksel stok sayımı sisteminin uzaktan stok sayımı ile değiştirilmesi ve saha çalışması için sanal iş birliği yapılmasıyla olmuştur. Böylece iş süreçlerini iyileştirme ve hızlandırma mümkün olmuştur. Şirket bu çalışmalarla hem değer elde etmiş hem de veri şirketi olma yönündeki hedefini gerçekleştirmiştir. Gelecek planlarında, Büyük verinin yapay zeka ile daha etkin değerlendirilmesini sağlayacak projelere yer verilmektedir [4].
10.3. Dünyada Büyük Veri Uygulamaları
Dünya ölçeğinde birçok büyük veri uygulaması ve bu uygulamaları geliştiren/destekleyen kurum ve kuruluşlar olmakla birlikte en popüler uygulamaların başında sosyal medya hesapları gelmektedir. Facebook, Twitter, Youtube, Google vb. uygulamalar popüler ve bilindik oldukları için bu bölümde yer verilmeyecektir. Ayrıca uzay teknolojileri ve savunma sanayi örnekleri gizlilik politikaları nedeniyle bu bölümde anlatılmayacaktır. Ölçek olarak birçok kurum ve kuruluşun geliştirdiği uygulamalar olmakla birlikte hepsine değinilmesi imkan dahilinde olmamasından ötürü örneklem yapılmıştır. Aşağıdaki Şekil 10.7’deki görselde büyük verinin dünya örneklerini bir arada görebilirsiniz.

Şekil 10.7. Dünya ölçeğinde büyük veri örnekleri [6]
Hollanda İstatistik Bürosu, ülke halkının %70’nin kullandığı Twitter ve benzeri sosyal medya sitelerinden topladığı verilerle halkın genel olarak ne üzerine konuştuğunu analiz etmiştir. Bunun yanı sıra duygu analizi yaparak genel olarak halkın mutluluk düzeyini ortaya koymuştur. Bunun yanında ayı analizlerde ekonomik durum ve benzeri konular üzerinde halkın düşüncesi meydana çıkmıştır [17].
Büyük veri analitiği dünya ölçeğinde birçok spor endüstrisinde de kullanılmaktadır. Örneğin, tenis turnuvalarında IBM’in Slamtracker uygulaması kullanılıyor ve oyuncu hareketleri video bazında analiz edilerek oyunu geliştirmek için antrenörlere kullanabilecekleri detaylı raporlar sunuyor. Ayrıca sporcuların giyilebilir teknolojiler sayesinde spor müsabakalarının dışında da takip edilebilmesine olanak sağlanıyor; uyku ve yeme alışkanlıkları izlenebiliyor. Bunun yanında sporcuların sosyal medya paylaşımları incelenerek psikolojik durumları analiz edilebiliyor.

Şekil 10.8. IMB Slamtracker uygulama arayüzü.
Ontario Üniversitesi her gün, erken doğan bebeklerden (prematüre) yaklaşık 100 milyon adet veri toplayarak, analizini en hızlı şekilde gerçekleştiriyor. Bunun sonucunda, hasta muayenesi sırasında erken teşhis edilen değişimler, bir hastalık durumuyla ilişkilendirilebiliyor [17].
Tesla şirketi araçlarını sensörlerle donatarak ve Apache Hadoop yapısını kullanarak veri toplamakta ve toplanan veriyi analiz için ana merkeze göndermektedir. Toplanan veriler, şirket Ar-Ge gelişimini, araba performansını, araç bakımını ve müşteri memnuniyetini artırmak için kullanılmaktadır. Örneğin araçla ilgili problem olduğunda sürücüye servise gitmesi tavsiye edilir ve şirket genel merkezi bilgilendirilir. Bu özellikler sayesinde Tesla’nın şarj istasyonlarının yaygın olarak kullanılmadığı zorlu çevre şartlarında bile şirket için pazar payı yaratmasına yardımcı olmaktadır [6].

Şekil 10.9. Tesla büyük veri kullanmaktadır.
CERN’in Büyük Hadron Çarpıştırıcısı, evrenin gizemlerini çözmeyi ve aynı zamanda şaşırtıcı boyutta veriler üretmektedir. CERN’in veri merkezinde, 65.000 işlemci 30 petabayt veriyi işlemekte, ancak bu miktarda veriyi işlemek için 150 farklı veri merkezindeki bilgisayarları kullanmaktadır. Böyle büyük bir bilgi işlem gücü, bilimsel araştırmalarda hayatta önemli düzeyde donanım kaynakları sağlamaktadır.

Şekil 10.10. CERN’in Büyük Hadron Çarpıştırıcısı
Tennessee Valley Authority, sayısı 1.5 trilyon olan akıllı şebeke verilerinin analizi için bir sistem geliştirmiştir. Sonuç olarak kurum, güç şebekesi arızaları üzerine yapılan analizler ile verimliliği arttırmaktadır. Doğal kaynakları koruyan üst düzey analizlerle tahminlemeler gerçekleştiriyor [17].
California Long Beach’te sulama şebekesi akıllı sayaçlarla izlenerek kaçak sulamanın önüne geçilmiş ve bu sayede yılda küçümsenemeyecek oranlarda su tasarrufu sağlanmıştır.
Asya Sağlık Bürosu, hasta görüntüleme verilerini Hadoop üzerinde tutup analiz ederek radyoloji ve patoloji uzmanlarının hem daha hızlı hem de daha az hata yaparak teşhis koymalarını sağlamıştır [17].
Apple’ın yeni sağlık uygulaması ResearchKit, cep telefonlarını biyomedikal birer araştırma cihazına dönüştürmektedir. Bu uygulama sayesinde bilim insanları topladıkları büyük veriler sayesinde yeni çalışmalar yapmış; bu ve benzeri uygulamaların popülaritesi ile süreç daha kolay ve daha hızlı bir şekilde veriler anlamlandırılma imkânı bulmuştur. Ayrıca Jawbone’s Up akıllı bileklik, her gece 60 yıllık uyku verilerini toplamakta ve bu verilerden elde edilen analiz sonuçları, bilgileri kullanıcıya geri döndürmektedir. Bu alanda akıllı bileklikler ve giyilebilir teknolojiler sayesinde dünya genelinde oldukça fazla ürün oluşturulmuş olup büyük ölçekte veri toplanmaktadır. Sağlık sektörü başta olmak üzere birçok sektörde bu teknolojilerin popüler olması ve geniş kitlelerden farklı sensörler ve mobil teknolojiler sayesinde veri toplanması birçok bilimsel çalışmaya konu olmuştur.

Şekil 10.11. Apple ResearchKit
New York Polisi 911 kayıtlarını, yakalamaları, suçlu bilgilerini ve coğrafi verileri gerçek zamanlı olarak işleyerek günler sürebilen analizleri dakikalar içinde tamamlayarak suç oranını azaltmaya başlamıştır [17].
Amerika’da bir perakende şirketi olan Kroger, yaklaşık 770 milyon tüketicinin verisine erişmekte, toplamakta ve yönetmektedir. Büyük verilerden gelen analitik çıktılar, Kroger için, müşteri sadakati ve karlılığı konusunda daha büyük ve kullanılabilir bilgiler sunmaktadır. Yaklaşık %60 geri ödeme oranı ile büyük veri ve analitik kullanarak artan gelirde 12 milyar doları aşan bir kazanç elde edilmiştir [6].

Şekil 10.12. Kroger firması büyük veri uygulaması.
Beacon Enstitüsü, Hudson Körfezi’ne yerleştirdiği sensörlerle topladığı biyolojik, fiziksel ve kimyasal verileri meteorolojik verilerle birleştirerek araştırmacı, kamu ve eğitimcilere sunmaktadır. Toplanıp analiz edilen bu verilerle olası çevre felaketleri ve anlık değişimlerin daha hızlı fark edilmesi sağlanıyor [17].
Amerika’da “Önleyici Polis Hizmetleri” olarak adlandırılan ve Seattle, Los Angeles gibi şehirlerde uygulanan yapılandırmalar 4 aylık bir süreçte cinayet oranını yüzde 12 gibi bir miktarda düşürmüştür. Yüzde 26 gibi bir düşüş ise hırsızlık üzerinde gerçekleşmiştir. Vancover polis bölümünün benzer uygulaması bir hizmet, suçun nereye yönlendiğini göstermiş, hatta birçok durumda engellenmezse gerçekleşeceği durumlarda sonlanmasını sağlamıştır. Mülki suçlar şehir genelinde 1000 yerleşimde %24 oranında düşmüş, şiddetli suç oranlarında 2007 yılından 2011’e kadar %9 azalmıştır [17].
American Express şirketi, geleneksel ticari istihbarat tabanlı raporlamasını ve müşteri sadakati öngören göstergeleri değiştirmek için gelişmiş tahmin modelleri oluşturarak, 115 değişken ile geçmiş müşteri işlemlerini analiz etmiş ve böylelikle Avustralya pazarında kapanacak hesapların %24’ünü tahmin edilebilmiştir [6].
Dünya’da önemli büyük veri uygulama örneklerinden bir tanesi de tele-tıptır. Dünya Sağlık Örgütünün (WHO, 2009) tanımına göre Tele-tıp; mesafe ve coğrafi uzaklık sınırlaması olmadan hastalık ve yaralanmaların teşhisi, tedavisi ve önlenmesi, araştırma, değerlendirme ve sağlık hizmet sunucularının sürekli eğitimi, birey ve toplulukların sağlığını geliştirmek ve bilgi alışverişi yapmak için sağlık sistemleri tarafından kullanılan bilgi ve iletişim teknolojilerini içeren sistemdir. Örneğin, bir aile hekiminin kendisine cilt rahatsızlığı konusunda başvuran bir hastanın cildindeki hastalıklı bölgenin görüntüsünü dermatoskop cihazı ile kaydedip merkezi bir bölgedeki uzman bir hekime göndermesi ve uzman hekimin bu hastayı uzaktan teşhis etmesi süreci tele-tıp uygulamasıdır [18].

Şekil 10.13. Teletıp sistemi uygulama görüntüsü.
Amerika’da büyük bir eczane zinciri olan Walgreens’in klinik hekimleri; büyük veri teknolojilerini kullanmakta, büyük veri analizi ile hasta durumlarının değerlendirmesini yapmakta ve genel sağlık durumlarını iyileştirmek, gelecek tıbbi maliyetlerden kaçınmak için öneriler çıkartmaktadırlar. Örneğin; mevcut sistem, insanların sağlık planlarına sadık kalmasına ve daha fazla gereksiz maliyetten kaçınmasına yardımcı olmak için doldurulmamış bir reçeteyi yakalayabilmektedir. 100 milyondan fazla kişi için 7.5 milyar tıbbi olay incelenmektedir [6].

Şekil 10.14. Walgreens firması büyük veri uygulaması.
UPS şirketi her gün yaklaşık 16.000 paket ve belge dağıtımı yapmaktadır ve yılda 4 milyar ürünü yaklaşık 100.000 araçla sevkiyat yapmaktadır. Bu işlem hacmi ile UPS’in büyük veri kullanması için birçok yol vardır ve bu uygulamalardan birisi filo optimizasyonu içindir. Uygun gelişmiş algoritmalar, her bir filo için rota hesabı, motor boşta kalma süresi ve tahmini bakım süreleri için yardımcı olmaktadır. Programa başladığından beri şirket, 39 milyon galon yakıt ve 364 milyon mil yol tasarrufu sağlamıştır. Sonraki aşamada ise şirket programı uçaklar için de devreye almayı planlamaktadır [6].
Commonbond, öğrencileri ve mezunları başarılı profesyonellerle ve mezunları yatırımcılarla buluşturan bir öğrenci kredi platformudur. Böylece, öğrenciler daha düşük, sabit faizli finansmana erişebilir ve geri ödemelerinde binlerce dolar tasarruf edebilmektedirler [6].
General Electic (GE), santrallerden lokomotiflere ve hastane donanımına kadar pek çok çalışma verilerini topladıkları ve bunu ilgili yerlere aktardıkları, GE’nin analitik ekibi ise bu verileri kullanarak makinelerin daha verimli olmasını sağlamak için çalıştıklarını, çok küçük gelişmelerin bile önemli olduğunu belirtmektedirler. GE’nin tahminlerine göre, yapılan bu işlemlerin ABD’deki verimliliği %1,5 artırabileceğini, bunun ise 20 yıllık bir süre zarfında, ortalama ulusal geliri %30 oranında artırabileceğini belirtmişlerdir.
Palantir Technologies, dolandırıcılıktan teröre kadar değişen güvenlik sorunlarını çözmek için büyük veri analitiği yöntemlerini kullanarak çözümler üretmektedir. Sistemlerini CIA destekleriyle geliştirmiş ve ABD Hükümeti ve güvenlik kurumları tarafından yaygın bir şekilde kullanılmaktadır. 400.000 Milyon dolar yatırım ile üç yılda 20 Milyar dolarlık bir şirket olan önemli örneklerdendir [6].

Şekil 10.15. Palatnir büyük veri teknolojileri kullanmaktadır.
Bölüm Özeti
Büyük verinin bizzat kendisi iş dünyasında çok önemli bir yere sahiptir. Modern ve post modern işletme anlayışı firmaların iç ve dış çevrelerinden topladıkları veriyle hareket etmeleri gerektiğini tavsiye etmektedir. Bununla birlikte teknolojik gelişmeler büyük veriyi beraberinde getirerek firmalara resmi daha net görmeleri konusunda yardımcı olmakta ekonomik girdilerini artırmaya yönelik yatırımlar yapma olanağı sağlamaktadır.
Büyük veri ile devletler, kurum ve kuruluşlar müşteri davranışını analiz edebilmekte ve bu doğrultuda inovatif atılımlar ve yeni hizmetler geliştirebilmektedir. Ürün/hizmetlerini müşterilerinin istediği şekilde dizayn edebilmekte ve farklılaşma konusunda yeni uygulamalar geliştirebilmektedirler. Ayrıca işletmeler bu sayede iş süreçlerini optimize edebilmekte, karar destek sistemlerini geliştirerek daha etkin işletme stratejisi belirleyebilmektedirler. Büyük veri işletmelere yeni iş modeli geliştirerek başkalaşım ve dolayısıyla yeni iş sahaları oluşturmak gibi fırsatlar da sunmaktadır.
Dünyada büyük verinin önemini benimsemiş birçok işletme olmasına karşın Türkiye’de gerek piyasada gerekse akademik çevrede yapılan çalışmalar dünyada yapılanlara nazaran yetersiz sayıdadır. Önümüzdeki yıllarda büyük veri kavramının öneminin hızla artacağı açıktır. Hızla büyüyen veriyi doğru analiz edebilen, veri akışını yakalayabilen ve ona uyum sağlayabilen organizasyonların ve bu konuda yetkin personel istihdam eden kuruluşların daha avantajlı konumda olacağı görülmektedir. Bu bağlamda Türkiye’de konuya olan ilginin artması beklenmektedir.
Kaynakça
[1] Wormer, P. V. (2014, 11 11). A sense of urgency: Excecutives rush to adobt Big Data analytics. (Son Erişim Tarihi: 15.11.2021)
URL: http://info.totaltraxinc.com/blog/a-sense-of-urgency-executives-rush-to-adopt-big-data-analytics
[2] Marzullo, K. (2016). Administration Issues Strategic Plan For Big Data Research and Developement. (Son Erişim Tarihi: 08.11.2021)
URL: https://obamawhitehouse.archives.gov/blog/2016/05/23/administration-issues-strategic-plan-big-data-research-and-development
[3] Julia Studinka ve Ali Asker Guenduez, “The Use of Big Data in the Public Policy Process – Paving the Way for Evidence-Based Governance”, Research Platform Alexandria, 5 Eylül 2018.
[4] Koltan Yilmaz, Ş. “Businesses Creating Value With Big Data In Turkey: A Review On Private Sector Applications”. International Journal of Management Information Systems and Computer Science, 2021, 5(1):44-62.
[5] BTK, Bilgi Teknolojileri ve İletişim Kurumu (2020). “Dünyada ve Ülkemizde Sayısal Dönüşüm: Endüstri 4.0, Yapay Zekâ ve Büyük Veriye İlişkin Gelişmeler”, Sektörel Araştırma ve Strateji Geliştirme Dairesi, Sayısal Dönüşüm Raporu, Ankara. (Son Erişim: 04.04.2021).
URL: https://www.btk.gov.tr/ uploads/pages/arastirma-raporlari/sayisal-donusum-rapor.pdf
[6] Sağıroğlu, Ş. (2017). Büyük Veri Dünyası: Büyük Veri Büyük Etki. (Ed.), SAĞIROĞLU, Ş ve KOÇ, O., Büyük Veri ve Açık Veri Analitiği: Yöntemler ve Uygulamalar içinde (81-97), Grafiker Yayınları, Ankara.
[7] Sağıroğlu, Ş. (2019). Büyük ve Açık Veri Türkiye Uygulamaları. Büyük Veri Uygulamaları Konferansı, BTK Konferans Salonu, 26 Haziran 2019, Ankara (Son erişim: 19.11.2021).
[8] Özkan, Ö. “Açık Veri”, Blockchain Türkiye Platformu, Set Pozitif Matbaa, 2019.
[9] Boyner, C. (2017). Boyner Büyük Veri. (Ed.), Güvenir, H. A, İş Hayatında Büyük Veri Konferans Raporu içinde (53-62), TÜSİAD-T/2017, İstanbul.
[10] Yemeksepeti (2020). “2020 Lezzet Rehberi”, (Son Erişim Tarihi:20.11.2021) URL: https://www.instagram.com/p/CJYHOEep9nz/
[11] Akar, B. (2016, 5 Ocak). “Vaka II: Yemek Sepeti ve Büyük Veri”, Harvard Business Review Türkiye, https://hbrturkiye.com/video/vaka-ii-yemek-sepeti-ve-buyuk-veri, (21.03.2021).
[12] Yemeksepetiblog (2021). https://blog.yemeksepeti.com/, (25.03.2021).
[13] Sabancı Üniversitesi (2021). “SAS Becomes The Analytical Partner of Turkey’s First Big Data Lab”, (Son Erişim Tarihi: 28.03.2021).
URL: https://sbs.sabanciuniv.edu/en/sas-becomes-analytical-partner-turkeys-first-big-data-lab,
[14] Datameer (2021). “Akbank Accelerates Marketing With Agile Analytics”, (Son Erişim Tarihi: 23.03.2021)
URL: https://www.datameer .com/akbank-case-study/
[15] İçözü, T (2021, 22 Şubat). “Akbank Mobil’in Kullanım Verileri ve Akbank’ın Uzaktan Müşteri Edinimine Dair Detaylar”, (Son Erişim Tarihi: 28.03.2021)
URL: https://webrazzi.com/2021/02/22/akbank-mobil-in-kullanim-verileri-ve-akbank-in-uzaktan-musteri-edinimi-detaylari/
[16] SAS, Statistical Analysis Software. “Enerji lideri veriyi müşteri bilgisine dönüştürüyor”, (Son Erişim Tarihi: 23.03.2021)
URL: https://www.sas.com/tr_tr/customers/enerjisa-02.html
[17] Özbilgin İ.G. “Kamuda Büyük Veri ve Uygulamaları”, Akademik Bilişim Konferansları, Anadolu Üniversitesi Eskişehir, 4-6 Şubat 2015.
[18] Dorsey, E. R., & Topol, E. J. (2020). Telemedicine 2020 and the next decade. The Lancet, 395(10227), 859.

11. SAĞLIK ALANINDA BÜYÜK VERİ

Ders Anlatimi – Video

Ders Anlatimi – Ses
Unite-11 Sunumu – PDF
Online Test – Unite Sorulari
Giriş

Sağlık sektöründe büyük veri için çeşitli kaynaklar arasında hastane kayıtları, hastaların tıbbi kayıtları, tıbbi muayene sonuçları ve nesnelerin internetinin bir parçası olan cihazlar yer almaktadır.
Sağlık hizmetlerinde büyük veri, heterojenlik, tamamlanmamışlık, zamanlılık ve uzun ömür, mahremiyet ve sahiplik gibi kendine has özelliklere sahiptir. Bu özellikler, sağlıkla ilgili araştırmaları teşvik etmek için veri depolama, madencilik ve paylaşım için bir dizi zorluk getirmektedir. Bu zorluklarla başa çıkabilmek için sağlık hizmetlerinde büyük veriye odaklanan analiz yaklaşımlarının geliştirilmesi ve büyük verinin sağlık hizmetlerinde kullanılmasına yönelik yasa ve yönetmeliklerin çıkarılması gerekmektedir.
Hasta bakış açısıyla, büyük veri analizinin uygulanması tedaviyi iyileştirebilir ve maliyetleri azaltabilir. Hastalara ek olarak, devlet, hastaneler ve araştırma kurumları da sağlık hizmetlerinde büyük veriden yararlanabilir. Bilgi toplumunda beklendiği üzere veri depolanması hızlı bir şekilde artmakta ve bu devasa veri birikimini en etkin bir şekilde kullanarak eldeki mevcut sınırlı finansal ve insan gücü kaynaklarını verimli değerlendirmenin yolları aranmaktadır. Bunu yaparken gerekli olan analiz için etkinliği ispatlanmış bilimsel metotların varlığı ve tabii ki değerlendirmeye tabii tutulacak büyük veri depolarının varlığıdır.
Ülkemiz veri depolanması konusunda son yıllarda çok önemli mesafe almıştır. Sağlık Bakanlığı ve Sosyal Güvenlik Kurumu bünyesinde kurulan sağlık verileri, hem sağlık politikalarına yön verme konusunda hem de ülkemizin bilimsel gelişimine katkı sunacak şekilde oldukça önemli bir hazinedir.
11.1. Giriş
Günümüzde bilgi ve iletişim teknolojilerindeki gelişmelere paralel olarak üretilen, depolanan ve işlenen veri miktarı her geçen gün artmaktadır. İnternet bağlantılı akıllı cihazların (cep telefonu, bilgisayar, kamera vb.) ve internet uygulamalarının (sosyal medya, e-posta vb.) kullanılması ile önemli boyutlarda veri üretilmektedir. Bu teknolojilerin gelişmesi ile insan vücudundan sürekli veri toplayan akıllı asistanlar ile sağlık alanında veri miktarı da hızla artmaktadır. Yüksek boyutlarda üretilen bu verilerin klasik yöntemlerle depolanamaması ve anlamlı hale getirilememesi durumu “büyük sağlık verisi” kavramını ortaya çıkarmıştır. Verinin değerinin her geçen gün daha fazla anlaşılması, her alanda üretilen verilerin depolanmasına ve analiz edilmesine yönelik çabalarında artmasına neden olmaktadır.
Büyük sağlık veri analizinin temelleri, geleneksel istatistik ve yapay zeka yöntemlerine dayanır. Bu yöntemler çok büyük ve çeşitli veri setlerini yüksek hızla analiz edebilen algoritmalar içermektedir. Veri setlerinin çeşitlerine ve veriden elde edilmek istenen bilginin türüne göre seçilen algoritma, veri setine uygulanmakta, böylece verinin içinde saklı olan desenler, değişkenler arasındaki ilişki ve korelasyonlar, geleceğe yönelik tahminler elde edilmek için kullanılır.
Verinin depolanması, işlenmesi gibi süreçlere dair teknolojik gelişmelerle artan devasa sağlık verisi miktarı, artık “dijital bir dünya” içinde yaşadığımızı göstermektedir. Üstelik bu dijital dünyanın boyutlarındaki büyüme, büyük bir hızla gerçekleşmektedir. Bir araştırma şirketine göre 2020’de dijital dünyamızın boyutu, 2009 yılına göre 44 kat daha büyük olacaktır. Sağlık sistemi politikalarının ve yönetsel kararlarının temeli veri ve veriden elde edilmiş bilgidir. Sağlık politika ve kararlarının amaçlara uygun ve etkin olabilmesi güvenilir, güncel ve doğru veriye bağlıdır. Sağlık bilgi sistemlerinin amacı büyük miktardaki sağlık verilerinden faydalı bilgi üretmektir.
Sağlık hizmetlerinde büyük veri ve büyük veri analitiğinin faydaları:
Tıbbi hataların azaltılması,
Kitle hastalıklarının önlenmesi, önleyici bakım,
Hastalıkların yayılmasını modellemek,
Hastalıkları erken aşamada tespit etmek,
Daha doğru tedavi,
Gerçek zamanlı uyarı,
Hasta kişiselleştirme bakımı,
Tedavi maliyetini tahmin etmek,
Tedavinin risklerini tahmin etmek,
Yüksek riskli hastaları belirleme ve yardım etme,
İntihar ve kendine zarar vermeyi önleme,
Yeni terapi ve ilaç keşfi,
Gereksiz acil servis ziyaretlerinin önlenmesi,
İyileştirilmiş personel yönetimi,
Kolaylaştırılmış hastane operasyonları,
Daha iyi müşteri hizmeti,
Maliyet azaltma.
Sağlık verileri hastaneler, diğer sağlık kurumları, sigorta şirketleri ve ilgili kamu kurumları başta olmak üzere birçok kuruluş tarafından toplanmaktadır.
11.2. Sağlık Hizmetlerinde Büyük Veri
Sağlık hizmetlerinde üretilen muazzam miktarlardaki verinin başarıyla entegrasyonu, sağlık sisteminde yer alan hastalar başta olmak üzere tüm paydaşlar için büyük gelişmeler sağlayabilir (Herland, 2014). Ancak sağlıkla ilgili verilerin devasa miktarlara ulaşması geleneksel veri işleme yöntemleri tarafından işlenmesini zorlaştırmış (Olaronke ve Oluwaseun, 2016) ve Büyük veri kavramının sağlık hizmetlerine girmesine neden olmuştur. Sağlıkta büyük veriler, sağlık ve sağlık sistemi performansını artırmak amacıyla elektronik olarak yakalanan ve saklanan, rutin veya otomatik olarak toplanan büyük veri kümelerini ifade eder.
Büyük veri çok amaçlı veri anlamında yeniden kullanılabilir ve var olan veri tabanlarının birleştirilmesi ve bağlantısını içerir (Habl, 2016). Büyük Sağlık Verileri, gözlemlenebilir bir olgu hakkında uygulanabilir bilginin çıkarılması sürecini kolaylaştıran büyük boyutlarının ötesinde ve bazı benzersiz özelliklere sahip karmaşık veri kümelerini ifade eder (Dinov, 2016). Tipik olarak, Büyük Sağlık Verileri arasında, farklı kaynaklardan türetilen heterojen, çoklu-spektral, eksik ve kesin olmayan gözlemlere (örn. demografik verilerin yanı sıra tanı, tedaviler, hastalıklar, hastalıkların önlenmesi, yaralanma, fiziksel ve zihinsel bozukluklara) dayalı veriler bulunmaktadır (Dinov, 2016). Büyük Verinin sunduğu imkanlar sayesinde sağlık sektöründe yer alan tıbbi sigorta ve ilaç endüstrileri, reçete edilen ilaçların özellikleri hakkında bilgi sahibi olabilirler. Günümüzde artan şekilde hayatımıza giren fitness izleme cihazları, kan basıncı monitörleri ve kilo tartım terazileri gibi IoT (Internet of Things Nesnelerin İnterneti) cihazları ile hasta tarafından oluşturulan veriler, bir bireyin günlük yaşam tarzı ve özellikleri hakkında kritik bilgiler vermektedir. Bu verilerin EMR(Elektronik Sağlık Verileri) verileri, yaşamsal veriler, laboratuar verileri, ilaç bilgileri, semptomların yanı sıra doktor notları, hasta taburculuk belgeleri, hasta günlükleri, tıbbi yayınlar gibi yapılandırılmış verilerle bir araya getirilerek bağlantı kurulmasının insanların yaşam biçimlerini iyileştirmek ya da kronik hastalık, ilaç reaksiyonu ve hastaneye yatma vakalarını azaltmak üzere koçluk programlarını tasarlamak için çok önemli olabilir (Big Data Value Association, 2016).
Sağlık hizmetlerinde de birçok kaynaktan çok sayıda veri üretilmektedir. Sağlık hizmetlerindeki bu büyük veri kaynakları şu şekilde gruplandırılmaktadır (Priyanka, 2014):
a. Klinik veriler: Doküman, görüntü, klinik veya reçete edilmemiş notların yanı sıra sağlık verilerinin yaklaşık % 80’i bu şekilde yapılandırılmamış olan klinik verilerden oluşur.
b. Yayınlar: Klinik araştırma ve tıbbi referans materyallerinden oluşur.
c. Klinik referanslar: Metin tabanlı uygulama rehberleri ve sağlık ürünlerine (ör. İlaç bilgisi) ilişkin verileri içerir.
d. Genomik veriler: Önemli miktarda yeni gen dizilimi verilerini temsil eder.
e. Akışlı veriler (Streamed data): Evden hasta takibi, tele sağlık, avuç içi ve algılayıcı tabanlı kablosuz veya akıllı cihazlar gibi yeni veri kaynaklarından gelen veri ve türlerini ifade eder.
f. Web ve sosyal ağ verileri: Tüketici tarafından internetin kullanımı ya da arama motorları ve sosyal paylaşım sitelerinden gelen yapılandırılmamış verileri kapsar.
g. İşletme, organizasyonel ve harici veriler: Fatura ve randevu sistemi gibi idari veriler ve diğer sağlık dışı verilerden oluşur.
Sağlık hizmetlerinde büyük veri kaynakları şu şekilde de gruplandırılmaktadır: (Olaronke ve Oluwaseun, 2016; Ehrenstein vd, 2017)
a. Makine Tarafından Oluşturulan Veriler: Sağlık sisteminde kullanılan makinelerden edinilen verilerdir. Uzaktan algılayıcılar, giyilebilir cihazlar, akıllı sayaçlar ve sensörler, yaşamsal bulgu cihazlarından elde edilen verileri içerir.
b. Biyometrik Veriler: Kişilerin parmak izi, genetik, imza, retina taramaları, kalp hızı, kan basıncı, nabız ve nabız oksimetre okumaları gibi fiziksel özelliklerin yanı sıra röntgen ve diğer tıbbi görüntülerden elde edilen verilerdir.
c. İnsan Tarafından Üretilen Veriler: Sağlık sisteminde insanlar tarafından oluşturulan verileri içerir. Bu tür veriler, durum belgeleri, laboratuvar sonuçları, hastane kabul kayıtları, taburcu özetleri ve elektronik postalar gibi yapılandırılmamış ve yarı yapılandırılmış klinik verileri içerir. İnsan tarafından üretilen veriler, yapılandırılmış Elektronik Sağlık Kaydı (EHR) verileri de içerir.
d. İşlem Verileri: Sağlık talepleri ve fatura kayıtlarından elde edilen verileri içerir.
e. Davranış Verileri: Sosyal etkileşimlerden üretilen verilerin yanı sıra web siteleri, Twitter ve Facebook gibi sosyal medya siteleri gibi iletişim araçları aracılığı ile üretilen verileri içerir. Facebook, Twitter ve diğer sosyal medya platformları, kullanıcıların konumlarını, sağlık davranışlarını, duygularını ve sosyal etkileşimlerini görüntüleyen zengin bir veri çeşitliliği üretir.
f. Epidemiyolojik Veriler: Bu veriler, istatistiksel verileri, sağlık araştırmaları ve hastalık kayıtlarını içerir. Epidemiyolojik araştırma bağlamındaki büyük veriler, tek bir ülkedeki veri tabanları veya çokuluslu veri tabanlarının birbirine bağlanabilmesiyle elde edilen büyük veri setleri anlamına gelir.
g. Yayınlanmış Veriler: Klinik araştırmalar ve tıbbi başvuru materyallerini içerir.
h. Günlük yaşamdan sağlıkla ilişkilendirilebilecek güncel hayata ilişkin veriler: Bireylerin günlük hayatlarındaki egzersiz düzeylerini gösteren adım sayıları, kilo değişimleri, beslenme şekilleri, tükettikleri gıdalar, yararlı/zararlı alışkanlıkları vs. bu veriler kapsamındadır.
Sağlık Verimiz Ne Kadar Büyük?
Sağlık Bakanlığı 2003 yılında Türk sağlık sisteminde hizmet sunumundan finansmanına, insan gücünden bilgi sistemine kadar ilgili birçok alanda köklü değişikliklere gidilmesi amacıyla ‘Sağlıkta Dönüşüm Programını’ uygulamaya koymuştur. Sağlıkta Dönüşüm Programı ile Sağlık Bakanlığı Ulusal Sağlık Bilgi Sistemlerinde önemli gelişmeler göstermiştir. 2013-2017 Stratejik Planında belirtilen misyonu insan merkezli yaklaşımla birey ve toplum sağlığını en üst düzeyde korumak, sağlık sorunlarına zamanında, uygun ve etkili çözümleri sunmak olan Sağlık Bakanlığı bu amaç doğrultusunda teknolojik gelişmeleri yakından takip ederek sağlık kurumlarında bilgi ve iletişim teknolojileri kullanımının yaygınlaşması ve bilgi toplumuna dönüşümün hız kazanmasına katkı sağlamaktadır. Sağlık Bakanlığı sağlık hizmet sunumunda koruyucu, tedavi ve rehabilite edici sağlık hizmetleri sunmaktadır. Bu hizmet sunum süreçleri sonucunda giderek artan ve büyüklüğü ciddi boyutlara ulaşan sağlık verisi oluşmaktadır.
Örnek vermek gerekirse 2015-2016 yıllarında:
1.103.582.876 muayene gerçekleşti.
23.471.946 ameliyat yapıldı.
2.526.861 doğum yapıldı.
213.844.752 görüntüleme işlemi yapıldı.
1.596.016.703 tanı konuldu.
4.816.878.979 kutu ilaç reçete edildi.
80.567.401 hasta yatarak tedavi oldu.
22.500.344 anjiyo yapıldı.
21.430.663 FTR işlemi yapıldı.
Yukarıda verilen tüm işlemler 82.935 hekim, 8.266 diş hekimi, 101.204 hemşire, 47.997 ebe ve 101.989 sağlık personeli ile gerçekleştirilmiştir. Bu verilere bakılarak kesintisiz hizmet veren sağlık alanında oluşan verinin büyüklüğü görülmektedir (Ülgü ve Gökçay, 2017).
Oluşan bu büyük sağlık verisini yönetmek için Sağlık Bakanlığı olarak birtakım altyapı çözümleri geliştirilmiştir. Öncelikle Sağlık Bakanlığı’nın Şekil 11.1’de görüldüğü üzere İstanbul ve Ankara’da bulunan veri merkezlerinde toplam 60 adet veri merkezi kabini bulunmakta ve veriler burada depolanmaktadır. Bunlardan 42 kabin kullanılmakta ve 18 kabin ise boş durumdadır.

Şekil 11.1. Sağlık Bakanlığı Sistem Altyapısı
Sağlık Bakanlığı’nın büyük veriyi yönetmek için oluşturduğu altyapı çözümlerinden diğeri Sağlık Bilişim Ağı (SBA), sağlık sektöründe yer alan kurum ve kuruluşların kaynaklarını ve sağlıkla ilgili anonim verileri ortak kullanabilmeleri ve güvenli yollardan hızlı veri iletişimi yapabilmeleri amacıyla oluşturulan sağlık özel ağıdır.
Dünya çapında sağlık alanında büyük veri kullanılarak yapılan çalışmalar gün geçtikçe artarken Sağlık Bakanlığı da sağlık verilerinin toplanması, yönetilmesi ve analiz edilmesi ile karar verici ve politika yapıcıların karar alma süreçlerine fayda sağlayarak sağlık hizmet sunumu kalitesini arttırmayı hedeflemektedir. Ayrıca büyük veri analizleri ile kişilerin kendi sağlıklarının yönetiminde söz sahibi olmasını sağlayan kişiye özel sistemler geliştirilerek etkili sağlık hizmeti sunmak da hedefler arasındadır. Bu hedefler doğrultusunda birtakım uygulamalar geliştirilmiştir (Ülgü ve Gökçay, 2017). Bu uygulamalar şöyledir:
E-Nabız Kişisel Sağlık Sistemi
Teknolojik gelişmelerin bir sonucu olarak büyük verinin sağlık alanına entegre olması ile vatandaşların kendi sağlıklarını yönetmeleri ve tedavi hizmetlerine erişimlerini kolaylaştırmak için Sağlık Bakanlığı e-Nabız Kişisel Sağlık Sistemini geliştirmiştir. Sağlık Bakanlığı 2013-2017 Stratejik Planında belirtilen ‘Bireyin kendi sağlığı ile ilgili kararlara aktif katılımını sağlamak için rolünü güçlendirmek’ hedefi ile doğrudan ilişkili olan e-Nabız sistemi 4 Nisan 2015 tarihinde lansmanı yapılarak vatandaşların hizmetine açılmıştır. Sağlık kayıtlarının vatandaşların erişimine açılmasını sağlayan e-Nabız sistemi ile vatandaşların sağlık hizmet sunumuna dahil olması, sağlık okuryazarlığının artması ve sağlık hizmetlerinde sürdürülebilirliğin sağlanması amaçlanmaktadır. Bunlara ek olarak toplanan verilerin analiz edilmesi ile karar verici ve politika yapıcılara hazırlanan Karar Destek Sistemi raporları Bakanlık politikalarının belirlenmesine yardımcı olmaktadır.
e-Nabız sistemi vatandaşların 01.01.2015 tarihinden itibaren gittikleri sağlık kuruluşlarında toplanan muayene, tanı ve tedavi verilerinin tamamı ve tüm tetkiklerin detaylı bir şekilde görülebildiği ulusal kişisel sağlık kaydı uygulamasıdır. E-Nabız sistemi ile vatandaşlar ve sağlık profesyonelleri toplanan sağlık verilerine cep telefonlarından, tablet ve bilgisayarlarından zamandan ve mekandan bağımsız olarak erişebilmektedir.
Vatandaşların tahlil sonuçları, reçete ve ilaç bilgileri, verilmiş her türlü rapor bilgileri, acil durum bilgileri, radyolojik görüntüleri gibi kendilerine ait birçok sağlık verisine ulaşabilmelerini sağlayan e-Nabız sistemi aynı zamanda giyilebilir teknolojiler ve mobil uygulamaları kullanarak adım, nabız, kalori, tansiyon, şeker gibi sağlık verilerini sisteme kaydedebilmektedir. Ayrıca vatandaşlar organ bağışı ve kan bağışı bildirimlerinde bulunabilmekte, 112 acil butonu ile acil durumlarda konumunu ve acil sağlık verilerini paylaşabilmektedir.
Sağlık Bakanlığının, tüm sağlık kuruluşlarının bilgi sistemlerini birbirine entegre ettiği e-Nabız sistemi sağlık verilerini çevrimiçi olarak almakta ve anonimleştirerek korumaktadır. Bu veriler kullanılarak hastane, hekim ve hizmet bazlı değerlendirme yapmak, sağlık politikaları oluşturmak, birinci, ikinci ve üçüncü basamak sağlık hizmetlerinde kalite ve verimi arttırmak amaçlanmaktadır.
Teletıp/Teleradyoloji Sistemi
Sağlık Bakanlığı tarafından geliştirilen radyolojik görüntülerin işlendiği Teletıp sisteminin bir ucu olan Teleradyoloji sistemi 2015 yılının ilk aylarında birkaç ilde pilot olarak başlamıştır. Daha sonra sistemin tüm Türkiye’de yaygınlaştırılması amacıyla entegrasyon çalışmaları yapılmıştır. Teleradyoloji sisteminde HBYS ve PACS sistemlerinde üretilen veriler, radyolojik raporlar ve klinik dokümanlar Sağlık Bakanlığına ait sunucularda saklanmaktadır. Bu verilerin farklı sağlık tesislerinden erişilebilir olması amaçlanmaktadır. Mayıs 2017 tarihi itibarıyla Teleradyoloji sistemine entegre hastane sayısı 671, sistemi aktif kullanan hekim sayısı 26.109, aktif kullanıcı vatandaş sayısı 1.195.004, tetkik erişim talep sayısı 4.270.329, çekim sayısı 61.597.968, kayıtlı vatandaş sayısı 37.740.156, rapor sayısı 20.640.841 ve son olarak Teleradyoloji sistemi üzerinden yazılan rapor sayısı 502’ye ulaşmış durumdadır.
Teleradyoloji sistemi ile (Şekil 11.2) :
Hastaların tüm hastanelerdeki görüntü ve belgelerine anında erişilebilmekte ve aynı ekranda incelenebilmekte,
Merkezi radyoloji bilgi sistemi ile sesli ve yazılı radyolojik raporlama yapılabilmekte,
Büyük endoskopi videoları hızlı bir şekilde paylaşılabilmekte,
Anjiyo videolarına hızlı erişim sağlanmakta,
DICOM uyumlu olmayan tüm görüntüleme cihazlarından görüntü alınabilmekte,
EKG görüntüleri paylaşılabilmekte,
Video konsültasyon ve ekran paylaşımı yapılabilmekte,
Sistematik görüntü ve rapor kalite kontrolü yapılabilmekte,
Karar Destek Sistemi ile hastanelere ait istatistikler anlık takip edilebilmektedir.

Şekil 11.2. Hasta Dosyası Ekranı
Gerektiğinde yeni sunucuların eklenebileceği dağıtık mimariye sahip ve tüm mobil cihazlarla uyumlu olan Teleradyoloji sistemi e-Nabız Kişisel Sağlık Sistemi ile de entegre olup hekimler hastaların klinik verilerini ve tıbbi görüntülerini çevrimiçi olarak birlikte değerlendirebilmekte ve aynı radyolojik görüntüyü birlikte yorumlayarak rapor hazırlayabilmektedir (Ülgü ve Gökçay, 2017).
11.3. Sağlık Hizmetlerinde Büyük Verinin Kullanım Alanları
a. Klinik Uygulama ve Araştırmada Büyük Veri Kullanımı
Teknolojik yenilikler, geleneksel hasta deneyiminin ötesinde yeni bakım yöntemlerini etkinleştirecek yeni veri analiz yöntemlerini geliştirmektedir (Stanford Medicine, 2017). Bilgisayar sistemleri, bir programı çalıştıran açıkça programlanmış kuralları kullanarak klinik karar verme desteği sunabilirler. Örneğin bireysel hasta unsurları, hasta kabul edildiğinde kaydedilir. Ayrıca hemşirelik değerlendirmeleri ve gözlemlerine dayalı veriler de hemşireler tarafından elektronik sağlık kayıtlarına kaydedilir. Her bir bireysel hasta unsuru, bilgisayarlı veri tabanına uyarlanabilir. Bilgisayar yazılımıyla da bu verileri inceleyen, işleyen ve ilişkilendiren, hastaların tedavi, müdahale ve bakımı için özel öneriler sağlayan bir algoritma çalıştırmak üzere bir programlama yapılabilir (Harper, 2014).
Çünkü günümüz bilgisayar sistemleri, bir hastanın sepsis gelişiminin erken belirtilerini ve semptomlarını belirlemek ve müdahale ekibini kısa sürede uyarmak için yapılmış kurallara benzer şekilde, “benzer hastaları” tanımlamak için aynı anda yüzlerce kuralı çalıştırma potansiyeline sahiptir (Harper, 2014).
Büyük Veri, hastalıklar, terapiler ve sonuçların yanı sıra genetik verilerin sistematik olarak toplanması ve analiziyle en iyi tanı ve tedavilerin seçilmesi, hastaların zarar görmesini önlenmesi ya da etkili terapilerin geliştirilmesini etkileyici bir biçimde artırma potansiyeline sahiptir (BDV, 2016). Büyük veri kaynağı olarak kullanılan elektronik sağlık kayıtları (EHR) klinik tıpta potansiyel bir değere sahip çok miktarda veri sağlayabilir (Salas-Vega, 2015; Pentland, 2013).
Elektronik sağlık kayıtları aracılığı ile standart temelli klinik bilgilere etkin ve sorunsuz erişim, bakım noktasında bilinçli klinik kararları desteklemek için önemlidir. Büyük veri setleri, bilgiyi sürekli iyileştirme ve yenilik yapma konusunda bilgi sağlayabilir (Harper, 2014). Bu anlamda Hollanda, Danimarka ve İngiltere de dahil olmak üzere birçok AB ülkesinin tıbbi konsültasyonları veya tedaviyi takiben hastanın bireysel sağlık geçmişini güncelleyen bir elektronik sağlık kayıt sistemi (EHR) kurduğu belirtiliyor (Salas-Vega vd., 2015). EHR kullanımı, klinik karar destek yeteneklerinin kullanımını kolaylaştırır; bunlar genellikle değerlendirme verileri, tanı / sorun listesi, ilaç listesi ve laboratuar sonuçları gibi yapılandırılmış ve kodlanmış bilgilere dayandırılır (Harper, 2014). Ayrıca Büyük Veri, sunulan veri çeşitliliği sayesinde birbiri ile ilgisiz duran verileri bir araya getirerek işletme için bir içgörü yanı sıra bir değer yaratabilme gücüne sahiptir (Atan, 2016).
Büyük veri, kanser tıbbında kullanılabilir. Kanserli hastalar için daha iyi sonuçlar yaratmak için büyük veri analizi kullanılabilir (Reeder-Hayes, 2017). Kurulan bazı büyük veri araştırma merkezlerinde kanser verileri toplanıp analiz edilerek kanser tıbbında veri odaklı kişiselleştirilmiş tedavilerin uygulanması söz konusu olabilmektedir (Salas-Vega, 2015). Örneğin tıbbi veri setlerini toplamak, analiz etmek ve kanser tıbbında veri odaklı kişiselleştirmeyi teşvik etmek için Oxford Üniversitesi tarafından Büyük Veri Araştırma Enstitüsü ve Chan Soon-Shiong Oxford Moleküler Tıp Merkezi kuruldu (Salas-Vega, 2015). Ayrıca İngiltere’de İngiltere Toplum Sağlığı (Public Health England) ve Ulusal Kanser İstihbarat Ağının (National Cancer Intelligence Network), bakım çalışmalarında devrim yaratmak amacıyla hastalıkların önlenmesi, tedavisi ve tedavi sonuçlarını iyileştirmek için dünyanın en büyük kanser hastası veri tabanını oluşturmak üzere harekete geçtiği belirtilmektedir (Gallagher, 2013; Salas-Vega, 2015).
b. Hastalık Sürveyansı ve Toplum Sağlığı Yönetiminde Büyük Veri Kullanımı
“Hastalık sürveyansı, bulaşıcı hastalıkların ilerleme modellerini belirleyebilmek için yayılımlarının takip edildiği, epidemiyolojik uygulamaların tamamına verilen isimdir.”
Büyük veri araştırma merkezleri ulusal ve küresel halk sağlığı sürveyanslarında kullanılmaktadır (Hay, 2013; Salas-Vega, 2015). Toplu bireysel verilerle, küresel hastalık eğilimleri gerçek zamanlı olarak izlenebilir (Ji, 2014; Salas-Vega, 2015; Ola ve Sedig, 2014). Örneğin Philips liderliğinde, yaşamsal bulguları periyodik olarak izleyerek ve sağlık durumunu gerçek zamanlı olarak oluşturarak kardiyovasküler hastalıkların önlenmesi için akıllı bir sistem geliştirilmiştir (Ji vd., 2014). Vücut alan sensor ağları (body area sensor network- BASN), insan vücuduna yerleştirilen biyolojik sensörler ile gerçek zamanlı tıbbi veri toplama için kullanılan bir veri toplayıcı (Sink) tarafından oluşturulan kablosuz bir ağdır. BASN verileri toplayabilir, sınıflandırılmış öğrenme yapabilir ve verileri gerçek zamanlı olarak analiz edebilir, böylece erken bir tıbbi uyarıda bulunabilir (Ji, 2014).
X73 Mobil sağlık hizmeti sistemi (X73 uHealth system) saniyede bir milyon aralıktaki mesajları işleyebilir. Bu sistem ile gerçek zamanlı tıbbi veriler alınır ve çeşitli önceden tanımlanmış sağlık parametre eşikleriyle karşılaştırır. Böylece gerçek zamanlı olarak hastanın sağlık durumu izlenir. Bu sistem, tıbbi parametre değerlerinden biri anormal bir şekilde sapma gösterir ve sapmaya devam ederse, hastalığın önlenmesi ve tedavisi için zaman kazandırıcı bir uyarı verir (Ji, 2014). Cep telefonu ve web servis yeteneklerine sahip, mobil sağlık izleme sistemi ile Büyük Veri analizleri yapılabilir. Mobil sağlık izleme sistemi ile (Zhang, 2015)
Solunum ve kalp hızı gibi fizyolojik parametreler, giyilebilir sensörler tarafından ölçülmekte ve kullanıcının, sağlık durumunu daha kolay gözlemleyebilmesi için grafik arayüzü sunan bir cep telefonuyla kaydedilmektedir.
Doktorlara ve aile bireylerine bir web arayüzü aracılığıyla gerekli verileri sağlar ve yetkili personelin hastanın durumunu izlemesi ve uzaktan teşhis etmesini sağlar.
Beklenmedik olayların zamanında ele alınabilmesi için, bir düşme veya kalp krizi gibi acil bir durum sırasında gerçek zamanlı alarm ve konumlandırma servislerini destekler.
Büyük veriler, epidemiyolojide (özellikle adli epidemiyoloji) kullanılabilir. Epidemiyolojide mikroorganizmaların inkübasyon süreleri, iletim oranlarındaki heterojenlik, bulaşıcılık süreleri ve yüksek riskli grupların varlığı gibi temel özelliklerinin belirlenmesiyle hastalığı kimin kime bulaştırdığının tanımlaması sağlanır (Kao, 2014).
Aynı zamanda nüfus sağlığı konularındaki araştırmalarda da büyük veriden faydalanıldığı belirtilmektedir (Nash, 2014; Salas-Vega, 2015). Kurulan merkezlerden elde edilen verilerden sağlanan görsel analiz, gıda kaynaklı hastalık eğilimleri temelinde uygun müdahale politikalarının seçimine yardımcı olmak için kullanılmaktadır (Salas-Vega, 2015). İnternetin ortaya çıkardığı çok sayıdaki facebook, twitter, instagram, tumblr, google ve amazon gibi çevrimiçi iletişim kanalları Büyük Veri için önemli bir kaynaktır. Dolayısıyla bu kaynaklar; sosyodemografik özellikler, yaşam tarzı davranışları, sosyo-kültürel yapılar, süpermarketlerden aldıkları ürünler ve tüketici alışkanlıkları gibi konularda toplum sağlığında kullanılabilecek pasif olarak toplanmış önemli bir veri zenginliği sağlar (Gittelman, 2015). Bireyler ve halk sağlığı araştırmacıları tarafından bu kanallardan biri olan Facebook’un, yeni sürveyans uygulamaları için kullanıldığı belirtilmektedir (Gittelman, 2015). Ancak bu verilerin analizinde, bilgisayar tabanlı bilgi araçları gereklidir (Ola ve Sedig, 2014). Bu zengin verilerden toplum sağlığı araştırmalarında çıkarımlar yapmak için Büyük Verinin sunduğu analiz imkanlarından yararlanılabilir. Çünkü Büyük Veri kullanımı, koruyucu bakım verilmesi gereken veya yaşam tarzı değişikliklerinden fayda görecek kişileri proaktif olarak belirleyecek bir gelişmiş profil analizi (ör. tahmini modelleme) yapma ve uygulama imkânı sunar9. Ayrıca yaşlı, obez, hipertansif hastalar gibi değişen profildeki hasta grubuna sağlık riskleri hakkında bilgi vermek ve davranış değişikliği yaratmak için de bu tahmini modellemeler kullanılabilir (Salas-Vega, 2015). Büyük Verinin toplum sağlığı alanında kullanım biçimleri kısaca şöyle özetlenebilir (Raghupathi ve Raghupathi, 2014; Feldman, 2012; Kao, 2014; Mavandadi, 2012)
Halk sağlığı sürveyansı ve cevap hızını iyileştirmek için hastalık salgınları ve bulaşların izlenmesi ve hastalık kalıplarının analiz edilmesi
Daha hassas hedeflenmiş, örneğin, yıllık influenza türünün seçilmesi gibi alt türlere odaklanmış aşıların hızla geliştirilmesi
Yeni dijital görüntüleme ve algılama teknolojilerinin maliyet avantajı ve taşınabilirliği sayesinde chip tabanlı platformlar vasıtasıyla, sınırlı kaynaklara sahip ve uzak bölgelerinde bile büyük miktarda biyomedikal ve çevresel verilerin geniş kapsamlı üretimine ve kullanımına olanak tanıyacaktır. Bu verilerin zenginliği, çeşitli hastalıkların ve sağlık koşullarının mekânsal ve zamansal özellikleri gibi farklı olgularını daha iyi anlamak ve küresel ölçekte tür kalıplarını ilişkilendirmemize, ulusal ve uluslararası sağlık ve çevre politikalarımızı belirlemek için yeni fırsatlar sağlayacaktır.
Özellikle toplum sağlığı için krizleri öngörmek, önlemek, sağlık ihtiyaçlarını belirlemek ve gerekli hizmetin sunulması amacıyla büyük miktarda veriyi eyleme geçirilebilir bilgilere dönüştürmek mümkün olabilir.
c. Tıp Eğitimi ve Öğretiminde Büyük Veri Kullanımı
Tıp eğitimi ve öğretiminde Büyük Veri iki biçimde değerlendirilmektedir. Birincisi, yakın gelecekte eğitim müfredatında bir ihtiyaç olacağı öngörüsü ile yer alması gerekliliği diğeri de Büyük Verinin bir araç olarak eğitim ve öğretimde kullanılmasıdır (Salas-Vega, 2015; Ellaway, 2014; Krumholz, 2014; Thomas ve McSharry, 2015). Tıp, veri bilimini de kapsayan bir bilgi mesleğidir. Ancak klinik araştırmacıların çok azı veri bilimi konusunda tam olarak eğitilmişlerdir. Dolayısıyla bu konuda klinik araştırmacıların yeteneklerinin güçlendirilmesi konusuna yatırım yapmaya ihtiyaç vardır. Klinik araştırmacıların, verilerin gizli kalıplarını bulmasını amaçlayan analizleri, ilişkiler ve kalıpların anlaşılması için grafik analizlerinin kullanımı gibi yeni terimleri içeren veri bilimi hakkında bilgi sahibi olmaları oldukça önemlidir. Çünkü bir araştırmada verilerin en iyi nasıl üretileceğini bilmek bazı donanımlara (veri kullanım ve bilişim becerileri) sahip olmayı gerektirecektir. Dolayısıyla bu konuların tıp müfredatının bir parçası olması gerekeceği düşünülmektedir (Krumholz, 2014).
d. Kurumsal Öğrenmede Büyük Veri Kullanımı
Kurumların verilerden öğrenmesi, kurumların verileri aranabilir bir forma dönüştürme ve bilgi birikimini keşfetmek için bilgi işlem gücü kullanma yeteneklerine bağlıdır. (Harper, 2014). Ancak bu gücü kullanmak için gerçekten kurumun üst yönetiminin bu konuya inanması ve gereken desteği vermesi istenen öğrenmenin sağlanmasında temel şarttır. Kurumsal öğrenmede önemli bir kaynak olma potansiyeline sahip olan elektronik sağlık kayıtlarına (EHR) ABD’de dahil olmak üzere çoğu ülke, sahip değildir (Harper, 2014).
e. Araştırma ve Geliştirmede (Ar-Ge) Büyük Veri Kullanımı
Günümüzde verilerin yararlanıldıktan sonra eskiyen ve statik bir özelliğe sahip olduğu görüşü yerine, yenilik ve değer yaratan bir hammadde/kaynak olarak değerlendirildiği görüşü kabul edilmektedir (Harper, 2014; Groves, 2013). Hastalığın genetik özelliklerinin belirlenmesi gibi çeşitli sağlık alanlarda yapılan araştırmalar, Büyük Veri kaynakları (sigorta talepleri, kanser kayıtları ve elektronik sağlık kayıtlarındaki veriler vs.) kullanılarak yürütülmektedir (Reeder-Hayes, 2017). Büyük Verinin olası sağlık hizmetleri Ar-Ge kullanım şekilleri şu şekilde özetlenebilir (Raghupathi ve Raghupathi, 2014; Feldman vd, 2012):
İlaçlar ve cihazlardaki yıpranmayı azaltmaya ilişkin yapılan araştırmalarda Büyük Veri algoritmaları, daha hızlı ve daha hedefli bir Ar-Ge sunabilir.
Büyük veri ile yapılan istatistiksel araçlar ve algoritmalar ile hastalara daha uyumlu tedavileri sağlamak üzere kişiselleştirilmiş tedavileri için klinik deneme tasarımı geliştirilebilir. Böylece deneme başarısızlıkları azalır ve yeni tedavilerin pazarlanmasını hızlandırır.
Büyük Veri, ürünler daha piyasaya girmeden yan etkilerini keşfetmek ve takip eden endikasyonları belirlemek için hasta kayıtları ve klinik araştırmaların analiz edilmesine imkan sağlar.
Büyük Veri, doğru zamanda doğru tedavinin doğru hastayla eşleştirilmesiyle ulaşılabilecek kişiselleştirilmiş tıbba yardımcı olmak için geniş veri kümelerinin analizini yapabilir (Raghupathi ve Raghupathi, 2014; Feldman, 2012).
f. Kişiselleştirilmiş Tıpta Büyük Veri Kullanımı
Ortaya çıkan mobil ve bilgisayar tabanlı sağlık uygulamaları, hastaların kişisel tedavi deneyimlerini paylaşmalarına ve fiziksel ve zihinsel sağlıklarını geliştirmelerine yardımcı olmuştur (Salas-Vega vd., 2015). Büyük Veri ile Geliştirilen program, hastaların bakım ve kişisel sağlıklarının teşviki ve geliştirilmesinde günlük kalori tüketimi, glikoz seviyesi gibi kişisel sağlık verilerini depolamak, almak ve yönetmek için benzersiz bir yol sağlar. Böylece kişisel sağlık hizmetinin geliştirilmesini hızlandırır (Kim, 2014). Örneğin, Stanford Medicine tarafından yapılan araştırmalarda, giyilebilir cihazların, Lyme hastalığı gibi olası hastalıkların belirtilerini algılamak için biyolojik sensörleri kullanabileceği belirtilmektedir (Stanford Medicine, 2017). Aktif bir yaşam tarzı geliştirmek amacıyla kişilere özgü zihinsel, fiziksel ve sosyal sağlıklarına dayalı bir sağlık hizmeti sunmak üzere kişiselleştirilmiş bir platform kullanılabilir. Bu platform, kullanıcının akıllı telefonundan ve giyilebilir sensörlerinden elde edilen duyusal veriler temel alınarak kullanıcının faaliyetlerini, duygularını ve sosyal etkileşimini tanır. Bu büyük hacim ve çeşitlilikteki duyusal verileri depolamak ve işlemek için, büyük veri depolama teknolojisi ve bulut bilgi işlem yeteneği kullanılır. Gerek insan davranışının anlaşılması gerekse de aktif bir yaşam biçimi ve refahının desteklenmesi için uygun kişiselleştirilmiş yaşam tarzı kalıplarını önerilmesinde Büyük Verinin yararlı olabileceği belirtiliyor. Çünkü insan davranışının anlaşılmasıyla aktif bir yaşam biçimi için uygun kişiselleştirilmiş yaşam tarzı kalıplarının önerilmesi mümkün olabilir (Fahim, 2014).
g. Genomik ve Biyoinformatikte Büyük Veri Kullanımı
Genomik ve biyoinformatik, veri ve sağlık konularının birleşmesinden oluşan ve büyük verinin diğer önemli kullanım alanlarındandır (Salas-Vega, 2015). Biyoinformatik, biyolojik bilgilerin yaratılması ve saklanması için veri tabanlarının oluşturulmasıdır (Polat ve Karahan, 2009). Biyoinformatiğin önemli fonksiyonlarından biri, biyolojik olayların moleküler düzeyde açıklanmasına yardımcı olmasıdır. Dolayısıyla hastalıkların teşhisi ve hedef ilaçların geliştirilmesinde biyoinformatikten yararlanılmaktadır (Polat ve Karahan, 2009). Biyoinformatiğin diğer fonksiyonu ise, saklanan biyolojik bilgilerin analizidir (Çadırcı, 2009). Biyoinformatikteki gelişmelerin ve deneysel genomiğin kombinasyonu, kişilerin gelecekteki sağlık durumları hakkında tahminde bulunmaya olanak verebilecektir. Biyoinformatik sayesinde hastalıkların önlenmesinde önemli gelişmeler sağlanabilir. Bugün gelişmiş ülkelerde sağlık için yapılan harcamanın %80’i tedaviye yöneliktir. Biyoinformatik sayesinde hastalıkların önlenmesinde önemli gelişmeler sağlanacağı öngörülmektedir (Polat ve Karahan, 2009). Böylece koruyucu hekimlik önem kazanacak, gereksiz masraflar ve tedavilerden kaçınılabilecektir. İlaca dayalı tedaviler, hasta ve hastalığa karşı özelleştirilebilecek ve en az yan etkiyle, etkin tıbbi tedavi sağlanacaktır (Polat ve Karahan, 2009).
Genomik; bir organizmadaki tüm DNA genlerinin haritalanması, sıralanması ve analizini içeren yeni bir disiplindir (Polat ve Karahan, 2009). Bu alanda oluşturulan veri tabanlarının büyük bir kısmını nükleik asitler oluşturmaktadır11. Milyonlarca nükleotidin depolanması ve organizasyonu için veri tabanlarının oluşturulması, araştırıcıların bu bilgilere ulaşabilmeleri ve yeni verileri girebilmeleri için zorunlu bir aşamadır (Çadırcı, 2009). Genomiklerin iki temel kullanım şekli vardır. Bunlar; malign tümörlerin ve genomların sıralanmasıdır. Gerek sıralama gerekse de translasyonel biyoinformatik, veri işleme için büyük miktarda depolama ve analitik güç gerektiren Büyük Veri uygulamalarını gerektirir (Salas-Vega, 2015).
Yeni nesil gen sıralama teknolojisinin son zamanlarda ortaya çıkması, patojen genomdaki izlenebilir farklılıkların tanımlanmasına olanak tanır (Kao, 2014). Normal ve/veya hasta kişilerin gen fonksiyonlarının tam olarak nasıl işlev gördüğünün anlaşılması, hastalıkların algılanmasında, teşhis ve tedavisinde ilerlemelere yol açabilir (Polat ve Karahan, 2009). Örneğin insan genom projesindeki büyük başarı, bireysel genetik taramaların çok düşük bir maliyet ile gerçekleştirilmesine olanak sağlamıştır (Polat ve Karahan, 2009). Özellikle bulut bilgi işlem ve depolama teknikleri de dahil olmak üzere, altyapı ve büyük veri araçları genetik ve ilişkili bilim dallarında kullanılıyor. AB’de bunun bir örneği “Helix Nebula Projesi”dir (Salas-Vega, 2015).
11.4. Sağlıkta Büyük Verinin Zorlukları
Büyük verilerin evrimi, sağlık verilerinin katlanarak büyümesi nedeniyle çeşitli zorluklar, kısıtlamalar ve sorunlar ortaya çıkarmaktadır. Büyük veri sürekli değişiyor ve bu veri değişikliği, büyük miktarda veriyi depolamak, analiz etmek ve almak için birçok zorluğu beraberinde getiriyor. Sağlık hizmetlerinde karşılaşılan ana zorluklar ise Verilerin kalitesi ve depolanması kaliteli veri analizi veri analitiğinde uzmanlık, veri güvenliği ve gizliliği çoklu veri kaynakları karşılaşılan sağlık hizmetleri büyük veri zorluklarından bazılarıdır. Gerçek zamanlı büyük veri analitiği, sağlık hizmetlerinde önemli bir gereksinimdir. Veri toplama ve işleme arasındaki gecikme ele alınmalıdır. Çok sayıda analitik algoritmasının, modelinin ve yönteminin aşağı açılır bir menü türünde dinamik olarak kullanılabilirliği, büyük ölçekli benimseme için de gereklidir. Mülkiyet, yönetişim ve standartlar gibi önemli yönetsel konular dikkate alınmalıdır.
Genellikle sağlık kuruluşlarında meydana gelen büyük veri sorunları dört ana kategoride ele alınmaktadır (BK Sarkar, 2017).
 1. Veri Yönetimi: Veri yönetimi ve düzenlemesi, verilerin yönetişimidir. Sağlık sektörü veri analitiğine doğru ilerlerken, veri yönetişimi büyük bir zorluk haline geliyor. Üretilen sağlık hizmeti verileri, doğası gereği çeşitlendirilmiştir ve standardizasyon ve yönetişim gerektirir.
2. Ekonomik Zorluklar: Klinik ziyaretler boyunca hastalar ve sağlık profesyonelleri arasındaki tıp alanındaki tesisler, ücretli hizmete bağlıdır. Daha sonra, bu süreçle ilişkili teknolojilerdeki ilerleme, tıp camiasına bir yük getirmekte ve personel için bu tür ücretsiz hizmetlere karşı gereksiz bir etki yaratmaktadır. 
3. Büyük Veri Teknolojisinin Zorlukları: Sağlık hizmetlerinde büyük veri çok büyük ve çok parçalıdır, bu da bilgi kalitesinde sorunlara neden olur ve ayrıca teknoloji açısından büyük veri, sağlık hizmeti vizyonunu gerçekleştirmek için bir engel oluşturur. 
4. Güvenlik ve Gizlilik Sorunları: Büyük veri çağında, bireysel sağlık paydaşları hakkında potansiyel olarak hassas bilgiler nedeniyle sağlık verilerinin gizliliği ciddi şekilde düşünülmelidir. Sağlık hizmetleri verileri, kamuya açık hale getirilmemesi için yetkisiz erişime karşı güvence altına alınması gereken son derece hassas verilerdir ve ayrıca sağlık hizmeti sahtekarlığı da saldırganlardan önlenebilir. Bu nedenle, veri güvenliği sağlık alanındaki en önemli zorlu görevlerden biridir.
11.5. Sağlıkta Büyük Verinin Etik Boyutu
Büyük veri analizleri, sağlık alanında bir başka büyük soruna çözüm sunma potansiyeline de sahiptir. Sağlık hizmetlerinde tıbbi müdahalelerde hata yapma (malpraktis), çıktıları açısından önemli bir yer teşkil etmektedir. Sağlık kayıtlarının bütüncül bir yaklaşımla toplanması, analiz edilmesi ve olası ilaç yan etkileri ile alerjik reaksiyonların tüm hastalar için henüz ortaya çıkmadan öngörülmesi ve bunlara müdahale edilmesi, yanı sıra hekimler ve branşlar arasındaki iletişim kopmalarına dijital ortamda çözümler sunulması gibi işlemlerse büyük veri analizlerinin tıbbi hatalara karşı sunduğu birtakım yeniliklerdir.
Büyük verinin sağlık alanında kullanılmasıyla ortaya çıkan etik açıdan anlamlı olan sorun alanlarından belki de en önemlisi kişinin sağlığıyla ilgili verilerinin dijital ortama aktarılmasından sonra bunların korunması ve kişinin tasarrufu ve rızası dahilinde kullanılmasıdır. Bu durum sağlık hizmetlerinden istifade eden herkes için geçerli olduğuna göre büyük veri kullanımı ile ilgili yeterli bilgi düzeyi ve hassasiyette olmayan insanlar için ciddi bir sorun teşkil etmektedir. Dolayısıyla bu alanda ilk karşımıza çıkan problem her yetişkin insanın bu konuda gerektiği kadar ve doğru bir şekilde bilgilendirilmesidir. Büyük verinin sağlık alanında yaygın olarak kullanılmasında diğer bir sorun bu verilerin ve bilgilerin hasta veya kişi mahremiyeti bağlamında korunmasıdır.
Bilindiği gibi sağlık hizmetleri sırasında hekimin hastası ile olan ilişkisi özel olma durumundadır ve dolayısıyla hem hukuki olarak hem de etik açıdan hekim sır saklama mükellefiyetindedir. Ancak büyük veri geniş alanlarda kullanıldığında bu mükellefiyetin gerçekleştirilmesi zorlaşmaktadır. Bu konudaki klasik problemlerden birisi kişinin sağlıkla ilgili bilgilerine başkaları tarafından ulaşılarak kişinin aleyhinde birtakım sonuçları doğurmasıdır (Uçar ve İlkılıç, 2019).
Bölüm Özeti
Sonuç olarak sağlık alanında oluşan verinin büyüklüğüne bakıldığında sağlık hizmet sunumunda kalite, hız ve verimliliği arttırmak için bu veriyi yönetmenin ve analiz etmenin gerekliliği açıkça görülmektedir. Sağlık Bakanlığı da bu amaçla veriyi sistem altyapısında bulunan veri merkezlerinde depolamakta ve Sağlık Bilişim Ağı ile tüm sağlık kurum ve kuruluşlarını aynı ağ üzerinden birbirine bağlayarak verilerin ortak kullanılabilmesini sağlamaktadır. Ayrıca Bakanlık olarak sağlık alanında oluşan büyük verinin yönetilmesi ve analizi ile etkili sağlık hizmet sunmak ve gerçek zamanlı karar desteği sağlamak amacıyla Sağlık Yönetim Sistemi, e-Nabız Kişisel Sağlık Sistemi ve Teletıp/Teleradyoloji Sistemi gibi entegratif sistemler geliştirilmiştir. Bu doğrultuda hızla gelişen teknolojik çağa ayak uydurularak yeni sistemler ve projeler geliştirilmeye devam edilecektir. Böylece vatandaşa etkin ve kaliteli sağlık hizmeti sunmak için karar verici ve politika yapıcılara strateji ve politika geliştirme noktasında destek sağlanacaktır.
Bu bölümde esas olarak tıbbi Büyük Veri ile ilgili kavramları, arka planı ve ana uygulamaları tanıtmaktadır ve tıbbi Büyük Veri ile ilgili Sağlık Bakanlığı’nın yaptığı çalışmalar, zorlukları, uygulama alanları ve etik boyutunu tanıtmaktadır. Ek olarak, büyük tıbbi verilerin çalışmasındaki fırsatları aşağıda özetliyoruz.
Sağlıkta büyük verilerin kullanımının sunduğu fırsatlar ülkeleri, bunun önemini farkına varmaya ve sağlık bilgilerinin depolanabileceği çok geniş kapsamlı veri merkezleri kurmaya yöneltmektedir. Bu anlamda ülkemizde de sağlık sisteminin performansını artırmak amacıyla büyük hacimlerdeki sağlık veri setlerini toplamak ve analiz etmek üzere Büyük Veri Araştırma Enstitülerinin kurulması önerilebilir. Kurulan bu Enstitülerde analitik maliyetini azaltmak, etkili Klinik Karar Destek (CDS) sistemleri geliştirmek, daha iyi tedavi stratejileri için platformlar sağlamak ve büyük verilerle ilişkili dolandırıcılığı tespit etmek ve önlemek konusunda çalışmalar yapılabilir. Ayrıca sağlık hizmetlerinde büyük verinin bir araç veya bir proje yerine ulusal bir strateji olarak ele alınması önerilmektedir.
Kaynakça
[1] Atan S. (2016). “Veri, Büyük Veri ve İşletmecilik”. Balıkesir Üniversitesi Sosyal Bilimler Enstitüsü Dergisi, (35), 137-153.
[2] Ward JS and Barker A. (2013). Undefined By Data: A Survey of Big Data Definitions. arXiv:1309.5821v1 [cs.DB] 20 Sep 2013. https://arxiv.org/pdf/1309.5821.pdf
[3] De Mauro A, Marco Greco, M, Grimaldi M. (2015). What is Big Data? A Consensual Definition and a Review of Key Research Topics. International Conference on Integrated Information (ICININFO 2014) AIP Conf. Proc. 1644, 97-104 (2015); doi: 10.1063/1.4907823
[4] Salas-Vega S, Haimann A, and Mossialos E. (2015). Big Data and Health Care: Challenges and Opportunities for Coordinated Policy Development in the EU. Health Systems & Reform, 1(4):285–300.
[5] Yengi Y. (2016). “Büyük Veride Duygu Analizine Dayalı Öneri Sistemleri”. Kocaeli Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Anabilim Dalı Yüksek Lisans Tezi. Kocaeli.
[6] Reeder-Hayes KE, Troester MA, Meyer AM.(2017). Reducing Racial Disparities in Breast Cancer Care: The Role of ‘Big Data’ . Oncology Journal, 31(10).
[7] Bayrakçı S. (2015). “Sosyal Bilimlerdeki Akademik Çalışmalarda Büyük Veri Kullanımı”. Marmara Üniversitesi Sosyal Bilimler Enstitüsü, Gazetecilik Anabilim Dalı, Bilişim Bilim Dalı Yüksek Lisans Tezi. İstanbul.
[8] Herland M, Khoshgoftaar TM and Wald R(2014). “A review of data mining using big data in health informatics”. Journal Of Big Data.1(2).
[9] Olaranke I and Oluwaseun O. (2016). Big Data in Healthcare: Prospects, Challenges and Resolutions. FTC 2016 – Future Technologies Conference 2016 . 6-7 December 2016 . San Francisco, United States.
[10] Habl C, Renner AT, Bobek J, Laschkolnig Anja (2016). Study on Big Data in Public Health, Telemedine and Healthcare Final Report (December 2016).
[11] Dinov Ivo D. (2016). “Volume and Value of Big Healthcare Data”. J Med Stat Inform. 2016; 4: . doi:10.7243/2053-7662-4-3.
[12] Big Data Value Association BDV (2016). Big Data Technologies in Healthcare Needs, opportunities and challenges. Available at (Son Erişim: 22 Kasım 2016)
http://www.bdva.eu/sites/default/files/Big%20Data%20Technologies%20in%20Healthcare.pdf
[13] Ülgü MM, Gökçay O(2017). “Büyük Veri ve Açık Veri Analitiği: Yöntemler ve Uygulamalar”içinde (267-282.ss.), Grafiker Yayınevi.
[14] Stanford Medicine (2017). Health Trends Report: Harnessing the Power of Data in Health, July 2017. Available at (Erişim Tarihi 22 Kasım 2021):
https://med.stanford.edu/content/dam/sm/smnews/documents/kimordMedicineHealthTrendsWhitePaper2017.pdf
[15] Harper E. (2014). Can big data transform electronic health records into learning health systems? In: Nursing Informatics 2014, Saranto K, Weaver CA, Chang P, eds. Amsterdam, The Netherlands: IOS Press; 2014.
[16] Gallagher J. Public Health England to launch largest cancer database [internet]. BBC News. 2013. Available at (Erişim Tarihi: 22 Ekim 2021):
http://www.bbc. co.uk/news/health-22870352
[17] Hay SI, George DB, Moyes CL, Brownstein JS (2013). Big Data Opportunities for Global Infectious Disease Surveillance. PLoS Med 10(4): e1001413.
[18] Ji Z, Ganchev I, O’Droma M, Zhang X, Zhang X. (2014). A cloud based X73 ubiquitous mobile healthcare system: design and implementation. Sci World J 2014; 2014(2014): 1-14.
[19] Ola O, Sedig K. (2014). The challenge of big data in public health: an opportunity for visual analytics. Online J Public Health Inform. 5(3): 1–21.
[20] Zhang Y, Liu H, Su X, Jiang P, Dongfei Wei D. (2015). “Remote Mobile Health Monitoring System Based on Smart Phone and Browser/Server Structure”. Journal of Healthcare Engineering· Vol. 6 · No. 4 · 2015 Page 717–738.
[21] Kao RR, Haydon DT, Lycett SJ, Murcia PR. (2014). Supersize me: how whole-genome sequencing and big data are transforming epidemiology. Trends Microbiol. 22(5): 282-291.
[22] Nash DB. (2014). Harnessing the power of big data in healthcare. Am Health Drug Benefits. 7(2): 69-70.
[23] Gittelman S, Lange V, Gotway Crawford CA, Okoro CA, Lieb E, Dhingra SS & Trimarchi E. (2015). A New Source of Data for Public Health Surveillance: Facebook Likes. Journal of Medical Internet Research, 17(4), e98. http://doi.org/10.2196/jmir.39703.
[24] Raghupathi W and Raghupathi V. (2014). Big data analytics in healthcare: promise and potential. Health Information Science and Systems, 2, 3. http://doi.org/10.1186/2047-2501-2-3
[25] Feldman B, Martin EM, Skotnes T. (2012). Data in Healthcare Hype and Hope. Available at (Erişim Tarihi: 22 Ekim 2021):
http://www.kmhealthcare.net/images/hypeandhope.pdf
[26] Mavandadi S, Dimitrov S, Feng S, Yu F, Yu R, Sikora U, Ozcan A. (2012). Crowd sourced BioGames: managing the big data problem for next generation lab o a chip platforms. Lab Chip. 12(20): 4102–4106
[27] Ellaway RH, Pusic MV, Galbraith RM, Cameron T. (2014). Developing the role of big data and analytics in health professional education. Med Teach. 36(3): 216-222.
[28] Krumholz HM. (2014). Big data and new knowledge in medicine: the thinking, training, and tools needed for a learning health system. Health Aff. 33(7): 1163-1170.
[29] Thomas R and McSharry P. (2015). Big Data Revolution: What farmers, doctors and insurance agents teach us about discovering big data patterns. 1st Edition, Published by John Wiley Sons Inc, United States.
[30] Groves P, Kayyali B, Knott D, Van Kuilen S. (2013). The “big data” revolution in healthcare: Accelerating Value and İnnovation. Available at (Erişim Tarihi: 22 Ekim 2021):
https://www.ghdonline.org/uploads/Big_Data_Revolution_in_health_care_2013_McKinsey_Report.pdf
[31] Kim JH. (2014). Health avatar: an informatics platform for personal and private big data. Healthc Inform Res. 20 (1): 1-2.
[32] Fahim M, Idris M, Ali R, Nugent C, Kang B, Huh EN, Lee S. (2014). ATHENA: a personalized platform to promote an active lifestyle and wellbeing based on physical, mental and social health primitives. Sensors (Basel). 14(5): 9313-9329.
[33] Polat M, Karahan AG (2009). Multidisipliner yeni bir bilim dalı: biyoinformatik ve tıpta uygulamaları. S.D.Ü. Tıp Fak. Derg. 16(3)/ 41-50.
[34] Uçar A, İlkiliç İ. “Büyük Verinin Sağlık Hizmetlerinde Kullanımında Epistemolojik ve Etik Sorunlar”. Sağlık Bilimlerinde İleri Araştırmalar Dergisi 2/2 (06 Eylül 2019), 80- 92. https://doi.org/10.26650/JARHS2019-616389
[35] Sarkar BK. “Güvenli sağlık sistemi için büyük veri: kavramsal bir tasarım,” Karmaşık ve Akıllı Sistemler, cilt. 3, hayır. 2, s. 133–151, 2017.

12. BÜYÜK VERİDE HUKUKİ KONULAR

Ders Anlatimi – Video

Ders Anlatimi – Ses
Unite-12 Sunumu – PDF
Online Test – Unite Sorulari
Giriş

Büyük verinin beraberinde getirdiği sosyal ve ekonomik fayda bütün dünyada gerek özel sektör gerekse kamu verisinin büyük veri uygulamaları çerçevesinde değerlendirilmesi yaklaşımını ortaya çıkarmaktadır. Bununla birlikte, büyük veri, ortaya çıkardığı faydanın yanında işlenen verilerin büyük bir kısmının kişisel veriler olması dolayısıyla veri mahremiyeti kurallarının uygulanması bakımından birtakım zorlukları beraberinde getirmiştir. Bu durum başta İktisadi İşbirliği ve Kalkınma Teşkilatı (OECD), AB ve ABD gibi politika yapıcı kurum, kuruluş ve ülkeleri yeni bir düzenleyici tepki ortaya koymaya teşvik etmiş, bu çerçevede kapsamlı güncelleme çalışmaları hızlıca ortaya konulmuştur. Zira büyük veri çağı henüz başlamasına rağmen bu teknolojinin veri mahremiyeti bakımından ortaya çıkardığı sorunlara ilişkin çözüm önerilerinin bir an önce geliştirilmesi önem arz etmektedir.
Veri mahremiyetinin ihlali devletlerin vatandaşlarını koruması açısından güvence altına alınmak zorundadır. Bu bölümde, büyük verinin, veri mahremiyeti alanında ortaya çıkardığı riskler boyutuyla değerlendirilmesiyle bu alana ilişkin temel politika ve düzenlemelerde belirlenen yeni ihtiyaçlar irdelenmekte ve bu alanda atılması gereken adımlar ele alınmaktadır.
12.1. Büyük Verinin Hukuki Boyutuna Giriş
Yargıtay Hukuk Genel Kurulu’nun 17.06.2015 tarih ve E. 2014/ 56, K. 2015/ 1679 sayılı kararında kişisel verinin sayısal olarak sınırlandırılmasının mümkün olmadığına, bireyin kimliğini ortaya çıkartan, bir kişiyi belirli kılan ve karakterize eden kişinin kimlik, ekonomik ve dijital bilgileri, tabiiyeti, kanaatleri, ırk, siyasî düşünce, felsefî inanç, din, mezhep veya diğer inançları, dernek, vakıf ve sendika üyeliği, sağlık bilgileri, fotoğrafları, parmak izi, sağlık verileri, telefon mesajları, telefon rehberi, sosyal paylaşım sitelerinde yazdığı veya paylaştığı yazı, fotoğraf, ses veya görüntü kayıtlarının kişisel veriler olarak kabul edilebileceğine hükmetmektedir [1]. Yargıtay, kişisel veriyi böyle belirledikten sonra kişisel verilerin korunmasını, Avrupa İnsan Hakları Mahkemesi (AİHM) ile uyumlu biçimde Avrupa İnsan Hakları Sözleşmesi’nin (AİHS) 8. maddesinde yer alan “Özel ve Aile Hayatına Saygı Hakkı” altında korunan “mahremiyet hakkı”nın bir parçası olarak bireyin kendisi hakkındaki bilgileri kontrol edebilmesi, bilgilerin kaydedilememesi, rızası olmadan açıklanamaması ve yayılamaması şeklindeki hukuki çıkarlarını da içerdiğini ifade etmektedir [2]. Dolayısıyla kişisel veri ihlali doğrudan hak ihlali yaratan bir hukuka aykırılık olarak kendini göstermektedir.
Kişisel veri işlenmesine ilişkin ilkeler, ekonomik sistem içerisinde faaliyet göstermek isteyen herkes için uygulanacak tüm düzenlemelerin temelini oluşturmakta; kurallar, izinler ve yasaklar bu ilkeler üzerinde şekillenmektedir. Bu ilkeleri genel olarak [3]:
1. Kişisel verileri dürüst ve hukuka uygun bir şekilde toplama ve işleme;
2. Kişisel verilerin toplanmasının, verinin toplanma amaç(lar)ının gerçekleştirilmesi için gerekli ve yeterli olduğu miktarla sınırlı tutulması anlamına gelen asgarilik veyahut veri minimizasyonu;
3. Kişisel verilerin önceden belirlenmiş olan ve hukuka uygun amaçlarla toplanması, işlenmesi ve bu amaçlara aykırı surette işlenmemesi,
4. Belirlenen amaçlar dışında başka bir amaç için kişisel verilerin kullanımının, ancak veri sahibinin rızası veya yasal bir yetki ile mümkün olması, verilerin kullanımının sınırlandırılması ilkesi;
5. Kişisel verilerin doğru, tam ve işlenme amaçları ile ilgili olması;
6. Kişisel verilerin istenmeyen ya da yetkili olmayan ifşalardan, yok edilmeden veya değiştirilmeden korumak için gerekli güvenlik önlemleri alınması,
7. Veri sahiplerinin, işlenen verileri hakkında bilgilendirilmesi, bunlara erişimlerinin temini ve düzeltme hakkına sahip olması şeklinde kendini gösteren bireysel katılım ilkesi ve
8. Veri işleme sorumluluğu olan kişilerin, bu ilkelere riayet etme yönünde sorumluluğu ilkesi olarak sekiz başlık altında toplamak mümkündür [4,5,6].
Bununla birlikte, bireylerden açıkça rızaları alınmış olsa dahi, meşru yollarla elde edilen verilerin kaydedilmesi, dönüştürülmesi veya kullanımı esnasında ortaya çıkabilecek sızıntılar, hizmet sağlayıcıların sebebiyet verdiği güvenlik açıkları ve operatör hatası gibi sebepler veri güvenliği alanında önemli sorunları beraberinde getirmektedir [7].
Büyük veri, geniş bir yelpazede topluma yeni fırsatlar sunarken, bu fırsatların bazısı veri toplanması aşamasında öngörülememektedir. Örneğin kırk yıl önce insanlardan kan örnekleri toplandığında kan örneklerinin potansiyel kullanım alanı olarak DNA testinden bahsedilmemekteydi. Bununla birlikte verinin istismar edilebildiği de dikkate alınması gereken bir gerçektir. Gecekondu mahallelerinde yaşayan kişilere kredi verilmemesi/sigorta yapılmaması gibi uygulamalar istismar olayına örnek teşkil etmektedir [8,10].
Bilgi devrimini yaşadığımız son günlerde kişisel verinin toplanması, kullanılması ve analizi kaçınılmazdır. Fakat bu noktada bireyler, kendileriyle ilgili hangi verinin toplandığını ve üçüncü taraflarla paylaşıldığını tam olarak bilememektedirler. Gizlilik, şeffaflık ve kimlik bilgileri gibi önem verilen değerlerin korunması sağlanamazsa büyük veri ile yenilik ve avantaj elde etme uğruna bu değerlerin kaybedilmesi riski doğmaktadır. Büyük veri çağında gizlilik kavramının, kişisel verinin akışını yönetmek adına daha iyi anlaşılıyor olması gerekmektedir. Bununla birlikte gizlilik değeri taşıyan verinin, paylaşım esnasında gizli kalıyor olması da ayrı bir önem taşımaktadır. Ayrıca büyük veri, bireylerin kendilerini güvende hissetmeleri adına şeffaf olmalı ve kimlik bilgilerini ifşa etmemelidir [9,10].
Bu noktada, özel hayatın ve kişisel verinin gizliliğini garanti altına almak adına gerek uluslararası alanda gerekse ulusal düzeyde düzenlemeler getirilmiştir. Kişisel verinin korunmasına ilişkin düzenlenen ilk geniş kapsamlı uluslararası sözleşme, Avrupa Konseyi tarafından 28 Ocak 1981 tarihinde kabul edilen 108 sayılı “Kişisel Verilerin Otomatik İşleme Tabi Tutulması Karşısında Şahısların Korunmasına Dair Sözleşme” olmuştur [11].
Ayrıca ülkemizde de Türkiye Cumhuriyeti Anayasasında, özel hayatın gizliliğiyle ilgili “herkes, özel hayatına ve aile hayatına saygı gösterilmesini isteme hakkına sahiptir. Özel hayatın ve aile hayatının gizliliğine dokunulamaz” hükmü bulunmaktadır (Türkiye Cumhuriyeti Anayasası, 1982, Madde 20). Söz konusu maddeyi dayanak alarak hazırlanan 6698 sayılı “Kişisel Verilerin Korunması Kanunu” da kişisel veri, özel nitelikli kişisel veri ve kişisel verinin işlenmesi kavramlarını tanımlamakta ve kişisel verinin işlenme şartlarını açıklamaktadır [10].
12.2. Büyük Verinin Kullanımında Olumsuz Örnekler
Dünyanın en büyük sosyal medya şirketi Facebook’un kullanıcı bilgilerinin gizliliğini ihlal etmesiyle platforma karşı açılan dava bu duruma örnek olarak verilebilir. Facebook, kullanıcılarının kişisel bilgilerini toplayan üçüncü taraf bir şirketin bu bilgileri siyasi danışmanlık şirketi Cambridge Analytica’ya satmasından en az iki yıl boyunca haberdar olmak ve gerekli önlemleri almamakla suçlandı. İngiltere merkezli siyasi danışmanlık şirketine satılan bilgilerin kapsamı, 2013 yılında bir ‘kişilik testi’ görüntüsü altında Facebook’ta yer alan bir uygulamayı indiren kullanıcıların kişisel bilgilerinin yanı sıra, arkadaş listelerindeki kişilere ait bilgileri de içeriyordu. Söz konusu uygulamanın Washington’ın bağlı bulunduğu District Columbia bölgesindeki 340.000 kullanıcının kişisel bilgilerine ulaştığı ancak yalnızca 852 kişinin uygulama ile doğrudan etkileşim kurduğu saptanmıştı [12].

Şekil 12. 1. Facebook ekosistemi.
Cambridge Analytica’nın bu şekilde elde ettiği verilerle kısmen oluşturulan psikografik modelleme tekniklerinin Trump seçim kampanyası için yürütülen çalışmaların temelini oluşturduğu iddia edilmektedir. Aynı şekilde Brexit döneminde Birleşik Krallık’ta da benzer bir kampanyanın yürütüldüğü düşünülmektedir. Bu doğrultuda Birleşik Krallık ve Amerika’da şirketin Facebook kanalıyla seçmenlerin verilerini topladığı konusunda incelemeler başlatılmıştır. Bu konuda başlatılan soruşturmalar bütün dünyada büyük bir ilgi ile takip edilmiştir [13].
Aadhar, Hindistanın Benzersiz Kimlik Kurumu (UIDAI) tarafından yönetilen Hisdistan hükümeti kimlik veri tabanıdır. Aaadhar numarasına sahip olan kullanıcılara tanınan bazı ayrıcalıklar nedeniyle Hindistan nüfusunun 1,1 milyar kadar yüksek bir bölümü kişisel verilerini UIDAI’ye verdi. 2018 yılında Aadhar veritabanında yaşanan ihlal sonucu kişilere ait doğum tarihinden iris tarama bilgilerine kadar önemli kişisel veriler sızdırıldı. Bu ihlal 2017 yılın en büyük siber güvenlik sorunu olarak değerlendirildi [14].
Ünlü otel Marriott 30 Eylül’de büyük çapta bir veri ihlali yaşadığını açıkladı. Fakat müşterilerini etkilenebilecekleri konusunda bilgilendirmeleri 3 ay gibi bir süreyi aldı. Sızdırılan bilgiler müşterilerin isimlerini, telefon numaralarını, ödeme bilgilerini, posta adreslerini, e-posta adreslerini ve pasaport numaralarını içeriyordu. Soruşturma sonrası bulunan kanıtlar saldırganların sistemlerine 2014 yılı başlarında eriştiğini gösteriyordu. Araştırmacılar bulunan dosyaların şifresini çözdükten sonra, müşterilerin kişisel bilgileri olduklarını kanıtladılar ve tam açıklama yaklaşık üç ay sonra gerçekleşti. Bu, Marriott’un itibarında önemli bir hasara yol açtı [14].

Şekil 12. 2. Marriott Hotel.
Büyük veride her yıl çok sayıda veri sızdırılmakla birlikte örneğin LinkedIn firması 2016 yılında 117 milyon hesabın e-posta ve şifre bilgilerinin sızdırıldı, birçok farklı kuruluş tarafından 2019 yılındaki veri ihlalleri sonucunda toplam 39,7 milyon kayıt sızdırıldı. Bu sızıntılar içerisinde gizli tutulan ve basına aksettirilmeyen ihlaller olduğu da unutulmamalıdır. Veri ihlalleri ve sızan veri sayısına ait liste aşağıda verildiği gibidir [14]. Bu listelerde veri miktarından ziyade sızılan verinin etkisi ön planda tutulmaktadır. Bu liste her yıl benzer şekilde oluşturulmakta ve liste uzayıp gitmektedir.
Broome Co., NY, hükümet sistemleri yetkisiz kişilerce erişildi (veri miktarı bilinmiyor).
Chicago Üniversitesi’ndeki veritabanı yanlış yapılandırma sonucu kişisel verilerin ihlaline sebep oldu (1.679.993).
Yahudi escort uygulaması JCrush, kullanıcının kişisel verilerini ve özel mesaj kayıtlarını güvensiz veritabanında tutularak kişisel verilerin ihlaline sebep oldu (200.000).
Baltimore Co. Okulları, öğrenciler ve çalışanlar hakkında hassas verileri ortaya koymaktadır (+116.000).
Shanghai Jiao Tong Üniversitesi, öğrencilerin e-posta meta verilerini sızdırıyor (veri miktarı bilinmiyor).
Evernote eklentisindeki kritik açıklık kullanıcının hassas verilerini tehlikeye atmaktadır (4.6 milyon).
Kanadalı şehir gizlilik, ihlali sakinlerine bildirir (2.345).
Graceland Üniversitesi veri ihlalini açıkladı (veri miktarı bilinmiyor).
Oregon Eyalet Üniversitesi de veri ihlalini açıkladı (636).
Dublin Limanı Şirketi bir veri sızıntısı kaynağını araştırıyor (veri miktarı bilinmiyor).
Temple Üniversitesinde’ki bir çalışan, öğrenci bilgilerini yanlışlıkla İnternet’e yükledi (160).
Şikago merkezli sağlık merkezi şu anda kapalı olan tesiste hasta verilerini bıraktı (veri miktarı bilinmiyor).
Hindistan iş portalına ait yanlış yapılandırılmış veritabanı, büyük veri ihlallerine (1.6 milyon) neden olmuştur.
Reklam ajansı, hastaların tıbbi yaralanma iddia kayıtlarına maruz kaldı (150.000).
Maryland merkezli iki tıbbi uygulama, kazayla veri ifşa edildikten sonra hastaları haberdar etmiştir (3,380).
HIV hastalarının verileri NHS Highland e-posta gaffe’de ihlal edildi (37).
Specsavers, Queensland müşterilerinin özel tıbbi bilgilerinin kaybolduğunu söylenmiştir (veri miktarı bilinmiyor).
Theta360, kullanıcı tarafından yüklenen fotoğrafları koruyamamıştır (11 milyon).
Creighton Üniversitesi’ndeki BT hatası hasta tıbbi kayıtlarını ulaşılmasına imkân veriyor (veri miktarı bilinmiyor).
Indiana merkezli sağlık kuruluşu, bir çalışanın hasta verilerine yetkisiz erişim sağladığını söyledi (2.200).
Tayvan kamu hizmeti sistemi veri ihlalini yaşadığını bildirdi (240.000).
Woodbury’deki Merrill Sanat Merkezi veri ihlali yaşadı (veri miktarı bilinmiyor).
Sonuç olarak her yıl aşırı miktarda büyük veri ihlali/sızıntısı olmakla birlikte en büyük birkaç örneği açıklamak gerekirse [15]:
Yahoo (Ağustos 2013)
İlk ihlalden neredeyse yedi yıl sonra ve ifşa edilen gerçek kayıt sayısının ortaya çıkmasından dört yıl sonra bir numaralı noktayı güvence altına almak, Yahoo’ya yapılan saldırıdır. Şirket, 2013 yılında gerçekleştiğini söylediği olayı ilk olarak Aralık 2016’da kamuoyuna duyurdu. O sırada Verizon tarafından satın alınma sürecindeydi ve bir milyardan fazla müşterisinin bir hack grubu tarafından hesap bilgilerine erişildiğini tahmin ediyordu. Bir yıldan kısa bir süre sonra Yahoo, ifşa edilen gerçek kullanıcı hesaplarının 3 milyar olduğunu açıkladı. Yahoo, gözden geçirilmiş tahminin yeni bir güvenlik sorununu temsil etmediğini ve “etkilenen ek kullanıcı hesaplarının” tümüne e-posta gönderdiğini belirtti [15].
Alibaba (Kasım 2019)
Sekiz aylık bir süre boyunca bir pazarlamacı için çalışan bir geliştirici, oluşturduğu tarayıcı yazılımını kullanarak Alibaba Çin alışveriş web sitesi Taobao’dan 1.1 milyar adet kullanıcı adları ve cep telefonu numaraları dahil olmak üzere müşteri verilerini elde etmeyi başardı. Görünüşe göre geliştirici ve işvereni, bilgileri kendi kullanımları için topluyorlardı ve her ikisi de üç yıl hapis cezasına çarptırılmış olmasına rağmen, karaborsada satmadı [15].
LinkedIn (Haziran 2021)
Profesyonel iş sosyal ağı devi LinkedIn, Haziran 2021’de bir karanlık web forumunda yayınlanan 700 milyon kullanıcısı ile ilgili verileri gördü ve kullanıcı tabanının %90’ından fazlasını etkiledi. “Tanrı Kullanıcısı” lakabını kullanan bir bilgisayar korsanı, yaklaşık 500 milyon müşteriden oluşan ilk bilgi veri setini boşaltmadan önce sitenin (ve diğerlerinin) API’sini kullanarak veri kazıma tekniklerini kullandı. Ardından, 700 milyon müşteri veri tabanının tamamını sattıklarıyla övünerek devam ettiler. LinkedIn, hiçbir hassas ve özel kişisel verinin ifşa edilmediğini, olayın bir veri ihlalinden ziyade hizmet şartlarının ihlali olduğunu iddia etmiştir. God User tarafından yayınlanan bir veri örneğinde e-posta adresleri, telefon numaraları, coğrafi konum kayıtları gibi bol miktarda veri sağlayacak olan cinsiyetler ve diğer sosyal medya ayrıntıları bulunmaktadır [15].
Sina Weibo (Mart 2020)
600 milyondan fazla kullanıcısı olan Sina Weibo, Çin’in en büyük sosyal medya platformlarından biridir. Mart 2020’de şirket, bir saldırganın veri tabanının bir kısmını ele geçirerek 538 milyon Weibo kullanıcısını ve gerçek adlar, site kullanıcı adları, cinsiyet, konum ve telefon numaraları dahil olmak üzere kişisel bilgilerini ele geçirdiğini duyurdu. Saldırganın daha sonra veritabanını dark web’de 250 dolara sattığı bildiriliyor.
Çin Sanayi ve Bilgi Teknolojileri Bakanlığı (MIIT), Weibo’ya kişisel bilgileri daha iyi korumak ve veri güvenliği olayları meydana geldiğinde kullanıcıları ve yetkilileri bilgilendirmek için veri güvenliği önlemlerini geliştirmesini emretti. Sina Weibo yaptığı açıklamada, bir saldırganın, kullanıcıların telefon numaralarını girerek arkadaşlarının Weibo hesaplarını bulmasına yardımcı olmayı amaçlayan bir hizmet kullanarak herkese açık olarak yayınlanan bilgileri topladığını ve hiçbir parolanın etkilenmediğini savundu. Ancak, şifreler başka hesaplarda yeniden kullanılırsa, açığa çıkan verilerin hesapları şifrelerle ilişkilendirmek için kullanılabileceğini kabul etti. Şirket, güvenlik stratejisini güçlendirdiğini ve ayrıntıları uygun makama bildirdiğini söyledi [15].
12.3. Bilgi Güvenliği
Bilgi toplumundan bu yana veri ekonomik bir değer haline gelmiş ve alınıp satılabilir olmuştur. Bu durum kişisel verilerin korunması konusunun önemini artırmış, insanların bu hususta daha dikkatli olmalarını zorunlu kılmış ve bilgi güvenliğinin önemini ortaya koymuştur.
Bilgi güvenliği, yalnızca bilgileri yetkisiz erişimden korumakla ilgili değildir. Bilgi güvenliği temel olarak bilgiye yetkisiz erişimi, bilginin kullanılmasını, ifşa edilmesini, bozulmasını, değiştirilmesini, denetlenmesini, kaydedilmesini veya yok edilmesini önleme uygulamasıdır. Bilgi fiziksel veya elektronik olabilir. Bilgi, kullanıcı bilgileri gibi herhangi bir şey veya sosyal medya profili, cep telefonu verileri, biyometri gibi hassas bilgiler olabilir. Bu nedenle ‘Bilgi Güvenliği’, kriptografi, mobil bilişim, siber adli tıp, çevrimiçi sosyal medya vb. gibi pek çok araştırma alanını kapsamaktadır ve yasalarla koruma altına alınmıştır [16].
Bilgi güvenliğinin ana 7 unsuru bulunmaktadır. Bunlar:
Güvenirlilik: Bir sistemden beklentimiz ile sistemin davranışı arasındaki uyumu, yani sistemi çalıştırdığımızda hatasız ve sıkıntısız olarak çalışıp tutarlılığını koruması şeklinde açıklanabilmektedir.
Bütünlük: Bilginin yetkisi olmayan kişilerce değiştirilmemesidir yani bilgiyi gerektiği şekilde tutmak ve saklamaktır.
Kimlik Tespiti: Bilgiye erişmek isteyen kullanıcının kimliğinin doğrulanıp tespiti yapılarak sistemde kayıtlı olup olmadığının doğrulamasıdır.
İnkar Edememe: Bilginin paylaşılması durumunda bilgiyi gönderen kişi ile bilgiyi alan kişinin, bilginin paylaşılmadığını inkar edememesidir. Veri bütünlüğü ve özgünlüğü inkar edememe unsurunun ön koşullarıdır. Bu unsurun amacı, oluşabilecek herhangi bir anlaşmazlık durumunda bu durumun ortadan kaldırılmasıdır.
Gizlilik: Bilginin yetkisi olmayan kişilerin eline geçmesinin engellenmesidir yani bilgiye erişim yetkisi bulunmayan kişilerin erişip, değiştirmesini veya herhangi bir şekilde kullanmasını kısıtlamaktır.
Log (kayıt) Tutma: Sistemde olan tüm kullanıcıların erişimlerinin ve bunları ne zaman yaptıklarının zamanının kaydedilmesidir. Bu kayıtların herhangi bir arıza durumu, yasal veya hukuki nedenlerden dolayı bir önlem amacıyla yapıldığı söylenebilmektedir.
Erişilebilirlik: Bilginin yalnızca yetkisi olan kişiler tarafından erişilebilir olması durumudur yani bilgiyi erişim hakkı olan kişilerin kullanabilmesi olarak yorumlanabilir.
Bilgi güvenliği temel unsurları Confidentiality (gizlilik), Integrity (bütünlük), Availability (kullanılabilirlik). Bu üç unsur da birbirlerinden ayrılmaz bir bütündür.
Confidentiality (Gizlilik): Bilginin yetkisiz kişilerin eline geçmemesi, geçmesinin engellenmesidir.
Integrity (Bütünlük): Bilginin yetkisiz kişiler tarafından değiştirilmemesidir. Bilgi değiştirilebilir ancak yetkili olan kişiler tarafından ve ihtiyaca göre değiştirilmesi doğru olur.
Availability (Kullanılabilirlik): Bilginin ilgili ya da yetkili kişilerce ulaşılabilir ve kullanılabilir durumda olmasıdır. Bütünlük ve erişilebilirlik birbirlerine çok yakın ancak ters kavramlardır.
Bu kapsamda bilgi güvenliği ele alınarak yasalarla ihlaller tespit edilmiş ve büyük veri ile ilgilenen kurum ve kuruluşlara kanunlar çerçevesinde yasal yükümlülükler getirilmiştir. Bu yükümlülüklerin temel amaçları [17]:
Bireysel anlamda kimliğe dair unsurların korunması ve bu vesile ile mahremiyet olgusunun ve kişisel haklarının güçlendirilmesi,
Finansal anlamda sahip olunan verilerin korunması neticesinde, maddi anlamda yaşanabilecek yüksek ölçekli tehdit, kayıp ve risklerden bireylerin korunması,
Tıbbi anlamda sahip olunan verilerin kötüye kullanılmaması ve bireylerin hayatlarının ve sağlık durumlarının akışını olumsuz yönde etkileyecek şekilde sorunların ortaya çıkmaması,
Dijital ortamlarda sahip olunan bilgilerin, elde edilen hakların, gönderilen mesajların, yapılan işlemlerin vb. faaliyet ve unsurların mahremiyetinin korunması,
Kişilik haklarının ve hürriyetlerinin zarar görmesinin engellenmesi,
Bireylerin, kötü amaçlı faaliyetleri yürüten taraflara karşı hukuki anlamda ellerinin güçlendirilmesi.
12.4. Kişisel Verileri Koruma Kurumu (KVKK)
Pandemi süreçlerinde gerekliliği fazlasıyla ortaya çıkan büyük verilerde, kişisel verilerin paylaşılmasının hangi riskleri ortaya çıkarabileceği, kurumlar tarafından kişisel verilerin toplanmasındaki kuralların varlığından habersizlik veya verilerin hangi amaçlarla kullandığının tam olarak tespit edilememesi önemli bir problemdir. Bu sorun şüphesiz günümüzün olduğu kadar geleceğimizin de en büyük tartışma konularından biri olacaktır. Özellikle büyük veriye öncülük eden gelişmiş ve gelişmekte olan ülkelerde gerek yasal gerekse idari düzenlemeler yapılmasına rağmen konunun ciddiyeti ve önemi anlaşılabilmiş değildir.
Günümüzde gerek devlet kurumları gerekse özel kuruluşlar, her gün binlerce kişiye ilişkin çeşitli bilgilere ulaşabilmektedir. Elde edilen bilgiler, bilişim teknolojilerinde yaşanan gelişmelerin de etkisiyle, kolaylıkla işlenebilmekte ve aktarılabilmektedir. Bunun sonucunda da kişisel verilerin korunması ihtiyacı doğmuştur.
Kurumlardaki veri sorumlusu, 6698 sayılı Kişisel Verilerin Korunması Kanununun 12’nci maddesinin (1) numaralı fıkrasında bulunan;
a. Kişisel verilerin hukuka aykırı olarak işlenmesini önlemek,
b. Kişisel verilere hukuka aykırı olarak erişilmesini önlemek,
c. Kişisel verilerin muhafazasını sağlamak.
amacıyla uygun güvenlik düzeyini temin etmeye yönelik gerekli her türlü teknik ve idari tedbirleri almak zorundadır.

Şekil 12.3. Kişisel verileri koruma kurumu.
Kişisel Verileri Koruma Kurulu ise KVKK ve diğer mevzuatla verilen görev ve yetkilerini kendi sorumluluğu altında, bağımsız olarak yerine getirir ve kullanır. Kurulun kişisel verilerin korunmasına ilişkin görev ve yetkileri aşağıdaki gibidir [18]:
Kişisel verilerin, temel hak ve özgürlüklere uygun şekilde işlenmesini sağlamak.
Kişisel verilerle ilgili haklarının ihlal edildiğini ileri sürenlerin şikâyetlerini karara bağlamak.
Şikâyet üzerine veya ihlal iddiasını öğrenmesi durumunda resen görev alanına giren konularda kişisel verilerin kanunlara uygun olarak işlenip işlenmediğini incelemek ve gerektiğinde bu konuda geçici önlemler almak.
Özel nitelikli kişisel verilerin işlenmesi için aranan yeterli önlemleri belirlemek.
Veri Sorumluları Sicilinin tutulmasını sağlamak.
Kurulun görev alanı ile Kurumun işleyişine ilişkin konularda gerekli düzenleyici işlemleri yapmak.
Veri güvenliğine ilişkin yükümlülükleri belirlemek amacıyla düzenleyici işlem yapmak.
Veri sorumlusunun (kişisel verilerin işleme amaçlarını ve vasıtalarını belirleyen, veri kayıt sisteminin kurulmasından ve yönetilmesinden sorumlu olan gerçek veya tüzel kişiyi tanımlar) ve temsilcisinin görev, yetki ve sorumluluklarına ilişkin düzenleyici işlem yapmak.
Kişisel Verileri Koruma Kurulu ise KVKK ayrıca teknik önlemler olarak aşağıdaki maddeleri belirlemiş ve büyük veride yapılan ihlallerin azaltılması amaçlanmıştır [19]:
Yetkilendirme matrisi oluşturulmalıdır.
Yetki kontrolü yapılmalıdır.
Erişim loğları tutulmalıdır.
Kullanıcı hesapları yönetilmelidir.
Ağ ortamının güvenliği sağlanmalıdır.
Uygulamaların güvenliği sağlanmalıdır
Veriler şifreleme yöntemleri ile şifrelenmelidir.
Sızma testleri yapılarak kurum güvenliği test edilmelidir.
Saldırı tespit ve önleme sistemleri oluşturulmalıdır.
Log kayıtları incelenmeli ve yedeklenmelidir.
Veri maskelemeleri yapılmalıdır.
Veri kaybı önleme yazılımları kullanılmalıdır.
Yedekleme sistemleri kullanılmalıdır.
Güncel anti-virüs sistemleri kullanılmalıdır.
Verileri durumlarına göre silme, yok etme veya anonim hale getirme işlemleri yapılmalıdır.
Ülkemizde “kişisel verilerin işlenmesinde başta özel hayatı gizliliği olmak üzere kişilerin temel hak ve özgürlüklerini korumak ve kişisel verileri işleyen gerçek ve tüzel kişilerin yükümlülükleri ile uyacakları usul ve esasları” belirleyen ve yöneten yegâne kurum olan Kişisel Verileri Koruma Kurumu idari yapılanmasını tamamlamış ve etkin bir şekilde çalışmaya başlamıştır.
12.5. Dünyada Kişisel Verileri Koruma Yasaları
ABD: Tüketici Gizlilik Yasası
ABD, General Data Protection Regulation (GPDR)’den aldığı ilham ile yeni kanunlar oluşturmuştur. Yeni uygulamalardan biri olan 2018 Kaliforniya Tüketici Gizlilik Yasası, Kaliforniya eyaleti vatandaşlarına GDPR’ye benzerlik gösteren haklar tanıyor. Bu haklara göre kişiler, hangi verilerinin ne amaçla işlendiğine ve üçüncü bir şirket veya kişiye verilip verilmediğine dair şirketlerden bilgi talep edebiliyor. Elektronik veya fiziksel olarak oluşturulabilen bu taleplere şirketler bir ay içinde ücretsiz olarak cevap vermek zorunda kalıyor.

Şekil 12.4. The General Data Protection Regulation (GDPR) [20].
İngiltere: Veri Koruma Yasa Tasarısı
İngiltere Bilgi Komisyonluğu Ofisi başkanlığında veri koruma ve gizliliği ile ilgili kendi düzenlemelerini oluşturuyor. İngiltere Bilgi Komisyonluğu Ofisi, GDPR ile uyumlu kuralların yürütülmeye devam edilmesi adına yeni bir Veri Koruma Yasa Tasarı taslağı hazırlamakta olan İngiltere için bu konunun oldukça önemli olduğunu ve veri korumaya dair sorunların kamuoyunda sıkça ses getirdiğini belirtiyor.
Avustralya: Gizlilik Yasası
Avustralya’daki Gizlilik Yasası, ülkedeki tüm gizlilik düzenlemelerinin birbiriyle tutarlılık göstermesini sağlayarak eksiksiz bir uyum mekanizması oluşturulmasını hedefliyor. Bu yasalar, ülke içindeki veri akışının Avustralya sınırları dışına çıkışının azaltılmasını ve kişisel gizlilik hakkını garanti altına alacak kurallar içeriyor.
Veri denetleyicilerine pek çok sorumluluk yükleyen Avustralya, bu kişilerden kişisel bilgileri tamamen açık ve şeffaf bir şekilde yönetmesini ve yasaların tüm prensiplerine uyum göstermesini bekliyor. Veri sızıntısı ile ilgili bildirimler, raporlama kuralları ya da “ciddi hasar” teriminin tanımı kısımlarındaki farkların haricinde Avustralya, veri korumada GDPR’ye yakın bir yörüngede ilerliyor.
Meksika: Federal Veri Koruma Kanunları
Meksika’nın Özel Taraflarca Yapılan Federal Veri Koruma Yasası, Avrupa’da uygulanan yasalardan neredeyse hiç ayrılmıyor. Uluslararası Gizlilik Profesyonelleri Birliği’nden Veri Koruma Yasası Başkanı Miguel Recio, “Avrupa Birliği’nde olduğu gibi Meksika’da da veri koruma alanında dinamik gelişmeler yaşıyor. Bu gelişmelerde mesuliyet hissi, sağlam ve etkili bir veri yönetimi için anahtar rol oynuyor. Meksika’daki veri denetleyicileri, teknik ve operasyonel önlemler hakkında AB’dekilerle benzer sorumluluklar alarak veri gizliliği yasalarına uyumu proaktif bir şekilde gösteriyor.” sözleriyle Meksika’nın veri korumaya yeni bakış açısını özetliyor.
Kanada: Kişisel Verileri Koruma ve Elektronik Belgeler Yasası
GDPR ile çok alakalı olmayan uygulamaları gündeme getiren ülkeler de bulunuyor. Kanada, oluşturduğu Kanada Kişisel Veri Koruma ve Elektronik Belge Yasası kapsamında kendi standartlarını yaratıyor. Ayrıca, temel işleri direkt veri işlemeye dayanan tüm Kanadalı şirketlerin, Kanada kanunları dışında bütün GDPR kurallarına da uyması bekleniyor.
Bölüm Özeti
Büyük veri olgusunun 21. yüzyılın iletişim teknolojileri açısından en popüler alanlarından biri olduğunu söylemek mümkündür. Büyük verinin temelini internet ve uzantılı teknolojilerin oluşturduğu görülmektedir. Teknik ve soyut bir yapısı bulunmasına karşın büyük veriler, nitelikli analizler sayesinde, ekonomiden siyasete, eğitimden ticarete kadar pek çok alanda işlevsel olarak kullanılabilmektedir.
Büyük veri kaynakları, bu geniş yelpazede faaliyet göstermek isteyen kötü amaçlı birey/kurum ve kuruluşlar için vazgeçilmez bir kaynak haline dönüşmektedir. Dolayısıyla kullanıcılarının bilgilerini paylaşması, özel yaşamın gizliliği, mahremiyetin korunması, kişisel verilerin güvenliğinin sağlanması, bireylerin onların bilgisi ve izni olmaksızın veri kaynağı olarak kullanılmaması gibi etik değerleri aşındırmıştır.
Ayrıca devletler vatandaşlarını korumak adına da yasal düzenlemeler gerçekleştirmek zorunda kalmıştır. Dünyada farklı ülkelerin kişisel verilerin korunması hususunda farklı yasaları ve uygulamaları mevcuttur. Ülkemizde de bu sorumluluğu KVKK kurumu gerçekleştirmekte ve birçok kurum ve kuruluşa rehberlik ederek büyük veri mahremiyeti konusunda önerilerde bulunmaktadır.
Kaynakça
[1] Akkurt, S. S. (2016). 17.06.2015 tarih, e. 2014/4-56, k. 2015/1679 sayılı Yargıtay hukuk genel kurulu kararı ve mukayeseli hukuk çerçevesinde “Unutulma Hakkı”. Ankara Üniversitesi Hukuk Fakültesi Dergisi, 65(4), 2605-2635.
[2] Öncü, G. A. (2011). Avrupa İnsan Hakları Sözleşmesinde Özel Yaşamın Korunması. İstanbul: Beta Yayınları.
[3] Ketizmen, M., Kart, A. (2019). Kişisel Veri ve Rekabet Hukuku Kapsamında “Big Data”, Kişisel Verileri Koruma Dergisi. 1(1), 64-76.
[4] Bygrave, L. A. (1998). Data Protection Pursuant to the Right to Privacy in Human Right Treaties. International Journal of Law and Infırmation Technology, 6, 247-284.
[5] Ketizmen, M. (2008). Türk Ceza Hukukunda Bilişim Suçları. Ankara: Adalet Yayınevi.
[6] Wacks, R. (1989). Personal Information: Privacy and the Law. Oxford: Clarendon Press.
[7] Chen, M., S. Mao, Y. Zhang, V. C. M. Leung, “Big Data: A Survey”, Mobile Networks and Applications, April 2014, Vol.: 19, Issue 2, pp. 171-209.
[8] Charney, S. (2012). Trustworthy Computing Next (Version 1.01). Microsoft Corporation Trustworthy Computing.
[9] Richards, N. M. ve King, J. H. (2014). Big Data Ethics. Wake Forest Law Review, 49(2), 393-432.
[10] Aktan E. “Big Data: Application Areas, Analytics and Security Dimension”, Bilgi Yönetimi 1: 1 (2018), 1-22.
[11] Kişisel Verileri Koruma Kurumu. (2018). Kişisel Verilerin Korunması Kanununa İlişkin Uygulama Rehberi. Ankara: KVKK Yayınları.
[12] Forseti Hukuk Bürosu (Son Erişim Tarihi: 16 Eylül 2021)
URL: https://www.forseti.com.tr/makale/big-data-konfor-mu-tehlike-mi/
[13] Foo Yun Chee, “EU lawmakers to investigate alleged misuse of Facebook users’ data”, ed. Alissa de Carbonel, Reuters, 19 Mart 2018, (Son Erişim Tarihi: 20 Ocak 2022)
URL: https://www.reuters.com/article/us-facebook-cambridge-analytica-eu/eu-lawmakers-to-investigatealleged-misuse-of-facebook-users-data-idUSKBN1GV1A3
[14] BeyazNet, 2019 Yılında Yaşanan Büyük Veri İhlalleri. (Son Erişim :20.01.2022)
URL:https://www.beyaz.net/tr/guvenlik/makaleler/2019_yilinda_yasanan_buyuk_veri_ihlalleri.html
[15] SocialBuciness Web sitesi. “21. Yüzyılın En Büyük 5 Veri İhlali” (Son Erişim: 20.01.2022)
URL: https://www.socialbusinesstr.com/2021/08/06/21-yuzyilin-en-buyuk-5-veri-ihlali/
[16] BeyazNet, Bilgi Güvenliği. (Son Erişim: 20.01.2022)
URL: https://www.beyaz.net/tr/guvenlik/makaleler/bilgi_guvenligi.html
[17] Uzun S.A. “Türkiye’de Kişisel Verilerin Korunması ve Vatandaş Algısının Ölçülmesi”, Bilişim Teknolojileri Dergisi, Cilt: 14, Sayı: 3, Temmuz 2021.
[18] İnternet: Kişisel Verilerin Korunması Kanunu. 29677 sayılı ve 07 Nisan 2016 tarihli Resmi Gazete (Son Erişim :15.02.2020).
URL: https://www.mevzuat.gov.tr/MevzuatMetin/1.5.6698.pdf
[19] BeyazNet, KVKK Kurumunun Tavsiye Ettiği Teknik Önlemler. (Son Erişim: 20.01.2022)
URL:https://www.beyaz.net/tr/guvenlik/makaleler/kvkk_kurumunun_tavsiye_ettigi_teknik_onlemler.html
[20] WebTekno, “Türkiye’de Verilerimizi Koruyan KVKK Nedir, GDPR ile Arasında Ne Fark Var?”, (Son Erişim: 22.01.2022)
URL: https://www.webtekno.com/kvkk-nedir-gdpr-farklari-h105089.html

13. APACHE SPARK VE PYSPARK TEKNOLOJİLERİ

Ders Anlatimi – Video

Ders Anlatimi – Ses
Unite-13 Sunumu – PDF
Online Test – Unite Sorulari
Giriş

Birçok sektörde kullanılmasının yanında popüler olarak dijital reklam şirketleri Apache Spark’ı, web sitelerinin veri tabanlarını korumak ve belirli tüketicilere özel kampanyalar tasarlamak için kullanır. Bununla birlikte finans şirketleri, finansal verileri almak ve yatırım faaliyetlerine rehberlik etmek için kullanır. Tüketici ürünleri şirketleri, envanter kararlarına rehberlik etmek ve yeni pazar fırsatlarını tespit etmek, müşteri verilerini toplamak ve trendleri tahmin etmek için kullanır.
Büyük veri uygulamalarıyla çalışan büyük kuruluşlar, hızı ve birden çok veri tabanını birbirine bağlama ve farklı türlerde analitik uygulamaları çalıştırma yeteneği nedeniyle Apache Spark kullanmayı tercih etmektedir.
Apache Spark, büyük veri kümelerindeki görevleri hızlı bir şekilde gerçekleştirebilen, aynı zamanda veri işleme görevlerini birden çok bilgisayara tek başına dağıtabilen popüler bir büyük veri analiz aracıdır.
Apache Spark, Java, Scala, Python ve R programlama dilleri için yerel bağlantılar sağlayabilir ve SQL, veri akışı, makine öğrenimi ve grafik işleme gibi işlemleri destekler. Bankalar, telekomünikasyon şirketleri, oyun şirketlerinin yanı sıra, Apple, Facebook, IBM ve Microsoft gibi büyük teknoloji devleri tarafından da kullanılmaktadır.
13.1. Apache Spark ve PySpark Teknolojilerine Giriş
Apache Spark, büyük verileri analiz etme uygulamalarının performansını artırmak için bellek içinde işlemeyi destekleyen bir açık kaynak paralel işleme çerçevesidir. Berkeley’in AMP Laboratuvarı olan California Üniversitesi’nde 2009 yılında geliştirilmiştir. Apache Spark, veri boru hatları ve makine öğrenimi modelleri geliştirme için de popülerdir [1].
Apache Spark’ı popüler yapan özelliklerden bazıları şunlardır:
Bir uygulamayı çok daha hızlı Hadoop kümesinde çalıştırmaya yardımcı olma olanağı,
Gelişmiş analitik desteği,
Hadoop ve mevcut Hadoop verileri ile entegrasyon yeteneği,
Paketleri geliştirmeye yardımcı olmak için her yerde katkıda bulunanlarla topluluk iletişimi.
Büyük veri çözümleri, geleneksel veritabanları için çok büyük veya karmaşık olan verileri işlemek üzere tasarlanmıştır. Büyük veri kümeleri üzerinde paralel olarak işlem yapılmasını sağlayan, Scala dili ile geliştirilmiş açık kaynak kodlu bir kütüphane olan Spark Disk tabanlı alternatiflerden çok daha hızlı olarak büyük miktarlardaki verileri (RAM) bellekte işler. Ancak, veri kümeleri mevcut sistem belleğine sığmayacak kadar büyük olduğu takdirde disk tabanlı işlemeyi de gerçekleştirebilir.

Şekil 13.1. Apache Spark Logosu [1].
Java, Scala, Python ve R için üst düzey API’ler sunan Spark, kullanım kolaylığı ve popülerliği açısından ön plana çıkmaktadır. Ayrıca bellek içi hesaplaması sayesinde çok düşük gecikme süresi ile gerçek zamanlı veri işleme imkanı sunmaktadır. Öte yandan basit programlama katmanına sahip olan Spark, güçlü önbellekleme ve disk kalıcılığı yeteneklerine sahiptir. Hızını kontrollü bölümlemeye ve bellek içi işlemeye borçlu olan Spark, temel yapı olarak Şekil 13.2’de görülen Esnek Dağıtılmış Veri Kümeleri (RDD)’ni kullanır [1].

Şekil 13.2. RDD Çalışma Mantığı
Esnek Dağıtılmış Veri Kümeleri (RDD), hesaplama karmaşıklığını kullanıcılardan gizleyecek şekilde tasarlanmış bir yapıya sahip olmakla birlikte elemanlar üzerinde paralel olarak işlemlerin yapılmasını sağlayan, makinalar arasında bölünmüş veri koleksiyonlarıdır. Esnek Dağıtılmış Veri Kümeleri oluşturularak diskteki veriler, geçici belleğe taşınmakta ve üzerinde çalışılacak senaryolara uygun sorgular yazılarak verilerin işlenmesi mümkün olmaktadır.
13.2. Apache Spark’ın Özellikleri
Apache Spark, büyük veri iş yükleri için kullanılan açık kaynaklı dağıtılmış bir işleme sistemi olup aşağıdaki temel özelliklere sahiptir [1].
Hızlı İşleme: Büyük veri dünyasının bu teknolojiyi diğerlerine tercih etmesini sağlayan Apache Spark’ın en önemli yanı hızıdır. Büyük veri, daha yüksek hızda işlenmesi gereken hacim, çeşitlilik, hız ve doğrulukla karakterize edilir.
Esneklik: Apache Spark, birden çok dili destekler ve geliştiricilerin Java, Scara, R veya Python’da uygulamalar yazmasına izin verir.
Bellek İçi Bilgi İşlem: Apache Spark, verileri sunucuların RAM’inde depolar. Bu da hızlı erişime izin verir. Dolayısıyla analitiğin hızı önemli ölçüde artmış olur.
Gerçek Zamanlı İşleme: Apache Spark, gerçek zamanlı akış verilerini işleyebilir. Yalnızca depolanan verileri işleyen MapReduce’un aksine, Spark gerçek zamanlı verileri işleyebilir. Bu nedenla anlık sonuçlar üretebilir.
Daha İyi Analitik: Map ve Reduce işlevlerini içeren MapReduce’un aksine, Spark bundan çok daha fazlasını içerir. Apache Spark, zengin bir SQL sorguları, makine öğrenimi algoritmaları, karmaşık analitik vb. içerir.
Apache Spark, son birkaç yılda muazzam bir büyüme elde etti. Hızı, kullanım kolaylığı ve sofistike analitiği nedeniyle bugün işletmelerde en etkili veri işleme ve AI motoru haline geldi. Bununla birlikte, bellek içi çalıştırmak için çok fazla RAM gerektirdiğinden Spark’ın maliyeti yüksektir.
Spark, çeşitli kaynaklarda büyük ölçekte veri hazırlamayı basitleştirerek verileri ve yapay zekayı birleştirir. Ayrıca, TensorFlow, PyTorch, R ve SciKit-Learn gibi popüler kitaplıkların sorunsuz entegrasyonunun yanı sıra hem veri mühendisliği hem veri bilimi iş yükleri için tutarlı bir API seti sağlar [1].
13.3. Apache Spark Mimarisi
Apache Spark, tüm bileşenlerinin ve katmanlarının gevşek bir şekilde bağlandığı iyi tanımlanmış hiyerarşik bir katman mimarisine sahiptir. Bu mimari, çeşitli uzantı ve kütüphanelerle daha da bütünleşmiştir [1].

Şekil 13.3. Apache Spark Mimarisi [1].
Logosu Şekil 13.3’de görülen Apache Spark uygulaması iki ana bileşenden ihtiva etmektedir. İlk bileşen, kullanıcının kodunu düğümler arasında dağıtıp birden çok göreve dönüştüren bir sürücüdür. İkinci bileşen ise bu düğümlere atanan görevleri çalıştıran yürütücülerdir. İki bileşen arasında arabuluculuk yapmak üzere bir küme yöneticisi bulunmaktadır.
13.4. Apache Spark Bileşenleri
Apache Spark, Python veya Java gibi bir programlama dili değildir. Çok çeşitli koşullarda kullanıma uygun, genel amaçlı dağıtılmış bir veri işleme motorudur. Hem ölçekte hem de yüksek hızda büyük veri işleme için özellikle kullanışlıdır ve bu doğrultuda bazı bileşenlere sahiptir.
Uygulama geliştiricileri ve veri bilimcileri, verileri uygun ölçekte hızla sorgulamak, analiz etmek ve dönüştürmek için genellikle Apache Spark’ı uygulamalarına dahil eder. Spark ile en sık ilişkilendirilen görevlerden bazıları şunlardır:
Büyük veri kümelerinde (genellikle terabayt boyutunda) ETL ve SQL toplu işleri,
IoT cihazlarından ve düğümlerinden akış verilerinin işlenmesi, çeşitli sensörlerden gelen veriler, finansal ve her türden işlem sistemi ve
E-ticaret veya BT uygulamaları için makine öğrenimi görevleri.
Spark, görselleştirme (grafik işleme), makine öğrenimi, akış işlemleri için aşağıdaki gibi bileşenlere sahiptir.

Şekil 13.4. Apache Spark Bileşenleri
Spark Core
Büyük ölçekli paralel ve dağıtılmış veri işleme için temel motor bileşenidir. Sahip olduğu kütüphaneler ile akış, SQL ve makine öğrenmesi gibi çeşitli iş yüklerine izin verir. Bellek yönetimi ve hata kurtarma, bir kümedeki işleri planlamak, dağıtmak, izlemek ve depolama sistemleriyle etkileşimden sorumludur [1].
Spark Streaming
Spark Streaming, gerçek zamanlı akış verilerini işlemek için kullanılan bir Spark bileşenidir. Gerçek zamanlı veriler ile yüksek verimli işlemler ve analizler yapılmasına olanak sağlar. Şekil 13.5’te görüldüğü üzere Kafka, Kinesis veya TCP soketleri gibi farklı kaynaklardan verileri alarak karmaşık algoritmalar ile işleyebilmektedir. Bu verileri dosya sistemlerine, veri tabanlarına ve dashboard’lara gerçek zamanlı olarak aktarabilmektedir [2].

Şekil 13.5. Spark streaming.
Spark Streaming, aldığı gerçek zamanlı veriyi mikro batch’lere ayırarak Spark Engine kısmına yönlendirir. Şekil 13.6’da görüldüğü üzere akışı oluşturmak için Spark Engine tarafından veriler işlenir ve nihai sonuç akışın çıktısına gönderilir.

Şekil 13.6. Spark streaming ile gerçek zamanlı veri işleme.
Spark Streaming, sürekli bir veri akışını temsil eden ayrıklaştırılmış akış veya DStream adı verilen üst düzey bir soyutlama sağlar. Kaynaktan verileri okuyan ve RDD’lerin üzerine inşa edilen DStream, bir RDD dizisi olarak temsil edilmektedir. RDD’ler DStream üzerinde belli bir zaman aralığındaki datayı tutmaktadır [2].
Spark SQL
En yaygın kullanılan Spark bileşenlerinden biri olan Spark SQL, kullanıcıların ortak SQL dilini kullanarak farklı uygulamalarda depolanan verileri sorgulamasını sağlar. Yapılandırılmış veriler için kullanılan ilişkisel sorgular için uygundur. “Join” işlemlerinde çok hızlı olan bu kütüphane, Spark SQL dilini kullanarak verilerin işlenmesini kolaylaştırmaktadır.
GraphX
GraphX, grafik sorunlarını çözmek için tasarlanmış ve paralel hesaplamaları sağlayan Spark API’dir. Paralel olarak işlenebilme özelliğine sahip bu kütüphane grafı oluşturan nokta ve bağlantılara farklı özellikler tanımlayabilir.
MLlib (Machine Learning)
MLlib, makine öğrenme algoritmalarını barındıran açık kaynaklı ve geniş kapsamlı bir kütüphanedir. Spark, bellek içi dağıtık veri işleme motorudur ve büyük veri kullanımları için hızlı bir popülerlik kazanmıştır. Spark toplu işlem ve akan veriyi işlemeye olanak tanır. Her iki paradigmayı kullanarak makine öğrenimi gerçekleştirilebilir. MLlib ayrıca birçok matematiksel ve istatistiksel yöntemler ile veri ön işleme ve model değerlendirmeyi destekler. Birçok kullanıma hazır sınıflandırma, regresyon, öneri, kümeleme ve boyut azalma modelini sunar. Spark ve MLlib, Mahout’la kıyaslandığında oldukça hızlı olup bu algoritmaları uygulayan ve değerlendiren akademik çalışmaların sayısında artış görülmektedir [3].
MLlib kütüphanesi aşağıdaki algoritma ve yardımcı uygulamaları içermektedir:
1. Lojistik regresyon ve doğrusal destek vektör makinesi (SVM)
2. Sınıflandırma ve regresyon ağacı
3. Rasgele orman ve gradyanı güçlendirilmiş ağaçlar
4. Alternatif en küçük karelerle (ALS) öneri
5. K-means kümeleme, Bisecting k-means, Gauss karışımları (GMM) ve kuvvetli iterasyon kümelendirmesi
6. Latent Dirichlet ayırma (LDA) yoluyla konu modellemesi
7. Hızlandırılmış arıza süresi modeliyle hayatta kalma analizi
8. Tekil değer ayrışma (SVD) ve QR ayrışması
9. Temel bileşen analizi (PCA)
10. L1, L2 ile lineer regresyon ile elastik ağ düzenleştirme
11. İzotonik regresyon
12. Multinomiyal / binomiyal Naive Bayes
13. FP-büyüme ve birliktelik kuralları ile araştırma madenciliği
14. PrefixSpan ile ardışık desen incelemesi
15. Özet istatistikler ve hipotez testleri
16. Özellik dönüşümleri
17. Model değerlendirmesi ve hiper parametre ayarı [4].
SparkR
Dağıtılmış bir veri çerçevesi uygulaması sağlayan bir R paketidir. Ayrıca, seçim, filtreleme, toplama gibi işlemleri büyük veri kümelerinde de destekler [5].
13.5. Apache Spark ve Hadoop MapReduce
Spark ile Hadoop ekosisteminin sıklıkla mukayese edildiği gözlemlenmektedir. Ancak daha doğru bir karşılaştırma Hadoop ekosisteminde bulunan MapReduce ile Apache Spark’ın arasında gerçekleştirilebilir.
Map-Reduce yapılacak işleri parçalara ayırıp ayrılan iş parçacıklarını diğer sunuculara dağıtmaktadır. Diğer sunucularda işlenen verilerin sonuçlarını birleştirip tek bir sonuca indirgeyen bir yapı sunmaktadır.
“Map” adımı: Ana düğüm girişi alır, daha küçük alt parçalara ayırır ve onları işçi düğümlerine dağıtır. Bir işçi düğümü bunu tekrar yaparak çok düzeyli bir ağaç yapısına götürür. İşçi düğümü daha küçük olan sorunu işler ve cevabı ana düğüme geri gönderir. Harita, bir veri alanındaki bir türe sahip bir çift veri alır ve farklı bir alandaki çiftlerin bir listesini döndürür.
“Reduce” adımı: Ana düğüm, daha sonra tüm alt problemlere cevapları toplar ve onları, başlangıçta çözmeye çalışılan sorunun cevabı olan çıktıyı oluşturmak için bir şekilde birleştirir. Redüksiyon işlevi daha sonra her bir gruba paralel olarak uygulanır; bu da aynı alanda bir değer topluluğu oluşturur [6].
Map-Reduce Bileşenleri
Ad-Düğümü (Name-Node): HDFS meta verilerini yönetir, doğrudan dosyalarla ilgilenmez.
Veri Düğümü (Data-Node): Her blok için HDFS-default replication düzeyinin bloklarını depolar.
İş İzleyicisi (Job Tracker): Yeni hesaplardaki işyeri tahkiklerini planlar, ayırır ve izler.
Görev İzleyicisi (Task Tracker): Map Reduce işlemleri çalıştırır, genel olarak kullanışlı haritalar, redüktörler ve bölücülerden oluşan bir kütüphane ile birlikte gelir.
MapReduce ve Spark’ın kendine göre avantajları ve dezavantajları olmakla birlikte Spark genellikle avantajları ile çok daha ön plana çıkabilmektedir.
Hadoop MapReduce verileri okumak ve yazmak için diski kullanır. Bu işlem hızının yavaşlamasına sebep olurken, Spark verileri bellekte depolar, dolayısıyla işlem hızının yaklaşık 100 kat daha yüksek olduğu veri analitiği araştırmalarında ortaya konulmaktadır.
Hadoop MapReduce farklı gereksinimler için birbirinden farklı bileşenlere gereksinim duyar. Spark, toplu ve etkileşimli bir şekilde makine öğrenmesi, grafik işleme, akan veri analizi gibi görevleri gerçekleştirir.
Hadoop, yapısı itibariyle verileri toplu ve verimli bir şekilde işlemek için tasarlanmıştır. Spark, gerçek zamanlı verileri verimli bir şekilde yönetmek için tasarlanmıştır.
Hadoop MapReduce ile, yalnızca toplu modda verileri işlerken, Spark gerçek zamanlı verileri Spark Streaming aracılığıyla işleyebilir.
MapReduce ve Spark maliyet açısından karşılaştırıldığında disk ve bellek kullanımları göz önünde bulundurulursa Spark bellek kullanımından dolayı daha maliyetli bir seçenek olabilir.
Python ile Spark’ın iş birliği sonucu PySPark ortaya çıkmıştır. Python dili ile Spark üzerinde geliştirme yapabilme imkanı tanımaktadır. Aynı zamanda Python kütüphanesinin ismidir [1]. Bu kütüphane aracılığıyla iki adet örnek uygulama gerçekleştirilmektedir.
Bölüm Özeti
Apache Spark gibi yeni teknolojiler sayesinde projelerinizde, çalışmalarınızda performans artışı sağlayabilmeniz mümkün hale gelmektedir. Bu performans artışının sırrı ise, Apache Spark’ın bellek (RAM) üzerinde çalışması ve bu da işlemeyi disk sürücülerinden çok daha hızlı hale getirmesidir.
Apache Spark, büyük veri kümeleri üzerinde paralel olarak işlem yapılmasını sağlayan, Scala dili ile geliştirilmiş açık kaynak kodlu kütüphanedir.
Disk bazlı çalışma yapısına sahip olan MapReduce’un oluşturduğu performans maliyetlerin çözümüyle ortaya çıkan Spark, bellek içi veri işleme özelliğiyle büyük veri uygulamalarında Apache Hadoop’tan daha hızlı çalışabilmektedir. Dolayısıyla verileri işlerken diskten veri okumadan veya diske veri yazmadan bellekte tutmasıyla Spark’ın analitik motorunun daha hızlı işlemler yapabildiğini söylemek mümkündür.
Bellek içi veri işleme, Spark’ın temel programlama özeti olan RDD (Resilient Distributed Datasets)’ler ile yapılmaktadır. RDD’ler elemanlar üzerinde paralel olarak işlemlerin yapılmasını sağlayan, makinalar arasında bölünmüş veri koleksiyonlarıdır. RDD’ler oluşturularak diskteki veriler, geçici belleğe taşınmaktadır. Bu RDD’ler üzerinde yapılacak senaryolara göre sorgular yazılarak veriler işlenmektedir.
Makine öğrenimi, akış verileri, grafik verileri gibi farklı konularda büyük veri uygulamalarında kullanılabilen Spark, veriyle ilgili çalışan kullanıcılar tarafından tercih edilmektedir. Ayrıca Java, Scala, Pyhton gibi farklı yazılım dilleri ile uygulamalar geliştirilmesine olanak sağlamasıyla popülerliğini artırmaktadır.
Kaynakça
[1] Apache Spark Web Site, “Pyhton” (Son Erişim:20.01.2022)
URL: https://spark.apache.org/docs/latest/api/python/index.html
[2] Gtehc Web Sitesi, “Apache Spark”. (Son Erişim: 20.01.2022)
URL: https://www.gtech.com.tr/apache-spark/
[3] Erdem Y. “Büyük Verinin Makine Öğrenmesi Yöntemleri İle Apache Spark Teknolojisi Kullanılarak Sınıflandırılması”, Yüksek Lisans Tezi, Karabük Üniversitesi Fen Bilimleri Enstitüsü, 2017.
[4] Apache Spark Web Site, “Machine Learning Library (MLlib) Guide” (Son Erişim:20.01.2022)
URL: https://spark.apache.org/
[5] Teknoloji.Org Web Sitesi, “Apache Spark Nedir? Nasıl Çalışır” (Son Erişim:20.01.2022)
URL: https://teknoloji.org/apache-spark-nedir-nasil-calisir/
[6] Gazal, P., D., and Kaur, “A Survey on Big Data Storage Strategies”, IEEE, India (2015)

14. BÜYÜK VERİ UYGULAMASI

Ders Anlatimi – Video

Ders Anlatimi – Ses
Unite-14 Sunumu – PDF
Online Test – Unite Sorulari
Giriş

Verinin her geçen gün katlanarak büyüdüğü günümüz dünyasında o veriyi işleyebilmenin ve veriden anlamlı çıkarımlarda bulunabilmenin önemi de katlanarak artmaktadır. Ancak terabaytlarca ve hatta petabaytlarca verinin olduğu ve içinde ilişkisel veritabanlarının, NoSQL’lerin ve text, CSV ve JSON, parquet gibi yarı yapısal ve yapısal olmayan verilerin bulunduğu bir ekosistemde klasik yöntemlerle analiz yapmak çok zordur. Bu noktada farklı bir mimariye sahip Apache Spark bu gibi sorunları ortadan kaldırarak büyük veri uygulamalarında sıklıkla kullanılmaktadır.
Birçok uygulama örneklerini üzerinde gerçekleştirebileceğiniz Apache Spark üzerinde en yaygın kullanılan metin işlemlerine aşinalık olması adına Pyhton üzerinde gerekli kütüphaneler kurularak basit kodlar yardımı ile başlangıç yapılması amaçlanmıştır.
Akabinde makine öğrenmesinin büyük veride en yaygın kullanılan örneklerinden biri lineer regresyon yöntemi ile tahminleme yapma işlemleridir. Bu konuda da temel oluşturabilecek işlem adımları ile örnek kodlar geliştirilerek sunulacaktır.
14.1. Apache Spark Kurulum İşlemleri
Bu bölümde temel bir dosya üzerinde çalışabilecek bazı temel işlemler ve en çok kullanılan komutlar aşağıda verilmiştir [1]. Bu işlemlerden önce kurulum işlemleri gerçekleştirilmelidir.
İşlem 1: Gerekli Kurulumlar
Örnek uygulama gerçekleştirmek için sisteminizde Spark ve Java uygulamaları yüklemek gerekir. Python uygulaması yüklü olan sistemler aşağıdaki şekilde spark kütüphanelerini yükleyerek uygulamayı gerçekleştirebilirler.

Komut penceresi sayesinde yüklemenin başarılı bir şekilde sonuçlandığı aşağıdaki görselde verilmiştir.

Şekil 14.1. Kurulum ekranı.
İşlem 2: Gerekli Kütüphanelerin İçe Aktarımı
“findspark” kütüphanesi pyspark’ı normal bir kütüphane olarak içe aktarılabilir kılmak için kullanılır.

import findspark
findspark.init()
İşlem 3: Bilgisayarda 4 Çekirdek Oturum Oluşturma
“pyspark” kütüphanesi aracılığıyla SparkSession.builder komutu sayesinde yerel bilgisayarda 4 çekirdekli ve ismi “Shakespeare” olan bir uygulama oluşturma işlemleri için aşağıdaki şekilde bir kod oluşturulabilir.

İşlem 4: Spark Oturumunun Görüntülenmesi.
Oluşturulan spark oturumunu “sc” isimli değişkene aktarılarak aşağıdaki şekilde görüntülenebilir.

14.2. Apache Spark ile Metin İşlemleri
Bu bölümde yapılandırılmamış veya yarı yapılandırılmış birçok büyük veri uygulamasında kullanılan temel metin işlemleri anlatılmıştır. Bu işlemler aşağıdaki adımlarda kullanılan ve dilin grameri ile oluşturulan komutlar sayesinde gerçekleştirilmektedir.
Adım 1: Dosya Yükleme
Bilgisayardaki bir metin dökümanını Spark ortamına dahil etmek için aşağıdaki şekilde bir kod yazılabilir.

Adım 2: Satır Sayısı
Dosyada yer alan satır sayısı count() komutu ile belirlenir.

Adım 3: Sayfalama
Dosya içerisinde tüm dokumanı görüntüleme yerine örneğin 20 satır incelenmek istendiğinde aşağıdaki şekilde işlem gerçekleştirilebilir.

Adım 4: Kelimeleri Saydırmak
Büyük veride en çok yapılandırılmamış veri kümeleri metinlerdir. Bu metinlerde yoğun bir şekilde kelime saydırma işlemleri kullanılmaktadır.

Satırlar boşluk karakterine göre ayrıldığında 1.416.508 adet kelime olduğu görülüyor.
İlk 10 kelime görüntülendiğinde:

Buradan anlaşıldığı üzere bazı kelimelerin aslında boşluk olduğu görülmektedir. Bu durumda boşluklardan kurtulmak için filtreleme işlemleri yapılmalıdır:

Kelime sayısı 1.416.508 adete düşmüştür. Filtrelendikten sonraki ilk 10 kelimeyi görüntülenirse.

Adım 5: Tüm Kelimelerin Büyük Harfe Dönüştürülmesi

Tamamı büyük harflerden oluşan kelime listesinden ilk 10 kelime tekrar görüntülenirse:

Adım 6: Kelimelerin Frekansı
Öncelikle “map” aracılığıyla tüm kelimelerin yanına 1 sayısını yazdıralım.

Kelimelerin benzersizliğine göre frekanslarını “reduceByKey” komutu aracılığıyla toplanarak elde edilmektedir:

Frekans değerlerine göre sıralanması için öncelikle key ve value değerleri yer değiştirilirse:

Frekansı en yüksek 20 kelimeyi görüntülenirse:

Adım 7: Kelimelerin Harf Sayıları ve Yerleri
6 harften oluşan kelimeler görüntülenirse:

A ile başlayan ve Z ile biten tüm kelimeler görüntülenirse:

İlk iki karakteri “EN” olan kelimeleri frekansları ile birlikte bulunmak istenirse:

Son iki karakteri “IS” olan ve frekansları 5.000’den yüksek olan kelimeler görüntülenirse:

14.3. Apache Spark ile Sayısal Tahmin Projesi
Bu bölümde veri analizi konusunda kolaylıkla temin edilebilecek “Advertising” isimli veri seti üzerinde sayısal tahmin problemine yer verilmiştir. Bir Apache Spark oturumu başlatmak, bu oturum ile veri setini diskimizden içe aktarmak, regresyon modeli kurmak ve kurulan modelin başarısını değerlendirmek adım adım işlenmiştir.
Adım 1: Veri Seti Hakkında
TV, Radio, Newspaper, Sales olmak üzere 4 adet öznitelikten oluşan veri seti sırasıyla televizyon reklamları için yapılan harcama miktarı, radyo reklamları için yapılan harcama miktarı, gazete reklamları için yapılan harcama miktarı ve bu harcamaların sonucunda satışlardan elde edilen ciro miktarlarını barındırmaktadır.
Adım 2: Apache Spark Oturumu Başlatmak
Aşağıdaki kod aracılığıyla ilgili Apache Spark kütüphaneleri içe aktarılabilir ve böylelikle bir Spark oturumu başlatılabilir. Bu amaç için Pandas kütüphanesi kullanılabilir.

Aşağıdaki kod aracılığıyla sabit diskimizde ve çalıştığımız dizinde bulunan “Advertising_Dataset.csv” isimli veri seti içeri aktarılabilir. Pandas kütüphanesi aracılığıyla ilk 5 gözlemi görüntülemek için “head” komutunu kullanabiliriz.
Adım 3: Sabit Diskten Veri Setini İçeri Aktarmak

Adım 4: Veri Setindeki Özniteliklerin Adını Güncellemek
Veri setindeki özniteliklerin isimlerini değiştirmek için “as” bağlacı kullanılabilir. Aşağıdaki kod ile ilk ve son öznitelik isimleri sırasıyla “id” ve “label” olarak güncellenmiştir.

Adım 5: Sayısal Özniteliklerin Merkezi Eğilim Ölçülerini Görüntülemek
Veri setindeki sayısal özniteliklerin merkezi eğilim ölçülerini görüntülemek için “describe” komutu kullanılabilir.

Adım 6: Bağımlı Değişkenleri Tek Bir Vektörde Birleştirmek
TV ve Radio özniteliklerinin değerlerini her bir gözlem için vektöre dönüştürmek üzere “VectorAssembler” komutu kullanılabilir.

Adım 7: Doğrusal Regresyon Modeli Kurmak
Doğrusal regresyon modeli “LinearRegression” komutu yardımıyla kurulabilir [2].

Adım 8: Proje Güzergahı Oluşturmak
Veri bilimi projelerinde analizin her bir aşamasını belirli bir sıraya koyarak süreçleri kolaylaştırmak amacıyla “Pipeline” komutu kullanılabilir.

Adım 9: Eğitim ve Test Kümelerini Ayırmak
Eğitim ve test için veri seti sırasıyla ¾ ve ¼ olacak şekilde rassal olarak bölümlenebilir.

Adım 10: Sayısal Tahmin Modelini Eğitmek
Vektör birleştirici ile birlikte regresyon modelini eğitebilmek için oluşturduğumuz “Pipeline” yapısı “fit” komutu ile çalıştırılabilir.

Adım 11: Model ile Tahminler Yapmak ve Sonuçları İncelemek
Eğittiğimiz modeli, eğittiğimiz veri üzerinde tahminleyerek karşılaştırma yapmak için “transform” komutu kullanılabilir.

Yukarıdaki tabloda “prediction” ve “label” öznitelikleri arasındaki fark tahminlerdeki sapmanın boyutunu temsil etmektedir. Örneğin, 17.2 birim para televizyon reklamları için, 45.9 birim para radyo reklamları için ve 69.3 birim para gazete reklamları için harcandığı takdirde 9.3 birim ciro elde edilmektedir. Aynı girdi değerleri için doğrusal regresyon modelimizin tahmini 12.7 birim ciro elde edileceği yönündedir. Bu durumda model yaklaşık 3.5 birim ciro olması gerekenden fazla şekilde tahminde bulunmuştur.
Adım 12: Sayısal Tahmin Modeli Başarı Değerlendirmesi
Doğrusal regresyon modelinin denklemi, katsayıları ve eğim değeri ve özniteliklerin ne kadar anlamlı ve önemli olduğu ve modelin başarısına dair detaylı bilgileri görebilmek için aşağıdaki kodlar çalıştırılabilir

Yukarıdaki bilgiler ışığında “intercept” ve “coefficient” değerlerine bakarak modelin denklemini aşağıdaki gibi oluşturmak mümkündür.

Adım 13: Model Aracılığıyla Tahminde Bulunmak
Tahmin aşaması için televizyon reklam harcamalarına 100 birim ve radyo reklam harcamalarına 10 birim ödenek ayrıldığında satıştan elde edilecek cironun kaç birim olacağını tahmin ettirmek için aşağıdaki kodlar çalıştırılabilir.

Uygun formata getirildikten sonra “transform” komutu yardımı ile tahminleme gerçekleştirilebilir.

Yukarıda görüldüğü üzere satıştan elde edilecek cironun yaklaşık 9.33 birim olacağı tahminlenmiştir.
Bölüm Özeti
Bu bölümde aşinalık oluşturabilecek bazı temel işlemler ve en çok kullanılan komutlar anlatılmıştır. Bu işlemlerden önce gerekli kurulum işlemleri anlatılmıştır.
Örnek uygulama gerçekleştirmek için işletim sistemlerine Spark ve Java uygulamaları yüklendikten sonra spark kütüphanelerini yüklenerek uygulamalar gerçekleştirilmektedir.
Ayrıca bu bölümde yapılandırılmamış veya yarı yapılandırılmış birçok büyük veri uygulamasında kullanılan temel metin işlemleri anlatılmıştır. Bu işlemler adım adım ve dilin grameri ile oluşturulan komut dizisi şeklinde verilmiştir.
Son olarak veri analizi konusunda kolaylıkla temin edilebilecek “Advertising” isimli veri seti üzerinde sayısal tahmin problemine yer verilmiştir. Bir Apache Spark oturumu başlatmak, bu oturum ile veri setini diskimizden içe aktarmak, regresyon modeli kurmak ve kurulan modelin başarısını değerlendirmek adım adım işlenmiştir.
Kaynakça
[1] Apache Spark Web Site, “Pyhton” (Son Erişim:20.01.2022)
URL: https://spark.apache.org/docs/latest/api/python/index.html
[2] Apache Spark Web Site, “Machine Learning Library (MLlib) Guide” (Son Erişim:20.01.2022)
URL: https://spark.apache.org/

Leave a Reply

Your email address will not be published. Required fields are marked *