Yapılandırılmış ve yapılandırılmamış veri ile bilgi ve belgelerin dijital ortama aktarılması ve dijital ortamda işlenmesi süreci anlamına gelen dijitalleşmenin küresel ölçekte Covid-19 salgının ortaya çıkmasıyla birlikte daha da ivme kazanmış olması üretilen verinin hacmini devasa boyutlara ulaştırmış, çeşitliliğini ise artışmıştır. Bu durum beraberinde büyük veri, ingilizce ifadeyle big data kavramını 2000’li yılların başında literatüre kazandırmıştır. Özellikle son 10 yılda yaşamımızın hemen hemen her yönünü etkileyen dijitalleşmeyle birlikte ortaya çıkan devasa boyuttaki bu veri daha iyi bir örgüt inşa edilmesinde, örgütün iyileştirilmesinde ve sürdürülebilir kılınmasında anahtar rol oynamaya başlamıştır. Artan dijitalleşme bununla da sınırlı kalmamış büyük verinin yanında kalın veri, ingilizce ifadeyle thick data kavramını beraberinde getirmiştir. Bu makalede büyük veri ve kalın veri bağlamında aşağıdaki sorulara cevap aranmıştır:
- Büyük veri nedir?
- Kalın veri nedir?
- Büyük veri ve kalın veri arasında öne çıkan farklılıklar nelerdir?
- Örgütler için büyük veri ve kalın veri neden önemlidir?
Büyük veri nedir?
Büyük veri, ingilizce ifadeyle big data yapılandırılmış ve yapılandırılmamış olmasının yanında çeşitli olması, doğruluk değeri taşıması, değer ifade etmesi ve belirli bir hızda üretilmesi özelliklerinin aynı anda karşılandığı veriyi tanımlamak için kullanılan bir terimdir. 2005 yılında O’Reilly Media şirketinden Roger Mougalas, Web 2.0 teriminin ortaya çıkmasından sadece bir yıl sonra, “Big Data” terimini ilk kez ortaya çıkmıştır. Ancak 2005 yılından önce de büyük veri vardı ve operasyonlarda kullanılıyordu. Ancak bu kavramın adı konmamıştı.
Büyük veri kendi içerisinde uzun veri (tall data) ve şişman veri (fat data) olmak üzere iki kategoride incelenir.
- Uzun veri (tall data): Veri setindeki değişken sayısının az olmasına karşılık gözlem sayısının çok yüksek olması anlamına gelir. Başka bir deyişle her bir gözlemi satır, değişkenleri sütun olarak kabul edersek satır sayısının çok yüksek, buna karşın sütun sayısının düşük olması durumunu ifade eder.
- Şişman veri (fat data): Büyük verinin bu kategorisi ise uzun verinin tam tersidir. Daha açık ifadeyle, şişman veri veri setindeki değişken sayısının yüksek olmasına karşılık satır sayısının oldukça az olduğu kategoriyi tanımlamak için kullanılır.
Anlatılanları somutlaştırmak adına büyük veri kategorileri Şekil 1 üzerinde verilmiştir.
Şekil 1: Büyük Veri Kategorileri
Ancak büyük veriden bahsedebilmek için tek başına büyük hacimli olması yetmez. Bunun yanında diğer özelliklerin de aynı anda karşılanması gerektiği daha önce ifade edilmişti. Tam anlamıyla büyük veriden bahsedebilmek için literatürde yaygın bir şekilde kabul gören belli başlı özelliklere sahip olması gerekir. Bu özellikler aynı zamanda kısaca 5V olarak anılmakta olup şöyledir:
- Hacim (Volume): Üretilen verinin yüksek miktarlarda olması anlamına gelir. Analist firmalarından Gartner ve uluslararası veri şirketi IDC verilerine göre önümüzdeki birkaç yıl içerisinde bulut bilişim, nesnelerin interneti (IoT) ve edge bilişim teknolojileri sayesinde evrim geçirecektir. Burada adı geçmişken edge bilişimden kısaca bahsetmek yerinde olacaktır. Edge bilişim, kurumsal uygulamaları nesnelerin interneti (IoT) veya yerel edge sunucuları gibi veri kaynaklarına yaklaştıran dağıtık bir bilgi işlem çerçevesidir. Verilerin kaynağına olan bu yakınlık, daha hızlı iç görüler oluşturma ve iyileştirilmiş yanıt süreleri gibi gerçek iş avantajları sağlayabilmektedir. Somutlaştırmak gerekirse, firmanın yakınından ham maddeyi alarak işlemesi gibi düşünebilirsiniz. Edge bilişim, bulut bilişime göre daha etkili bir alternatif sunarak verilerin oluşturuldukları kaynağın daha yakınında işlenerek analiz edilebilmesine olanak tanımaktadır. Diğer taraftan nesnelerin interneti (IoT) ise ağ içerisinde yer alan cihaz ve makine gibi fiziksel nesnelerin insana gerek duymadan kendi aralarında veri alış-verişi yaptığı sistemlerdir. Nesnelerin internetiyle birbirine bağlanan cihaz sayısında büyük artış sağlanması ve bu cihazların artan bilgi işleme gücü, daha önce benzeri görülmemiş veri hacimlerinin ve büyük verinin oluşmasına imkân tanımıştır. Edge bilişim de büyük veri hacimlerinin ve büyük verinin oluşması sürecine hız kazandırmıştır. Ayrıca, 5G ağlara geçişin mümkün kılınması ile birlikte bağlı mobil cihaz sayısının artacak olması veri hacimlerini üstel olarak büyütecektir. Şöyle ki, beşinci nesil kablosuz mobil telekomünikasyon hizmeti olan kısaca 5G, dördüncü nesil teknoloji olarak nitelendirilen 4G’den yaklaşık 10 katı veri iletim hızı sağlamaktadır. Bu açıdan bakıldığında 5G ve edge bilişim uyumu, bütün sektörlerde olağanüstü fırsatların ortaya çıkmasına zemin hazırlayacaktır. IDC’ye göre, 2025 yılına kadar küresel ölçekteki toplam veri hacmi 175 zettabayta ulaşacaktır. Veri depolama ölçü birimlerinden biri olan zettabaytta 1 zettabayt 10²¹ (1.000.000.000.000.000.000.000) bayt veya 1 sekstilyon bayt olarak ifade edilmektedir.
- Çeşitlilik (Variety): Verinin yapılandırılmış ve yapılandırılmamış olması anlamına gelir. Büyük veride veri tipleri ve kaynakları Şekil 2’deki gibi özetlenebilir:
Şekil 2: Büyük Veri Tipleri ve Kaynakları
Kaynak: Hiba ve diğerleri, 2015
- Hız (Velocity): Verinin belirli bir hızda üretilmesi gerekir. Gerçek zamanlı verilerin üretildiği sosyal medya platformları, hastaneler, radar sistemleri gibi alanlar buna örnek verilebilir.
- Değer (Value): Verinin işlendikten sonra bir anlam ifade etmesi, diğer bir ifadeyle veri madenciliği teknikleri kullanılarak tanımlayıcı ve çıkarımsal istatistikler üretilmesi ve verinin paraya dönüştürülmesidir.
- Doğruluk (Veracity): Verinin güvenilir olmasıdır. Bundan kasıt toplanan verinin kaynağının güvenilir olması, verinin yaşam döngüsünün şeffaf bir şekilde güvence altına alınması, güvenli depolama özelliklerine sahip olmasını ve istatistiksel açıdan güvenilir olmasını gerektiği anlaşılmalıdır.
Büyük verinin taşıması gereken özellikler anlatıldıktan sonra bahsedilenleri özetlemesi adına bu özellikler Şekil 3’te sunulmuştur.
Şekil 3: Büyük Verinin Özellikleri
Kalın veri nedir?
Kalın veriye geçmeden önce “kalın” teriminin irdelenmesinin faydalı olduğuna inanıyorum. Antropolog Clifford Geertz tarafından 1973 yılında yayınlanan makalede kalın terimi ele alınmış ve popülerlik kazanmıştır. Kalın terimi bir eylemin anlamının ve motivasyonunun irdelenmesi gerektiğini ileri sürmektedir. Kalın veri ise büyük veri analitikleriyle ortaya konulan görselleştirme ve analizinin ardındaki anlamı ortaya çıkaran yeni bir etnografik yaklaşımdır. Antropolojinin bir dalı olan etnografi, mevcut bir sosyal durumda bireylerin ya da grupların davranışını nitel araştırma perspektifinden inceleyen sosyal araştırma disiplinidir.
İnsan davranışının bilinmeyenlerini anlamak ve bir bireyin bir hizmet veya ürünle ilişkisinin zaman içinde nasıl değişeceğini tahmin etmeyi amaçlayan kalın veri yaklaşımı işletme CEO’su Tricia Wang tarafından popüler hale getirilmiştir. Kalın veri yaklaşımı tüketici davranışlarını daha hassas bir şekilde alır ve tüketicinin satın alma hikâyesine derinlik kazandırır. Kalın veri, analiz edilen konuların bağlamlarının ve duygularının ortaya çıkmasına izin veren etnografik verilerin nitel yaklaşım ile ele almasıyla büyük veriden ayrılırken, büyük veri genellikle veri bilimcileri tarafından yürütülen algoritmik bir süreci gerektirir. İç görüler inşa edilmeye çalışılıyorsa bir değil birden fazla metodun bir arada kullanılması gerekir. Buradan kalitatif araştırma yöntemi olarak da görülen kalın veriyle birlikte kantitatif yaklaşım olarak değerlendirilen büyük verinin birlikte kullanılması gerektiği anlaşılmalıdır. Özellikle pazarlama alanında büyük markalar kalın veri ve büyük verinin entegrasyonu ile fark yaratmaya başlamışlardır. Buna örnek olarak video içerik sağlayıcı Netflix’in pazarlama stratejileri verilebilir. Büyük veri genellikle makine öğrenme ve derin öğrenme gibi yapay zekâ yöntemlerine bağlı olarak tahminde bulunurken kalın veri tutum veya davranışların ardında yatan gerçeklikle ilgilenir.
Büyük veri ve kalın veri arasındaki farklılıklar nelerdir?
Önceki kısımda büyük veri ve kalın veri arasındaki farklılıklar kısmen verilse de bu kısımda sistematik bir şekilde bu kavram arasındaki farklılıkları Ang (2019)’a göre aşağıdaki gibi ele alabiliriz:
- Verinin formatı: Büyük veride veri nicel formattayken, kalın veri de format niteldir.
- Hacim: Gözlem sayıları büyük veride daha yüksek iken kalın veride daha düşüktür.
- Veri toplama yöntemleri: Dijital kayıtlar ve dijital arşivler ile internet ve sosyal medya aracılığıyla büyük veride veri toplanırken, kalın veride veri katılımcı gözlemi, odak grup görüşmeleri, açık uçlu soruları barındıran anketler, video kayıtları ve nitel karakterli verinin sosyal medya platformları aracılığıyla toplanır.
- Analistler: Analizler büyük veride genellikle sosyal araştırmacılar ve veri bilimcileri tarafından yapılırken kalın veride analizler antropologlar ve etnograflar tarafından yapılmaktadır.
- Analiz yapıldığı yer: Büyük veride analistlerin veriyi analiz etmesi mekandan bağımsız iken, diğer bir ifadeyle belirli bir mekan gereksinimi söz konusu değil iken, kalın veride analistler nitel araştırmanın doğası gereği gözlemin yapılacağı ortamda bulunma gereksinimi duyarlar. Katılımcı gözlemi, derinlemesine görüşme gibi nitel araştırma teknikleri analistin o ortamda bulunmasını gerektirir.
- Problem çözümündeki rol: Büyük veride daha çok tanımlayıcı ve çıkarımsal istatistikler ortaya koymak amaçlanırken, kalın veride belirli bir konuda problemleri tanımlayarak ve nedenlerini ortaya koyarak derinlemesine içgörüler elde edilmesi amaçlanır.
- Güçlü yanlar: Nicel araştırmaların doğası gereği elde edilen bulguların araştırma evrenine veya popülasyonuna genellenmesi söz konusu iken, nitel araştırmaların doğası gereği kalın veride elde edilen bulguların popülasyona genellenmesi söz konusu değildir. Kalın veride amaç belirli konu ve problem alanına yönelik derinlemesine içgörüler elde etmektir.
Örgütler için büyük veri ve kalın veri neden önemlidir?
En başta yapay zekâ teknolojilerinde büyük verinin önemini vurgulamak gerekir. Gelişmiş bilgisayar zekâsı da olarak da adlandırılan yapay zekâ büyük hacimli verilerden ve veri setlerinden öğrenerek daha iyi analizlerde ve çıkarımlarda bulunmaktadır. Bu yönüyle bakıldığında düşük hacimli veri setleri yapay zekâ çıkarımları açısından fonksiyonel ve istatistiksel açıdan güvenilir görülmemektedir. Dolayısıyla yapay zekâ ve büyük veri güvenilir analiz ve istatistiksel çıkarımlar açısından vazgeçilemez muhteşem ikilidir. Nitel araştırma yaklaşımlarından biri olan kalın veri ise büyük veriye daha çok içgörü sağlayarak derinlemesine analize imkân tanımaktadır. O zaman şöyle söyleyebiliriz; Etnografik bir yaklaşım olan kalın veri büyük veriyi, büyük veri ise yapay zekâyı besler. Yapay zekâ için en elzem girdi veridir. Veri yoksa yapay zekânın da öğrenebileceği bir girdi olmayacağından fonksiyonel olmayacaktır. Buradan şu yorumu da çıkarabiliriz: hızla artan dijitalleşme ve Web 3.0 ile birlikte kaliteli ve güvenilir veri hacmi artıkça yapay zekâ daha iyi öğreneceğinden daha iyi tahminlerde ve çıkarımlarda bulunacaktır. Ülke politikaları da dijitalleşme sürecine ve dijital dönüşüme büyük ivme kazandırarak büyük verinin üstel olarak artmasına büyük katkı sağlamaktadır. Şöyle ki, Almanya’nın 2011 yılında başlattığı 4. Sanayi Devrimi (Industry 4.0), Singapur’un 2014 yılında başlattığı Akıllı Ulus (Smart Nation) programı ve Japonya’nın 2015 yılında başlattığı Toplum 5.0 (Society 5.0) devrimi bu ülke politikalarına örnek verilebilir. Şahsen yapay zekâ ve büyük veri muhteşem ikilisine son zamanlarda öne çıkan kalın veriyi de ilave edersek muhteşem üçlüyü elde etmiş oluruz.
Başta verimlilik ve etkililik sağlayan büyük veri ve kalın verinin örgütlere sağladığı belli başlı avantajlar şöyledir (Almeida, 2017):
- Büyük veri analitikleriyle hem yapılandırılmış hem de yapılandırılmamış verinin yapay zekâ teknolojisiyle analizine imkân tanıyarak daha doğru tahminler elde edilebilmektedir.
- Artan dijitalleşme ve bulut bilişim sayesinde büyük veriye zaman ve mekândan bağımsız olarak ulaşılmasının yanında gerçek zamanlı analizlere olanak tanıması büyük veri kullanıcılarına ulaşılabilirlik açısından büyük avantaj sağlamaktadır.
- Yeni ürün ve hizmetlerin geliştirilmesine ve yeni iş modellerinin kurulmasına olanak tanımaktadır.
- Veriye dayalı pazarlama anlayışına, müşteri deneyimlerinin kişiselleştirilmesine, müşteri sadakatinin ve tatmininin artırılmasına büyük katkı sunmaktadır.
- Müşteri davranışının daha iyi anlaşılmasına ve müşteri davranışı hakkında derinlemesine içgörüler oluşturulmasına fırsat sunmuştur.
- Yatırım getiri oranları (ROIs)’nda artış sağlamaktadır.
- Girdi maliyetlerini azaltarak satış fiyatlarının daha etkili belirlenmesine katkı sunmaktadır.
Özetle, yapılan bu çalışmayla büyük veri ve kalın verinin tanımı, aralarında öne çıkan farklılıkların neler olduğundan bahsedilerek örgütler için neden önemli olduğu vurgulanmıştır. Anlatılanlar bütüncül bir yaklaşımla değerlendirildiğinde etnografik bir yaklaşım olan kalın verinin büyük veri için tamamlayıcı bir rol oynadığı, hem büyük verinin hem de kalın verinin yapay zekâ teknolojilerinin ayrılmaz bir parçası olduğu ve olması gerektiği anlaşılmalıdır. Dolayısıyla büyük veri ve kalın verinin içerisinde olduğu bir hibrit yaklaşım benimsenmelidir. Nitekim yapay zekânın ana girdisi ve yakıtı olan büyük veri ve kalın verinin örgütlerin yatırım planlama, yatırım kararı alma, ürün veya hizmet geliştirme ve pazarlamada, yönetim sistemlerinin iyileştirilmesinde, veriye dayalı makro ve mikro politikalar geliştirilmesinde etkinlik, etkililik ve verimlilik sağlamak için hayati derecede önemli olduğu unutulmamalıdır. Başta pazarlama olmak üzere küresel trendlerin de bu yönde olduğu görülmektedir. Benzetim yaparsak elinizde son model arabanız olsa da yakıt yoksa fonksiyonel anlamda arabanın pek bir değerinin olduğu söylenemez. İşte yapay zekâ ve onun alt dalları olan makine öğrenme ve derin öğrenme için de veri o denli bir öneme sahiptir. Artık dünyanın en değerli kaynağı petrol değil veridir.
Faydalı olması ve farkındalık oluşturması dileğiyle.
Bilimle ve teknolojiyle kalınız.
Tevfik Bulut
https://tevfikbulut.net/
Sosyal Araştırma Yöntemleri Bilim Uzmanı
& Sanayi ve Teknoloji Uzmanı
Not: Kaynak gösterilmeden alıntı yapılamaz veya kopyalanamaz.
Note: It can not be cited or copied without referencing.
Yararlanılan Kaynaklar
- Yuen Yuen Ang (2019). Integrating Big Data and Thick Data to Transform Public Services Delivery. IBM, http://www.businessofgovernment.org/report/integrating-big-data-and-thick-data-transform-public-services-delivery. Access Date: 9/10/2020.
- Dash, S., Shakyawar, S.K., Sharma, M. et al. Big data in healthcare: management, analysis and future prospects. J Big Data 6, 54 (2019). https://doi.org/10.1186/s40537-019-0217-0
- What is Digitalization? http://library.fes.de/pdf-files/bueros/ruanda/16158.pdf
- Alles, Michael & Vasarhelyi, Miklos. (2014). Thick data: adding context to big data to enhance auditability. International Journal of Auditing Technology. 2. 95. 10.1504/IJAUDIT.2014.066237.
- Fiaidhi and S. Mohammed, “Thick Data: A New Qualitative Analytics for Identifying Customer Insights,” in IT Professional, vol. 21, no. 3, pp. 4-13, 1 May-June 2019, doi: 10.1109/MITP.2019.2910982.
- KARTARI, Asker. Nitel Düşünce ve Etnografi: Etnografik Yönteme Düşünsel Bir Yaklaşım. Moment Dergi, [S.l.], v. 4, n. 1, jun. 2017. ISSN 2148-970X. Erişim Adresi: <http://www.momentdergi.org/index.php/momentdergi/article/view/236/437>. Erişim Tarihi: 09 Oct. 2020 doi:10.17572/mj2017.1.207220.
- Geertz, Clifford (1973) Thick Description: Toward an Interpretive Theory of Culture. In The Interpretation of Cultures: Selected Essays. pp 3–30. New York: Basic Books.
- Jørgensen, T. B., & Due, B. L. (2018). Big–Thick Blending: A method for mixing analytical insights from big and thick data sources. Big Data & Society.
- Hiba, Jasim & Hadi, Hiba & Hameed Shnain, Ammar & Hadishaheed, Sarah & Haji, Azizahbt. (2015). BIG DATA AND FIVE V’S CHARACTERISTICS. 2393-2835.
- Sreeja, A.K. Sangeetha “No science no humans, no new technologies no changes: “Big Data a Great Revolution”,” International Journal of Computer Science and Information Technologies, vol. 6, no. 4, 2015, pp. 3269-3274.
- Almeida, Fernando. (2017). Benefits, Challenges and Tools of Big Data Management. Journal of Systems Integration. 8. 12-20. 10.20470/jsi.v8i4.311.
- Naidoo, Loshini. (2012). Ethnography: An Introduction to Definition and Method. 10.5772/39248.
- https://tevfikbulut.com/2020/08/01/bulut-bilisim-nereye-evriliyor-where-is-cloud-computing-evolving-into/
- IDC FutureScape, Worldwide IT Industry 2019 Predictions, November 2018. https://www.idc.com/getdoc.jsp?containerId=US44403818.