Veri Analizi Okulu — Temel İstatistik
Verinin ve Veri Analizinin Yapısal Dönüşümü
Bir Yetenek Avcısı olarak yıllardır insanlarla ve onların hikayeleriyle çalışıyorum. Son zamanlarda fark ettim ki her hikayenin bir de sayısal dili var. Hangi aday hangi süreçte daha başarılı oluyor, hangi pozisyonlar daha çok başvuru çekiyor, hangi yetenekler şirket için gerçekten fark yaratıyor… Bunların cevabı yalnızca sezgiyle değil, verilerle ortaya çıkıyor.
Bu merakla kendime yeni bir yol çizdim: istatistik ve veri okuryazarlığı… Çünkü işe alımın geleceği, insanın hisleri kadar veriye dayalı içgörülerde de gizli. Ve işte bu yolculukta öğrendiklerimi sizlerle paylaşmak istiyorum; çünkü istatistik, yalnızca akademisyenlerin değil, insanla çalışan herkesin anlaması gereken bir disiplin.
Bu merakla, Yükseköğretim Kurulu’nun desteğiyle Marmara Üniversitesi Nüfus ve Sosyal Araştırmalar Enstitüsü koordinasyonunda; ODTÜ, İTÜ ve Boğaziçi Üniversitesi’nin katkılarıyla yürütülen Veri Analizi Okuluna başvurdum. Bu okulun amacı; nitelikli insan kaynağı yetiştirmek, araştırma ekosistemini güçlendirmek ve veri analizi, istatistik, yapay zekâ gibi alanlarda teoriyi pratikle buluşturarak Türkiye’nin bilimsel üretkenliğine katkı sağlamak.
Programa 135.000 kişi başvurmuş ve 50.000 kişi seçilmiş. Ben altı uygulamalı modülden biri olan Temel İstatistik modülüne kabul edildim. Bu modül, bilimsel düşünmeyi ve veri temelli kararlar almayı öğretiyor.
Ve ben bu eğitimde öğrendiklerimi sadece kendi işime değil, sizlere de taşımak istiyorum. Bundan sonra ders notlarım, örnekler ve kendi yorumlarımla istatistiği birlikte keşfedeceğiz.
Hazırsanız başlayalım.
İstatistik Nedir?
İstatistik (Statistics), verilerin toplanması, düzenlenmesi, çözümlenmesi, yorumlanması ve sunulması ile ilgilenen bir disiplindir. Temelde belirsizlik altında akılcı karar vermeyi ve karmaşık olayları bilimsel olarak anlamayı amaçlar. İstatistik üç ana açıdan incelenebilir. Bunlar:
- Bir Bilgi Türü Olarak İstatistik: Toplanan veriler aracılığıyla toplumsal, ekonomik ve doğal olgular hakkında bilgi edinmemizi sağlar. Örneğin: Bir ülkenin işsizlik oranı ya da bir okulun mezun başarı oranı gibi veriler, istatistiksel bilgi örnekleridir.
- Bir Yöntem Olarak İstatistik: Sınırlı gözlemlerden (örneklem) hareketle daha geniş bir kitle (popülasyon) hakkında çıkarım yapmamızı sağlayan yöntemler bütünüdür. Örneğin: Bir ankette 1000 kişiyle yapılan araştırmadan, ülke genelindeki seçmen eğilimlerini tahmin etmek.
- Bir Bilim Dalı Olarak İstatistik: Bu bilgi ve yöntemleri sistematik biçimde bütünleştirerek, veri analizine dair teoriler, modeller ve uygulamalar geliştiren bağımsız bir bilim alanıdır. Örneğin: Regresyon analizi, hipotez testleri veya olasılık teorisi üzerine çalışan akademik istatistik.
Veri Bilimi Nedir?
Veri bilimi (Data Science), büyük ve çeşitli (yapılandırılmış ve yapılandırılmamış) veri kümelerinden anlamlı bilgi, içgörü ve öngörüler üretmek için istatistik, bilgisayar bilimi (özellikle programlama, algoritmalar) ve yapay zekâ yöntemlerini (makine öğrenmesi, derin öğrenme) bütünleştiren disiplinler arası bir alandır. Temel amacı, veriye dayalı kararlar almayı ve geleceğe yönelik tahminlerde bulunmayı sağlamaktır.
Veri Nedir?
Veri (Data), kategorik olarak tanımlanabilir her şey ve durumun, genellikle sayı cinsinden temsil edilmiş özellikleridir. İstatistik ve bilgisayar biliminin temel konusu olan sayının arkasında ise mantıksal bir temel yatar.
Sayı Nedir?
Sayı, temelde ikili mantığa dayanır. Bu, Çelişmezlik İlkesi (Law of Non-Contradiction) ile açıklanır:
Bir şey ya 0 (False / Yanlış)’tır ya da 1 (True / Doğru)’dur.
Bir ifade veya durum aynı anda hem doğru hem de yanlış olamaz.
Bu ikili (binary) yapı, bilgisayar biliminin ve dolayısıyla verinin sayısal temsilinin mantıksal temelini oluşturur.
Kategorik olarak tanımlanabilir her şey ve durum, saymanın ve dolayısıyla istatistiğin konusu olabilir.
Bilgisayarların Mantıksal Yapısı
Veri bilimi ile bilgisayarların (makinenin) dili birbirine çok benzer. Saymanın ve istatistiğin konusu olan her şeyin bilgisayarlarda işlenip analiz edilmesi mümkündür çünkü bilgisayarların temel yapısı da ikili sayı sistemine (Binary System) yani 0 vs. 1 kurgusuna dayanır. Bu sistemde, harfler ve semboller dahi (örneğin B, A, S, A, K) 1 ve 0'larla gösterilir. Bilgisayarların temelinde sadece iki durum vardır: açık (1) veya kapalı (0). Bu bir ampulün yanması ya da sönmesi kadar basit bir prensiptir. Bu 0 ve 1'lere “bit” denir. 8 bit bir araya geldiğinde bir “bayt” oluşturur. Bir bayt, bir harfi, sayıyı veya sembolü temsil edebilir.
Programlama Dilleri: Bilgisayarlar, temel yapıdaki 1'ler ve 0'larla (Düşük Seviye — Low Level) çalışırken, daha hızlı işlem yapabilmek ve insan diline daha yakın olmak için Yüksek Seviyeli (High Level) Programlama Dilleri (örn. Python, R, Java) geliştirilmiştir. Bu diller, daha az komutla, daha soyut ve karmaşık işlemlerin yapılmasını sağlar.
Kuantum Bilgisayarlar: Geleneksel bilgisayarların aksine, kuantum bilgisayarlar aynı anda hem 1 hem 0 olma durumu (süperpozisyon) ile çalışarak bilgiyi saklar ve işlerler. Bu, işlem hızını ve problem çözme kapasitesini katlanarak artırma potansiyeli taşır. Ancak, bilginin bilgisayara sunulması ve nihai olarak çıkarılması, genellikle yine 1 vs. 0 şeklinde ikili sistem üzerinden olur.
Veri Toplama ve Düzenlemenin Tarihsel Dönüşümü
Tarihsel olarak veri, yapılandırılmamış halden (karmaşık, rasgele yazılmış, her şeyin bir arada olduğu) yapılandırılmış hale gelmiştir.
Yapılandırılmamış Veri (Unstructured Data): Bu veri türü, önceden tanımlanmış bir veri modeline veya organizasyona sahip değildir. Metin belgeleri (e-postalar, sosyal medya gönderileri, word dosyaları), ses kayıtları, videolar, fotoğraflar ve sensör verileri gibi formatlar bu kategoriye girer. Günümüzde üretilen verinin %80'den fazlasının yapılandırılmamış olduğu tahmin edilmektedir. Geleneksel veri tabanlarına doğrudan depolanması zordur ve özel analiz araçları gerektirir.
Yarı Yapılandırılmış Veri (Semi-structured Data): Yapılandırılmış verinin katı şemasına sahip olmasa da veriyi organize eden bazı etiketler veya diğer işaretleyiciler içerir. Bu işaretleyiciler, veriyi hiyerarşik olarak gruplandırır ve analizini kolaylaştırır. XML (Extensible Markup Language), JSON (JavaScript Object Notation), CSV (virgülle ayrılmış değerler — bazen) ve e-postalar bu kategoriye en iyi örneklerdir. Web servisleri ve API’ler genellikle JSON veya XML formatında veri alışverişi yapar.
Yapılandırılmış Veri (Structured Data) : Önceden tanımlanmış bir modele veya şemaya uygun olarak düzenlenmiş veridir. İlişkisel veri tabanlarında (SQL veritabanları) bulunan tablolar (satırlar ve sütunlar) en yaygın örneğidir. Her sütunun belirli bir veri türü (sayı, metin, tarih vb.) vardır ve her satır belirli bir varlığın kaydını temsil eder. Bu tür verilerin aranması, filtrelenmesi ve analiz edilmesi nispeten kolaydır.
Modern İstatistiğin Yükselişi
Modern istatistiğin yükselişi devletlerin yönetim, ekonomi ve nüfus üzerindeki artan kontrol ve bilgi ihtiyacından doğrudan etkilenmiştir. Toplumlar ve devletler öncelikle kaynaklarını (tarımsal ürünler, hayvan varlığı) ve insan gücünü (nüfus) sayma ve kaydetme gereksinimi duymuştur. Bu “sayma ihtiyacı”, verinin sistemli bir şekilde toplanması, özetlenmesi ve yorumlanması gibi istatistiksel pratiklerin temelini atmıştır.
Literatürde modern istatistik, genellikle 17. yüzyıl İngiltere’sindeki “Politik Aritmetikçiler” (Political Arithmeticians) ve 19. yüzyıl sonları ile 20. yüzyıl başlarındaki matematiksel istatistikçilerin çalışmalarıyla ilişkilendirilir.
Başlangıçta istatistik, yalnızca betimleyici (descriptive) bir araç olarak kullanılmıştır; yani, mevcut veriyi özetlemek ve tanımlamakla yetinmiştir (ortalama, medyan, mod, standart sapma gibi). Ancak 19. yüzyılın sonları ve 20. yüzyılın başlarında, Karl Pearson, Ronald Fisher, Jerzy Neyman ve Egon Pearson gibi isimlerin öncülüğünde, istatistik çıkarımsal (inferential) bir disipline dönüşmüştür. Bu evrimle birlikte, istatistikçiler örneklemlerden elde edilen veriyi kullanarak daha geniş popülasyonlar hakkında genellemeler yapmaya başlamışlardır.
Big Data ve Hesaplamalı Sosyal Bilimler
Eskiden veri toplamak zordu ve elle sayma/toplulaştırma yapılıyordu. Bilgisayarlarla sayma işlemleri çok hızlandı. Ayrıca artık insanlar tarafından toplanan verilerin yanı sıra internette bırakılan dijital izler (alışveriş izleri, sosyal medya etkileşimleri, sensör verileri gibi) Big Data olarak adlandırılan devasa ve karmaşık veri kümelerini oluşturmaya başladı. Bu durum, sosyal bilimler ve istatistik yöntemlerinin bilgisayar bilimi ile birleştiği Hesaplamalı Sosyal Bilimler alanının ortaya çıkmasına neden olmuştur.
Veri Bilimi
Veri bilimi, Yapay Zeka (Artificial Intelligence — AI) ekosisteminin temel bileşenleri olan Makine Öğrenmesi (Machine Learning — ML) ve Derin Öğrenme (Deep Learning — DL) alanlarıyla iç içedir ve bu teknikleri kullanarak veriden anlamlı öngörüler çıkarır.
- Yapay Zekâ (AI): En geniş kapsamlı alandır. Bilgisayar sistemlerinin, genellikle insan zekâsıyla ilişkilendirilen görevleri (düşünme, öğrenme, problem çözme, karar verme) taklit etmesini sağlayan teknikleri ifade eder. AI’nın amacı, makinelerin mantık yürütmesini, örüntüleri tanımasını ve deneyimlerden öğrenmesini sağlayarak çevreleriyle etkileşime girmesini ve akıllı kararlar vermesini sağlamaktır.
- Makine Öğrenmesi (ML): Makine Öğrenmesi, Yapay Zeka’nın bir alt kümesidir. Makinelerin, açıkça programlanmadan (yani her senaryo için tek tek kod yazılmadan) verilerden öğrenme yeteneği kazanmasını sağlayan yöntemler ve algoritmalar geliştirme bilimidir. Sistem, verilen verilerdeki (örneğin, farklı el yazısı örnekleri) örüntüleri bularak eğitilir. ML algoritmaları, büyük veri setlerini analiz ederek örüntüleri (ilişkileri, trendleri) keşfeder ve bu örüntülerden yola çıkarak yeni veriler hakkında tahminler veya kararlar verir. Öğrenme süreci, algoritmaların performanslarını sürekli olarak iyileştirmelerini sağlar.
ben robot değilim ama onları eğitiyorum 🙂
Derin Öğrenme (DL): Derin Öğrenme, Makine Öğrenmesi’nin bir alt kümesidir ve Yapay Zeka’nın da bir parçasıdır. Özellikle çok katmanlı yapay sinir ağları (Artificial Neural Networks — ANN) kullanarak çalışır. Bu ağlar, insan beynindeki nöronların çalışma prensibinden esinlenerek tasarlanmıştır ve veriyi katman katman işleyerek daha soyut ve karmaşık örüntüleri otomatik olarak öğrenir. Geleneksel ML’den farkı, veriden özellik çıkarma (feature extraction) sürecini genellikle insan müdahalesi olmadan, kendi başına yapabilmesidir.
Geniş Dil Modelleri (LLMs): LLMs (örneğin ChatGPT gibi chatbotlar), yapay zekanın en derin katmanlarında yer alan Derin Öğrenme modelleridir. Bu modeller, trilyonlarca kelime ve metin verisi üzerinde devasa bir sinir ağı eğitilerek dildeki istatistiksel örüntüleri (kalıpları), dilbilgisi kurallarını ve anlamsal ilişkileri öğrenir. Bu istatistiksel öğrenme sayesinde, insan dilini anlama ve üretme gibi karmaşık dil işleme görevlerini yerine getirirler.
Bu haftalık bu kadar…
Haftaya yine öğrendiklerimi sizinle paylaşmak için burada olacağım 🙂
Veri Analizi Okulu — Temel İstatistik was originally published in Türkçe Yayın on Medium, where people are continuing the conversation by highlighting and responding to this story.