Site Loader

Merhaba arkadaşlar,
Bu yazımızda veri bilimi yolcusunda olmazsa olmazlardan olan İstatistik ve Veri Okur Yazarlığı konusunu ele alacağız. Aslında bu yazı ile Veri Bilimi için İstatistik derdine giriş yapmış olucağız. Veri Bilimci olmak için İstatistik bilmek artık bir zorunluluk çünkü Veri Bilimi data import edip bir iki tane machine learning algoritması uygulamak değildir. Yaptığınız işin seviyesine göre İstatistik bilmeniz gerekir problem çözmek ve doğru çıktılar üretmek için.

Veri Okur Yazarlığı Nedir?

istatistik ve veri okur yazarlığı

Her türden verinin değişkenlerini ve ölçeklerini anlayabilme ve betimsel istatistik kullanarak veriyi görselleştirip  tanımlayabilme becerisine veri okur yazarlığı denir. Veri okur yazarlığı veriden anlam çıkarıp yorum yapmaktan ziyade veriyi anlamaktır. Veri anlamanın yolu ise İstatistik bilmektir. Madem Veri bilimci olmak için veriyi anlamak, veri analamak için ise İstatistik bilmek gerekiyor o zaman İstatistik öğrenmeye başlayalım.

İstatistik Nedir?

İstatistik, toplanan belirsiz verinin ölçülmesi, kontrol edilmesi, düzenlenmesi, analiz edilmesi, çözümlemelere dayalı sonuçların değerlendirilmesi ve yorumlanması işlemleri ile anlamlı bir bütün haline getirilmesi sonucunda tahmin yapmaya yönelik bir bilimdir. Yani kısacası;

İstatistik belirsiz veride ölçme kontrol etme ve tahmin etme yani veriden bilgi çıkarma sanatıdır.

İstatistik Türleri

İstatistiğin ne olduğunu öğrendik, şimdi istatistikl türlerine bakalım genel olarak istatistik iki  kategoriye ayrılır;

  • Betimsel İstatistik:
    Betimleyici yani tanımlayıcı verilerin toplanması, istatistiksel olarak derlenmesi, organize edilmesi, özetlenmesi, anlamlandırılması ve analiz edilmesi süreci ve veriye ‘ne, ne kadar, ortalama nedir, ilişki var mı’ gibi soruların sorulmasıdır. Örnek verecek olursak; Bir sınıfta kaş kişi var?, bu sınıfın yaş ortalaması nedir? gibi durumlar betimsel istatistiktir.Frekans Dağılımı, Merkezi Eğilim Ölçüleri ve Dağılım Ölçüleri başlıca betimsel istatistik alt başlıklarıdır.
  • Çıkarımsal İstatistik:
    Çıkarımsal yani Kestirimsel istatistik isminden de anlaşılacağı üzere bir çıkarım yapmayı amaclayan bir istatistik türüdür. Bir konuda çıkarım ya da tahminleme-kestirim yapmamız gerektiğinde ilgili tüm veriyi hem toplamak hem düzenlemek hemde üzerinde çalışmak zor olacağı için genele hitap edebilecek bir kısmını alırız ve onun üzerinde genel bir çıkarım yaparız. Örneğin seçim anketi yapılırken tüm ülke seçmenlerine anket yapılmaz her bölgeden belli şehirler ve belli yerde anket yapılır ve genel bir sonuç elde edilir bu bir çıkarımsa istatistik modelidir.

Popülasyon (population) ve Örneklem (sample)

Popülasyon (population)

Diğer bir adı ile Anakütle olan popülasyon bir konu için tüm örnek uzayıdır. Bir önceki örnekte bahsettiğimiz seçim örneğinde tüm seçmenlere popülasyon denir.

Örneklem (sample)

Bir konu için tüm popülasyonu temsil eden popülasyonun belli bir parçasıdır. Seçim örneğinde belli bölgelerden yapılan ankete katılan seçmen örneğidir. Örneklem elde ederken kafamıza göre veri seçemeyiz, belli kuralları vardır.

  1. Örneklem tüm popülasyonu temsil etmelidir.
  2. Örneklem rastgele seçilmelidir.
  3. Örneklem popülasyonun belli büyüklükte bir oranıdır. Örneğin 100 milyon bir ülkede sadece bin kişiye bakarak çıkarım yapamazsınız.
  4. En önemlisi örneklem çıkarırken yanlılıktan kaçınılması lazım. Bunu söylememin sebebi biz örneklemimizi basit rastgele yöntem ile oluşturduğumuzda düzgün bir örneklem oluşmayabilir. Örneklem çıkarma yöntemleri ile bunun önüne geçebiliriz.
    Basit Random Örnekleme: 50 şehirli ve 100 milyon nüfuslu bir ülkeden 1 milyon kişiyi almak. Burada karşılaşacağımız problem bazı şehirden diğerlerine göre çok fazla örnek alınmış olabilir. Buda doğru çıkarım yapmamıza engeldir.
    Tabakalı Random Örnekleme: Basit random örnekleme de karşılaştığımız problem için tabakalı rastgele örneklem oluşturulmalıdır. Örneğin 100 milyon nüfuslu ve 50 şehirden oluşan bir ülkede eğer 1 milyon örnek alacak isek her şehirden 1 milyon bölü 50 miktarında rastgele örnek alınır. Bu yöntem diğerine göre daha isabetli bir örneklem olur.
    Kümeleme Random Örnekleme: Tabakalı örnekleme de karşılaşacağımız sorun ise her şehirde aldığımız örneklerden cinsiyetler arasındaki eşitsizlik ihtimali. Bunun çözümü ise her şehirde örnekleme yapılırken şehri kadın erkek sayısının aynı oranda olabileceği şekilde kümelere ayırıp sonra şehirden örnekleme yapılmasıdır.

Not: Yanlılık gözeterek dağılan örneklemeler vardır. Burada amaç tüm popülasyonu ölçmek değildir. Örneğin Udemy de ders satın alırken bu dersi alanlar bunu da aldı önermesi çıkar. Bu bir yanlı örnekleme üzerine yapılan bir çalışmadır. Yani tüm kullanıcılar arasında sadece sizin ilgilendiğiniz dersi alanların başka neler aldığı üzerine çıkarım yapılmıştır.

Değişken ve Değişken Türleri

Değişken durumdan duruma göre farklılık gösteren özelliklere değişken denir. İstatistik temsil ettiği duruma göre farklı değişken türlerini içerir. Başlıca değişken türleri nitel, nicel, kategorik (süreksiz), numerik (sürekli), bağımlı ve bağımsızdır.

Nicel (Quantitative): Sayılar ile ifade edilebilen ve ölçülebilen değerlere Nicel değerlere denir. Örnek vericek olursak ağırlık, boy, mesafe. Forma numarası sayı ile ifade edilebiliyor olsada nicel değildir.

Nitel (Qualitative): Semboller veya sayılar ile ifade edilebilen ve ölçülemeyen değerlere Nitel değer denir. Örnek vericek olursak cinsiyet, başarı, medeni durum.

Sürekli (Continuous): Başlangıç noktası sıfır olmayan ve aralarında sürekli bir şekilde değer bulunduran değişkenlere sürenki continuous değerler denir. Sürekli değerler eksi değerlerde alabilirler. Örneğin hava sıcaklığı hem aralıklı hem eksi değerler alabilen bir değişkendir. Başka örnekler ise kilo, boy, yaş olabilir. Not: Sürekli değişkenler aynı zamanda nicel değişkenlerdir.

Kategorik (Categorical) – Süreksiz: Adındanda kolayca anlaşılacağı gibi aralarında bir bir süreklilik olmayan ve farklı kategorilere ayrılabilen değişkenlere kategorik değişkenler denir. Kategorik değişkenlere bariz bir örnek medeni durumdur. Not: Kategorik veriler aynı zamanda nitel değişkenlerdir.

Bağımlı (Dependent): Bir değişken eğer başka bir değişkene bağlı ise buna bağımlı değişken denir. Örneğin siz xs beden giyiyorsanız alacağınız bir tişört xs beden olmalıdır, burada tişört bedeni bağımlı değişkendir.

Bağımsız (Independent): Yukarıdaki örnekte bahsi geçen kişi beden boyutu ise bağımsız değişkendir. Not: Bir veride bağımlı olan bir değişken başka bir veride bağımsız değişken olabilir ya da tam tersi olabilir.

Ölçek Tüleri

Sınıflama (Nominal) Ölçeği: Sınıflama ölçeği değişkenin sayısal bir değer ifade etmediği daha .ok değişkenin bir sınıfa ya da gruba ait olduğunu belirttiği ölçek türüdür. Örneğin bir hisnin medeni durumu bir sınıfı ifade etmesede bekar ya da evli grubuna dahil olduğunu belirtir. Değerler arasında bir bağlantı bulunmaz.

Sıralama (Ordinal) Ölçeği: Sınıflama ölçeğinin tersine aralarında bir bağlantı bulunan ve sayıda ifade edebilen ölçek türüdür. Örneğin ders notu olan AA, BA, BB vb. Bir diğer örnek ise rütbe, aralarında sıra bağlantısı bulunan değişken türleridir.

Oran (Ratio) Ölçek: Değişkenin belli bir başlangıç noktasına göre eşit oranlara bölünebilenidir. Bu başlangıç noktası mutlak sıfırdır. Örnek vericek olursak uzunluk, ağırlık.

Eşit Aralık (Interval) Ölçek: Değişkenin belli bir başlangıç noktasına göre eşit aralıklara bölünebilenidir. Bu başlangıç noktası mutlak sıfır olmak zorunda değildir. Örneğin 10 metre ve 20 metre, 20 metre 10 metrenin tam iki katıdır ve üzerlerinde sorunsuz şekilde dört işlem yapılabilir.

Evet arkadaşlar bu yazımızda Veri Bilimi için İstatistik dersine İstatistik ve Veri Okur Yazarlığı konusu ie giriş yaptık. Bundan sonraki dersimizde Temel İstatistik Kavramları yani Merkezi Eğilim ve Dağılım Ölçüleri devam ediyor olucağız. Bir eksimiz ya da hatamız oldu ise lütfen bizimle yorumlarda paylaşın. Doğru bilgi herkesin hakkı.

İyi Çalışmalar Herkese…

Post Author: Ahmet ERDOĞAN

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir