
Merhaba Arkadaşlar, Python Earth de bugün Veri Bilimi için İstatistik dersimizin istatistikte varyans, standart sapma, kovaryans ve korelasyon nedir nasıl hesaplanır Python kütüphaneleri numpy ve pandas ile göreceğiz. Keyifli okumalar.
Varyans Nedir?
Varyans, bir veri setinde verilerin nasıl dağıldığının ölçüsüdür. Düşük varyans, verilerin birbirileri ile daha uyumlu olduğunu gösterir. Varyans kısaca verilerin ortalamay olan uzaklığı verir.
Örneğin elimizde kişilerin boy uzunluğunu tutan iki liste var;
list1 = [140,180,210,190,220,170,180,200] list2 = [180,185,189,195,178,187,186,194]
Bu iki listenin aritmetik ortalamalarına bakalım;
import numpy as np #liste1 de aritmetik ortalama np.mean(list1) 186.25 #liste2 de aritmetik ortalama np.mean(list2) 186.75
Görüldüğü gibi iki listenin de aritmetik ortalamaları aynı ama dağılımları hakkında kesin birşey söyleyemeyiz bu yüzden varyanslarına bakmamız lazım. Aslında varyansa bakmadan önce başka bir yöntemle çok iyi olmasada açıklıklarına bakarak birşeyler söyleyebiliriz.
Açıklık = max – min
O zaman hemen bakalım.
#liste1 de açıklık quar_list1= max(list1) - min(list1) quar_list1 80 #liste2 de açıklık quar_list2= max(list2) - min(list2) quar_list2 17
List1’in açıklık değeri list2’nin açıklık değerinden büyük olduğu için list1’deki veriler daha dağınıktır diyebiliriz. Açıklık değeri kesin birşey söylemez bize bu yüzden varyansa bakalım.
Varyans Nasıl Hesaplama
Varyans hesaplama verilerin tamamının ortlamadan çıkarılıp karalerinin alınıp toplanması ve eleman sayısına bölümüne eşittir.
Hemen numpy ile hesaplayalım.
#liste1'in varyansı np.var(list1) 548.4375 #liste2'nin varyansı np.var(list2) 31.4375
Görüldüğü gibi varyans hesaplaması sonucu list1 verilerin daha dağınık olduğunu gördük.
Standart Sapma Nedir?
Standart sapma varyan ile çok benzerdir. Yine biz standart sapmaya bakarak verilerin dağılımını inceliyoruz. Fakat varyansta negatif ve pozitif değerleri eşitlemek için karlerini alıyoruz. Bu yüzden birimlerde hataya sebep olur örneğin uzunluk metre iken bunu karesini aldığımız zaman aslında mertekare olur. Bu yüzden standart sapma hesaplanır. Yani standart sapma varyansın kareköküne eşittir.
Standart Sapma Hesaplama
Şimdi numpy ile hesaplayalım;
#liste1'in standart sapması np.std(list1) 23.418742493993992 #liste2'nin standart sapması np.std(list2) 5.606915373001451
Kovaryans Nedir?
Kovaryans kısaca iki değişken arasındaki ilişki gösterir. İki değişkenin ilişkili olup olmadığını öğrenmenin en basit yolu bu iki değişkenin birbirlerine göre değişimini gösteren kovaryans değerini hesaplamaktır. Örneğin boy ile kilo arasında ilişki göstermek için kovaryans kullanılabilir.
Kovaryans hesaplama :
Cov(x,y) < 0 ise değişkenler arasında zıt yönde ilişki var Cov(x,y) = 0 ise değikenler arasında ilişki yoktur. Cov(x,y) > 0 ise değişkenler arasında aynı yönde bir ilişki var.
Bide grafiklerlerle gösterelim.
• Fakat kovaryans kullanmadaki problem kovaryansın değişkenlerin birimine bağlı olmasıdır. Eğer iki değişken farklı birimler ile ölçülüyorsa (kg vs. km) bu durumda kovaryansın değerini yorumlamada zorluk yaşarız. Büyük ya da küçük olmasının ne anlama geldiğini söylemek zorlaşır. Ayrıca kovaryans değerleri bize ilişki değerlerini vermez sadece ilişki olup olmadığını ve ilişki türünü verir.
Python İle Hesaplama
import pandas as pd df = pd.read_csv('Person_Gender_Height_Weight.csv') df.sample(15)
#kovaryans hesaplama df = df.loc[:,['Height','Weight']] df.cov()
import plotly.express as px fig = px.scatter(df,x='Height', y='Weight') fig.show()
Korelasyon Nedir?
Korelasyon kısaca iki değişkenin(olgunun) birbiri ile olan ilişkisini ve derecesini gösterir. Örneğin en basit ve anlaşılır olan örnek boy ile kilo arasında bir ilişkinin olup olmadığını ve nasıl bir ilişki olduğunu kovaryans ile bulabiliriz. Korelasyon ile bu iki ilişki arasındaki derece hesaplanır. Veya bir evin metrekaresi ile fiyatı arasında bir korelasyon vardır. Korelasyon katsayısı -1 ile 1 arasında değer alır eğer korelasyon katsayısı -1’ e yaklaşıyorsa negatif korelasyon, eğer 1’e yaklaşıyor ise pozitif korelasyon(ilişki) vardır. Bu ilişki kovaryans ile aynı zaten.
Korelasyon hesaplama:
Pay kısmı eminim dikkatinizi çekmiştir çünkü pay kısmı kovaryans formulü, payda kısmı ise standart hesaplamadan başka birşey değil. Yani yeni formülümüz kovaryans bölü değişkenlerin standart sapma çarpımları hemen formülü güncelleyelim.
Python İle Hesaplama
#Korelasyon hesaplama df.corr()
Veri Bilimi için İstatistik serimizde bir yazının daha sonuna geldik. Eksik yada yanlış gördüğüz yerler için iletişime geçmekten çekinmeyin bir sonrakiyazımızda görüşmek üzere.
One Reply to “Veri Bilimi için İstatistik (Varyans, Standart Sapma, Kovaryans, Korelasyon)”