Site Loader

Merhaba Arkadaşlar, Python Earth de bugün Veri Bilimi için İstatistik dersimizin istatistikte varyans, standart sapma, kovaryans ve korelasyon nedir nasıl hesaplanır Python kütüphaneleri numpy ve pandas ile göreceğiz. Keyifli okumalar.

Varyans Nedir?

Varyans, bir veri setinde verilerin nasıl dağıldığının ölçüsüdür. Düşük varyans, verilerin birbirileri ile daha uyumlu olduğunu gösterir. Varyans kısaca verilerin ortalamay olan uzaklığı verir.

Örneğin elimizde kişilerin boy uzunluğunu tutan iki liste var;

list1 = [140,180,210,190,220,170,180,200]
list2 = [180,185,189,195,178,187,186,194]

Bu iki listenin aritmetik ortalamalarına bakalım;

import numpy as np

#liste1 de aritmetik ortalama
np.mean(list1)
186.25

#liste2 de aritmetik ortalama
np.mean(list2)
186.75

 

Görüldüğü gibi iki listenin de aritmetik ortalamaları aynı ama dağılımları hakkında kesin birşey söyleyemeyiz bu yüzden varyanslarına bakmamız lazım. Aslında varyansa bakmadan önce başka bir yöntemle çok iyi olmasada açıklıklarına bakarak birşeyler söyleyebiliriz.

Açıklık = max – min

O zaman  hemen bakalım.

#liste1 de açıklık
quar_list1= max(list1) - min(list1)
quar_list1
80

#liste2 de açıklık
quar_list2= max(list2) - min(list2)
quar_list2
17

List1’in açıklık değeri list2’nin açıklık değerinden büyük olduğu için list1’deki veriler daha dağınıktır diyebiliriz. Açıklık değeri kesin birşey söylemez bize bu yüzden varyansa bakalım.

Varyans Nasıl Hesaplama

Varyans hesaplama verilerin tamamının ortlamadan çıkarılıp karalerinin alınıp toplanması ve eleman sayısına bölümüne eşittir.

Hemen numpy ile hesaplayalım.

#liste1'in varyansı
np.var(list1)
548.4375

#liste2'nin varyansı
np.var(list2)
31.4375

Görüldüğü gibi varyans hesaplaması sonucu list1 verilerin daha dağınık olduğunu gördük.

 

Standart Sapma Nedir?

Standart sapma varyan ile çok benzerdir.  Yine biz standart sapmaya bakarak verilerin dağılımını inceliyoruz. Fakat varyansta negatif ve pozitif değerleri eşitlemek için karlerini alıyoruz.  Bu yüzden birimlerde hataya sebep olur örneğin uzunluk metre iken bunu karesini aldığımız zaman aslında mertekare olur. Bu yüzden standart sapma hesaplanır. Yani standart sapma varyansın kareköküne eşittir.

Standart Sapma Hesaplama

Şimdi numpy ile hesaplayalım;

#liste1'in standart sapması
np.std(list1)
23.418742493993992

#liste2'nin standart sapması
np.std(list2)
5.606915373001451

 

Kovaryans Nedir?

Kovaryans kısaca iki değişken arasındaki ilişki gösterir. İki değişkenin ilişkili olup olmadığını öğrenmenin en basit yolu bu iki değişkenin birbirlerine göre değişimini gösteren kovaryans değerini hesaplamaktır. Örneğin boy ile kilo arasında ilişki göstermek için kovaryans kullanılabilir.

Kovaryans hesaplama :

Cov(x,y) < 0 ise değişkenler arasında zıt yönde ilişki var Cov(x,y) = 0 ise değikenler arasında ilişki yoktur. Cov(x,y) > 0 ise değişkenler arasında aynı yönde bir ilişki var.

Bide grafiklerlerle gösterelim.

• Fakat kovaryans kullanmadaki problem kovaryansın değişkenlerin birimine bağlı olmasıdır. Eğer iki değişken farklı birimler ile ölçülüyorsa (kg vs. km) bu durumda kovaryansın değerini yorumlamada zorluk yaşarız. Büyük ya da küçük olmasının ne anlama geldiğini söylemek zorlaşır. Ayrıca kovaryans değerleri bize ilişki değerlerini vermez sadece ilişki olup olmadığını ve ilişki türünü verir.

Python İle Hesaplama

import pandas as pd
df = pd.read_csv('Person_Gender_Height_Weight.csv')
df.sample(15)

#kovaryans hesaplama 
df = df.loc[:,['Height','Weight']]
df.cov()

import plotly.express as px
fig = px.scatter(df,x='Height', y='Weight')
fig.show()

Korelasyon Nedir?

Korelasyon kısaca iki değişkenin(olgunun) birbiri ile olan ilişkisini ve derecesini gösterir. Örneğin en basit ve anlaşılır olan örnek boy ile kilo arasında bir ilişkinin olup olmadığını ve nasıl bir ilişki olduğunu kovaryans ile bulabiliriz. Korelasyon ile bu iki ilişki arasındaki derece hesaplanır. Veya bir evin metrekaresi ile fiyatı arasında bir korelasyon vardır. Korelasyon katsayısı -1 ile 1 arasında değer alır eğer korelasyon katsayısı -1’ e yaklaşıyorsa negatif korelasyon, eğer 1’e yaklaşıyor ise pozitif korelasyon(ilişki) vardır. Bu ilişki kovaryans ile aynı zaten.

Korelasyon hesaplama:

Pay kısmı eminim dikkatinizi çekmiştir çünkü pay kısmı kovaryans formulü, payda kısmı ise standart hesaplamadan başka birşey değil. Yani yeni formülümüz kovaryans bölü değişkenlerin standart sapma çarpımları hemen formülü güncelleyelim.

Python İle Hesaplama

#Korelasyon hesaplama
df.corr()

 

Veri Bilimi için İstatistik serimizde bir yazının daha sonuna geldik. Eksik yada yanlış gördüğüz yerler için iletişime geçmekten çekinmeyin bir sonrakiyazımızda görüşmek üzere.

Post Author: Cahit ISLEYEN

Data Scientist at @embedica.ai

One Reply to “Veri Bilimi için İstatistik (Varyans, Standart Sapma, Kovaryans, Korelasyon)”

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir