Varyans, Kovaryans ve Standart Sapma Nedir? Örneklerle Açıklama

Bu yazımda istatistiğin temel kavramlarından varyans, kovaryans ve standart sapmadan bahsetmek istiyorum. Formal bir istatistik eğitimine sahip olmayan biri olarak bu kavramları anlamakta zorlanmıştım, şimdi de ne kadar anlıyorum o da ayrı bir konu. Böyle basit kavramlardan bahsetme amacım, benim gibi öğrenme güçlüğü çeken insanların konuyu örneklerle rahatça anlayabilmelerini sağlamak. Mesela bir seri diyeceğiz birazdan, seri denince insanların kafasında bir şey canlanmayabilir, bu yüzden örneklerle anlatmak ve seri kavramının örnekte nereye karşılık geldiğini söylemek eminin daha anlaşılır olacaktır. Ortalama ve dağılma ölçüleri nedir? konusuna hiç girmeyeceğim çünkü bu yazının amacı anlaşılır ve öz olarak varyans, kovaryans ve standart sapmayı açıklamak.

R ile basit bir veri seti yaratalım. Veri setimiz 30 öğrenciye ait matematik ve fizik notları olsun. R’ın gerekli fonksiyonları ile iki adet 30 elemanlı ders notlarını temsil edecek liste oluşturalım. Liste elemanlarının alacağı değerleri matematik için 40-100, fizik için 60-100 arasında sınırlayalım. Rastgelelik değerleri farklı olsun diye seed değerlerini değişik verelim.

set.seed(123) 
matematik = runif(30,40,100) 
set.seed(100) 
fizik = runif(30,60,100)

Listelerini dataframe yapalım.

df = data.frame(matematik,fizik)

Öğrencileri temsilen de 30 kişilik bir liste oluşturalım:

ogrenci= c('Ali','Ayşe','Aylin','Ahmet','Cemal','Muhittin','Beyza','Beril','Mehmet','Şaziye','Mehtap','Satılmış','Recep','Şaban','Melis','Buket','Hacer','Nilay','Burcu','Bahadır','Birol','Uğur','Muharrem','Fuat','Makbule','Gülay','Derya','Yusuf','Timur','Serap')

Öğrenci isimlerini notlarımızdan oluşturduğumuz dataframe (df) satır ismi (row.names) olarak ekleyelim

row.names(df) <- ogrenci

Bakalım veri setimiz ne hale geldi:

View(df)

Şimdi 30 öğrencinin iki ayrı derse ait notlarını kullanarak kavramlarımızı açıklayalım. Öncelikle dataframe kısa özetini alalım:

summary(df)
matematik            fizik
Min. :42.52          Min. :62.26
1st Qu.:60.89        1st Qu.:72.81
Median :75.00        Median :80.39

Mean :74.34          Mean :79.81

3rd Qu.:91.56        3rd Qu.:87.40
Max. :99.66          Max. :95.29

Burada bizi ilgilendiren en temel değer, aritmetik ortalama, Mean, değeridir. Bu değer bildiğimiz gibi bir dersin notlarının toplamının o dersten notu olan öğrenci sayısına (30) bölümüyle elde edilir.

Standart sapma nedir? Verilerin (notların) aritmetik ortalamadan sapmalarının karelerinin aritmetik ortalamasının kare köküdür.
Standart sapmanın formülü :

    \[ sigma\quad =\sqrt { \cfrac { \sum { ({ X }_{ i }-{ \mu }_{ x })\overset { 2 }{ } } }{ n } } \]

σ : standart sapma

Xi: i inci öğrencinin notu

μ: ilgili dersin aritmetik ortalaması

n: öğrenci sayısı

Standart sapmanın genel ifadesi:

    \[ standart\quad sapma\quad =\sqrt { \cfrac { Notlarin\quad  \\ \quad ortalamadan\quad farklarinin\quad karelerinin\quad toplami }{ Ogrenci\quad sayisi } } \]

İfadeyi örneğimize göre somutlaştıralım:

    \[ standart\quad sapma\quad =\sqrt { \cfrac { ({ Ali-ortalama) }^{ 2 }+{ (Ayse-ortalama) }^{ 2 }+.... }{ Ogrenci\quad sayisi\quad olan\quad 30 } } \]

    \[ { standart\quad sapma }_{ Matematik }\quad =\sqrt { \cfrac { ({ 57.25-74.34) }^{ 2 }+{ (87.29-74.34) }^{ 2 }+.... }{ 30 } } \]

Matematik için standart sapma 17.48,  fizik için 9.08

R ile hemen basitçe hesaplayalım:

> sd(df$matematik)
[1] 17.48174
> sd(df$fizik)
[1] 9.087007

Standart sapmada kareyi her bir notun ortalamadan farkını bulduktan sonra farkını almamızın sebebi eksi değerleri düzeltmektir. Aslında notların aritmetik ortalamadan farklarının toplamı sıfırdır. Bunu önlemek için eksi değerleri artı yapacak kare alma işlemi yapılıyor.

Varyans nedir? Varyans, verilerin aritmetik ortalamadan sapmalarının karelerinin toplamıdır. Yani standart sapmanın karekök alınmamış halidir.

    \[ { s }^{ 2 }={ \cfrac { \sum { ({ X }_{ i }-{ \mu }_{ x } )\overset { 2 }{ } } }{ n } } \]

    \[ varyans\quad = \quad{ \cfrac { Bir\quad ders\quad icin\quad her\quad bir\quad ogrenciye\quad ait\quad notun\quad \\ grup\quad ortalamasindan\quad farklarinin\quad karelerinin\quad toplami }{ Ogrenci\quad sayisi } } \]

Peki biz niye durduk yerde standart sapma ve varyans gibi değerlerden bahsediyoruz. Ortalamalar bize bir seriyi temsil edebilecek değerlerdir. Yani bu sınıfın Matematik başarısı hakkında bir fikir edinmek istiyorsak ortalamaya bakarız. Örneğimizde 74.34, ha iyiymiş deriz. Peki ortalama tek başına bu sınıfın başarısı hakkında kanaat edinmemizi sağlayabilir mi? Şöyle düşünelim aynı sınıftan başka bir şube olsun ve onun da ortalaması aynı olsun ancak bu sınıfın notları 30-40 ve 85-95 arasında olsun ve aralarda hiç not olmasın ancak ortalama 74.34 olsun. Şimdi bu iki sınıfın başarısı aynıdır diyebilir miyiz? Tabi ki hayır. İşte standart sapma ve varyans bu noktada ortalamaya ilave olarak bize sınıf başarısı hakkında kanaat edinmemizi sağlıyor. Bir sınıfta notlar ortalamaya yakın dağılmışken (standart sapma ve varyans düşük), diğer sınıfta ortalamadan çok uzaklara (standart sapma ve varyans büyük) dağılmış.

Kovaryans nedir? Kovaryans iki değişken arasındaki doğrusal ilişkinin değişkenliğini ölçen bir kavramdır. Başka bir tabirle, iki farklı serinin (örneğimizde seri matematik dersine ait 30 adet not ve fizik dersine ait 30 adet nottur, ya da tablo mantığı ile matematik ve fizik sütunlarını birer seri olarak düşünebiliriz) varyansıdır. Yani iki serinin dağılımının benzerliğini analiz ettiğimiz bir ölçüttür.

Kovaryans formülü:

    \[ { \sigma }_{ xy }\quad =\frac { 1 }{ N } { \sum _{ i=1 }^{ N }{ (({ X }_{ i }-{ \mu }_{ x }){ * } } }(Y_{ i }-{ \mu }_{ y })) \]

    \[ { \sigma }_{ mat,fiz }=\frac { 1 }{ 30 } { { (({ mat }_{ Ahmet }-{ ort }_{ mat }){ * } } }(fiz_{ Ahmet }-{ ort }_{ fiz }) +...) \]

R kodu ile kovaryans hesaplayalım:

> cov(df$matematik,df$fizik)
[1] 16.52833

Hoşçakalın…

Varyans, Kovaryans ve Standart Sapma Nedir? Örneklerle Açıklama” için 13 yorum

  • 19 Haziran 2018 tarihinde, saat 17:03
    Permalink

    Muhteşem bir anlatım olmuş, çok teşekkür ederim.

    Yanıtla
    • 11 Temmuz 2018 tarihinde, saat 07:08
      Permalink

      Çok teşekkür ederim.

      Yanıtla
  • 14 Temmuz 2018 tarihinde, saat 03:24
    Permalink

    Çok güzel anlatmışsınız.

    Yanıtla
    • 17 Temmuz 2018 tarihinde, saat 21:26
      Permalink

      Çok teşekkür ederim.

      Yanıtla
  • 17 Eylül 2018 tarihinde, saat 15:51
    Permalink

    Elinize sağlık, temiz anlatmışsınız.

    Yanıtla
  • 9 Ekim 2018 tarihinde, saat 09:02
    Permalink

    konuyu harika ozetlemissiniz. ingilizce kaynaklarin coguna baktim, bu kadar temiz anlatan yok. elinize emeginize saglik

    Yanıtla
  • 5 Kasım 2018 tarihinde, saat 22:27
    Permalink

    güzel anlatım hocam teşekkür ederim.

    Yanıtla
  • 7 Aralık 2018 tarihinde, saat 22:44
    Permalink

    Somutlaştırma işe yaradı, duygudaşlığınız için de ayrıca çok teşekkürler. Emeklerinize sağlık, sağ olun.

    Yanıtla
  • 30 Ocak 2019 tarihinde, saat 04:59
    Permalink

    Kısa net ve harika teşekkürler

    Yanıtla
    • 2 Nisan 2019 tarihinde, saat 23:23
      Permalink

      Çok teşekkürler.

      Yanıtla
  • 12 Nisan 2019 tarihinde, saat 17:21
    Permalink

    Sözün güzelligi kisaligindadir demiş atalarımız
    Tek kelimeyle muhteşem sağol kardeş varol

    Yanıtla
    • 14 Nisan 2019 tarihinde, saat 22:08
      Permalink

      Rica ederim. Güzel yorumunuz için teşekkürler…

      Yanıtla

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir