# AST416 Astronomide Sayısal Çözümleme - II #
## Ders - 02a Temel İstatistiki Kavramlar ve Dağılımlar ##

Doç. Dr. Özgür Baştürk <br>
Ankara Üniversitesi, Astronomi ve Uzay Bilimleri Bölümü <br>
obasturk at ankara.edu.tr <br>
http://ozgur.astrotux.org

# Bu derste neler öğreneceksiniz?#
## Dağılımlar ##

* [Dağılımlar](#Dağılımlar)
    * [Sıklık Dağılımı](#Sıklık-Dağılımı)
    * [Olasılık Dağılımları](#Olasılık-Dağılımları)
        * [Olasıık Kütle Fonksiyonu](#Olasıık-Kütle-Fonksiyonu)
        * [Olasılık Yoğunluğu Fonksiyonu](#Olasılık-Yoğunluğu-Fonksiyonu)
    * [Kümülatif ya da Birikimli Dağılım Fonksiyonu](#Kümülatif-ya-da-Birikimli-Dağılım-Fonksiyonu)
* [Bir Dağılım Foksiyonunun Elemanları](#Bir-Dağılım-Foksiyonunun-Elemanları)
    * [Ortalama Değer / Beklenen Değer](#Ortalama-Değer-/-Beklenen-Değer)
    * [Standart Sapma ve Varyans](#Standart-Sapma-ve-Varyans)
    * [Diğer Merkezi Eğilim Ölçütleri](#Diğer-Merkezi-Eğilim-Ölçütleri)
* [Örnek Dağılım ve Ana Dağılım](#Örnek-Dağılım-ve-Ana-Dağılım)
* [Kaynaklar](#Kaynaklar)

# Dağılımlar #

Olasılık teorisi terminolojisi yerleşmiş olmakla birlikte aynı şeyi ifade eden pek çok kavram bir arada, birbirlerinin yerine ve hatta bazen yanlış şekilde kullanılabilmektedir. Temelde <b>dağılım</b> (ing. distribution) bir veri setinin (bir örnek ya da onun seçildiği popülasyon) aldığı ya da alabileceği tüm olası değerleri ve bu değerlerin ne sıklıkta ya da hangi olasılıkla gerçekleştiğini gösteren fonskiyon, grafik, tablo ya da listedir. Aşağıda istatistiksel bir dağılımı ifade etmek üzere literatürde sıkça kullanılan kavramlara örnekler verilmiştir.

## Sıklık Dağılımı ##

<i>Sıklık ya da frekans dağılımları (frequency distribution)</i> Bir örnek grubunda (örneğin bir dizi ölçümde) her bir sonucun (ölçümün) kaç kez gerçekleştiğini ya da tekrarlandığını gösterir. Genellikle bir tablo ya da histogramla ifade edilir. Aşağıda bir grup öğrencinin bir derste aldığı notların yer aldığı virgülle ayrılmış salt metin formatında (<i>csv</i>) bir dosya üzerinden hazırlanmış bir histogram örneği yer almaktadır. `pandas` gibi veri analizini kolaylaştıran paketlerin histogram gibi çok kullanılan grafikleri çizdirmek için fonksiyonları bulunamktadır. Öncelikle veriyi pandas fonksiyonları ile açıp, inceleyelim ve histogramını `dataframe.hist` metodunu kullanarak çizdirelim.

In [None]:
import pandas as pd
# Veriyi bir csv dosyasindan bir vericercevesine alalim
notlar = pd.read_csv("ders_notlar_sonuc.csv", index_col="ad")
# Biraz inceleyelim.
notlar.head()

In [None]:
# genel istatistiklere bakalim.
notlar.describe()

Öncelikle sayısal veri içeren (nümerik) sütunlara ilişkin istatistiklerin verildiğini görüyoruz. Ancak öğrencilerin durumuna ilişkin sütunlarla ilgili de istatistiksel bilgi alabiiriz.

In [None]:
notlar['durum'].describe()

Görüldüğü üzere toplam 37 kayıtta durum bilgisi bulunurken, 12 adet benzersiz <i>durum</i> verisi bulunmaktadır. En çok durum verisi <i>A</i> harfi için oluşmuş olup, bunun sıklığı 8'dir. Sıklık dağılımına ilişkin asıl veri `value_counts` metoduyla alınabilir.

In [None]:
notlar['durum'].value_counts()

Bu veriyi bir histogram şeklinde çizdirmek için `plot` metodunun `bar` opsiyonunu kullanabiliriz. Bu veri kategorik bir veri olduğu (nümerik değer taşımadığı) için pandas veriçerçeveleri üzerinde tanımlı `hist` metodunu kullanamıyoruz.

In [None]:
%matplotlib inline
notlar.sort_values('durum')['durum'].value_counts().plot(kind='bar')

Sayısal verilerin histogramını çizdirmek için ise `hist` metodu kullanılabilir. `bins` seçeneği, histogramda istenen grup (dikdörtgen) sayısını vermek için kullanılır.

In [None]:
# Genel ortalamanin basit bir histogrami
# pandas'da bu grafikler icin matplotlib'i kullanmaktadir.
%matplotlib inline
notlar.hist(column = 'genel_ortalama', bins=10)

`matplotlib` fonksiyonlarıyla biraz daha fazla kontrole sahip olabiliriz. Grafiklerinize renk katmak için [isimlendirilmiş renkleri](https://matplotlib.org/3.1.0/gallery/color/named_colors.html) kullanabilirsiniz.

In [None]:
import numpy as np
from matplotlib import pyplot as plt
colors = ['indigo','darkviolet','mediumorchid',\
          'midnightblue','mediumblue','blue',\
          'darkgreen','seagreen','springgreen',\
          'orangered','tomato','red','darkred']
kategoriler = notlar['durum'].unique()
durum = notlar.sort_values('durum')['durum']
nbins = len(kategoriler)
n, bins, patches = plt.hist(durum, bins=nbins)
# apply the same color for each class to match the map
for patch,color in zip(patches, colors):
    patch.set_facecolor(color)

Sıklık dağılımları elde etmek ve görselleştirmek üzere bu seçeneklerin dışında da olanaklar mevcuttur. `seaborn` [paketi](https://seaborn.pydata.org/) veri görselleştirmesi için pek çok seçenek sunar. 

[Başa Dön](#Bu-derste-neler-öğreneceksiniz?)

## Olasılık Dağılımları ##

<i>Olasılık dağılımı (probability distribution)</i>, bir örnek grubunda her bir sonucun (ölçüm ya da deney sonuçları gibi) gerçekleşme olasılıklarının ifadesidir. Olasılık dağılımları değişkenin sürekli (ing. continuous) ya da süreksiz olmasına bağlı olarak iki farklı şekilde ifade edilirler.

### Olasıık Kütle Fonksiyonu ###

<i>Olasılık Kütle Fonksiyonu (Probability Mass Function, PMF)</i>, sadece bazı değerleri alabilen (ing. discrete) bir değişken, deney sonucu, gözlem ya da ölçümün  her bir olası değerini alma olasılığını veren fonksiyondur. Normalize olasılık dağılım fonksiyonlarında her bir ölçüme ilişkin olasılık değerlerinin toplamı 1 değerine normalize edilir. Normalize olasılık kütle fonksiyonlarında tüm olası değerlerin olasılıklarının toplamı 1’i verir.

In [None]:
zar_atis_sayisi = 10000
zar = np.zeros(zar_atis_sayisi)
for i in range(zar_atis_sayisi):
    # Her bir zar atisinda tum olasiliklardan birini
    # rastgele secelim
    zar[i] = np.random.choice(['1', '2', '3', '4', '5', '6'])

# Her bir secenekten kac tane var
deger, n = np.unique(zar, return_counts=True)
# Olasiliga donusturelim
olasilik = n / len(zar)

# 10000 atis sonunda olasilik kutle fonksiyonunu 
# cizdirelim
plt.bar(deger, olasilik)
plt.ylabel("Olasilik")
plt.xlabel("Zar Degerleri")
plt.show()

[Başa Dön](#Bu-derste-neler-öğreneceksiniz?)

### Olasılık Yoğunluğu Fonksiyonu ###

<i>Olasılık Yoğunluğu Fonksiyonu (Probability Density Function, PDF)</i> sürekli (ing. continuous) bir değişkenin (doğası sürekli, yani bir aralıktaki tüm değerleri alabilen, deney sonucu ya da ölçüm) herhangi bir aralıkta değer alma olasılığını veren fonksiyondur. Normalize olasılık dağılım fonksiyonlarında her bir ölçüme ilişkin olasılık değerlerinin toplamı 1 değerine normalize edilir. PDF grafik olarak ifade edildiğinde eğrinin altında kalan toplam alan normalize olasılık fonskiyonu için 1’dir. Herhangi bir değer aralığı için toplam olasılık eğrinin o aralık için altında kalana eşit olur.

Eğer x değişkeni sürekli bir aralıktan değer alabiliyorsa x’in herhangi bir değerinin olasılığı verilemez. Örneğin bir zar atışında 1 ile 6 arasındaki her bir sayının gelme olasılığı 1 / 6 iken, bir ölçümde 0 ile 1 arasındaki herhangi bir reel sayıyı alabilen x’in e, π ya da 0.1 olma olasılığı belirlenemez. Ancak x’in hangi aralık dahilinde bir değer alabileceğinin olasılığı belirlenebilir ve tüm olası değerler için bu olasılıklar Olasılık Yoğunluğu Fonksiyonu (PDF) ile ifade edilebilir. 

Bilgisayarların doğası gereği sürekli bir fonksiyon tanılayamayız. Ancak fonksiyonun tanımlı olduğu nokta sayısını arttırarak olasılık kütle fonksiyonuna bir yaklaşımda bulunabiliriz. Örneğin -2 ile 2 arasında herhangi bir değeri alabilme olasılığı eşit olan (tekdüze, ing. uniform) bir rastgele değişkenin (ing. random variable) olasılık yoğunluğu fonksiyonunu (PDF) elde etmeye çalışalım.

In [None]:
x = np.random.uniform(-2, 2, 10000)
import seaborn as sns
sns.distplot(x)
plt.show()

[Başa Dön](#Bu-derste-neler-öğreneceksiniz?)

## Kümülatif ya da Birikimli Dağılım Fonksiyonu ##

<i>Kümülatif (Birikimli) Dağılım Fonksiyonu (ing. Cumulative Distribution Function, CDF)</i> herhangi bir olasılık dağılım fonksiyonunun sahip olduğu değerlerin toplanarak temsil edildiği fonksiyonlardır. Olasılık değerlerinin tamamı 1 ya da %100 ihtimale sahip olduğu için 1 değerine yakınsamaktadır.

In [None]:
# Bu kez farkli ortalama ve standart sapma degerlerine sahip
# normal dagilimlar olusturup, 
# bunlarin birikimli dagilimlarina bakalim
import math
# gauss fonksiyonu
def gaussian(x, mu, sig):
    return 1./(np.sqrt(2.*np.pi)*sig)*np.exp(-np.power((x - mu)/sig, 2.)/2)
mu = np.array([0, 0, 0, -2])
sigma = np.sqrt(np.array([0.2, 1.0, 5.0, 0.5]))
colors = ['blue','red','orange','green']
n = 1000
s = np.zeros((4,n))
p = np.zeros((4,n))
for i,ort in enumerate(mu):
    s[i,:] = np.random.normal(ort, sigma[i], n)
    s[i,:] = np.sort(s[i,:])
    p[i,:] = gaussian(s[i,:], ort, sigma[i])
    pcum = np.zeros(n)
    pcum[0] = p[i,0]
    # Kumulatif olasilik
    #for j in range(1,len(p[i,:])):
        #pcum[j] = np.sum(p[i,:j+1])
    pcum = np.cumsum(p[i,:])
    # Normalizasyon
    pcum /= pcum[-1]
    # Olasilik dagilimini bir figure
    plt.figure(1)
    plt.xlim((-5.5,5.5))
    plt.grid(True)
    plt.plot(s[i,:],p[i,:], color=colors[i])
    # Kumulatif olasiliklari bir digerine cizelim
    plt.figure(2)
    plt.xlim((-5.5,5.5))
    plt.grid(True)
    plt.plot(s[i,:],pcum, color=colors[i])
plt.show(1)
plt.show(2)

[Başa Dön](#Bu-derste-neler-öğreneceksiniz?)

# Bir Dağılım Foksiyonunun Elemanları #

Bir dağılım fonksiyonunu yapısını anlatmak üzere kullanılan elemanlar temelde üç ölçüt grubu altında toplanır. 

* Merkezi Eğilim Ölçütleri
    * Ortalama 
    * Mod
    * Ortanca (medyan)

* Dağılım Ölçütleri
    * Standart Sapma
    * Varyans

* Şekil Ölçütleri
    * Çarpıklık (ing. Skewness)
    * Basıklık (Kurtosis)

[Başa Dön](#Bu-derste-neler-öğreneceksiniz?)

## Ortalama Değer / Beklenen Değer ##

Bir dağılımın <b>ortalama değeri (ing. average (continuous), ing. mean (discrete))</b>  tüm değerlerin toplamının (sürekli değişken durumunda integralinin) değer sayısına (sürekli durumda  aralık uzunluğuna) bölümü ile bulunur. Ağırlıklı ortalama verilmek istenen durumda bu ağırlıkların toplamı 1 olacak şekilde düzenlenir. Ortalama değer,  bu dağılımı oluşturan ölçümlerin doğruluğunu da belirler. Ölçümler ortalamadan ne kadar uzaksa onlardan o kadar şüphe duyulur.

Bir ölçüm ya da sonucun <b>beklenen değeri (ing. expected value)</b> ise teorik ifadelerle hesaplanan değeri ya da biliniyorsa popülasyonun ortalama değeridir. Herhangi bir ölçüm yaparken teorik olarak beklentiyle ya da poülasyonun ortalamasıyla uyum beklenmesi doğaldır. Bir örnek ölçüm için beklenen değerden farklılık gösteren ortalama değerler sistematik hatalardan kaynaklanabileceği gibi, beklenen değerin gerçek değer olmamasından (örn. teorik hesapların eksik/yanlış olmasından) ya da yeterli ölçümün yapılmamasından kaynaklanabilir.

Aritmetik ortalama;

$$ \bar{x} = \frac{1}{N} \sum\limits_{i=1}^n x_{i} $$

$w_i$ i noktasının ağırlığını göstermek üzere, ağırlıklı ortalama ise

$$ \bar{x} = \frac{1}{N} \sum\limits_{i=1}^n \frac{x_{i} / w_i^2}{1 / w_i^2} $$

il verilir.

[Başa Dön](#Bu-derste-neler-öğreneceksiniz?)

## Standart Sapma ve Varyans  ##

Varyans (popülasyon: $s^2$, örnek: $\sigma^2$)  ve standart sapma (popülasyon: $s$, örnek: $\sigma$), dağılım değerlerinin ortalama değer etrafında ne kadar çok saçılmış olduğunu belirler. Dolayısıyla yapılan ölçümlerin ya da elde edilen sonuçların ne kadar hassas olduğunu belirlemek ve bu değerlere dayalı tahminler yaparaken söz konusu tahminler üzerindeki belirsizliği ifade etmek üzere kullanılır.

$$ \sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N - 1} $$

Varyans ve standart sapmanın bazı özellikleri:
* Varyans ve standart sapma değerleri negatif olamaz.
* Tüm ölçümler aynı değere sahip ise varyans sıfır değerini alır.
* Varyans değeri, dağılımın konumundan bağımsızdır. Tüm değerler aynı miktarda kaydırıldığında varyans değişmez.
* Varyansın birimi, ölçülen değerin biriminin karesidir. Standart sapmanın birimi ise ölçülen değerin birimidir.

In [None]:
from matplotlib import pyplot as plt
import numpy as np
%matplotlib inline
# Bir normal dagilimdan rastgele bir
# ornek alalim
x = np.random.randn(10)
# Ornegin ortalama ve standart sapmasi
print("Ort: {:.4f}, St.Sapma: {:.4f}".format(x.mean(),x.std()))
plt.hist(x, bins= 20)
plt.show()

In [None]:
# Ornekteki sayiyi arttiralim
x = np.random.randn(100)
# Ornegin ortalama ve standart sapmasi
print("Ort: {:.4f}, St.Sapma: {:.4f}".format(x.mean(),x.std()))
plt.hist(x, bins= 20)
plt.show()

In [None]:
# Ornekteki sayiyi daha da arttiralim
x = np.random.randn(1000)
# Ornegin ortalama ve standart sapmasi
print("Ort: {:.4f}, St.Sapma: {:.4f}".format(x.mean(),x.std()))
plt.hist(x, bins= 20)
plt.show()

In [None]:
# Ornekteki sayiyi daha da arttiralim
x = np.random.randn(10000)
plt.hist(x, bins= 20)
# Ornegin ortalama ve standart sapmasi
print("Ort: {:.4f}, St.Sapma: {:.4f}".format(x.mean(),x.std()))
plt.show()

Bir normal dağılımdan rastgele türettiğimiz bu 5 örnekte yer alan veri sayısını arttırdıkça ortalamanın 0'a, standart sapmanın da 1'e yaklaştığını açıkça gördük. Bu noktadan hareketle `numpy.random.randn()` fonksiyonunun verilen sayı kadar veri içeren bir örneği ortalaması $\mu = 0$, standart sapması $\sigma = 1$ olan bir bir dağılımı kullanarak oluşturduğunu da anlamış olduk.

[Başa Dön](#Bu-derste-neler-öğreneceksiniz?)

# Diğer Merkezi Eğilim Ölçütleri #

Bir dağılımın <b>modu (ing.mode)</b> söz konusu değişkenin ölçümlerde en çok tekrar eden (en sık rastlantılan) değeridir.

Bir dağılımın <b>medyanı (ya da ortancası)</b> ise söz konusu değişkene ilişkim tüm ölçüm değerleri küçükten büyüğe sıralandığında tam ortada kalan değeridir. Eğer çift sayıda ölçüm yapılmışsa bu kez ortada kalan iki ölçüm değerinin ortalaması alınır.

Özellikle simetrik olmayan dağılımlar söz konusu olduğunda, tercihe göre beklenen değer olarak ortalama değer yerine mod ya da medyan değeri kullanılabilmektedir. Bu tercih gözlenen/ölçülen olgunun türüne göre yapılabilmektedir. Ortalama yerine mod ya da medyan bu asimetriye yol açan ekstrem (marjinal ya da uç) dğeerler söz konusu olduğunda merkezi dağılımı belirlemek adına tercih sebebi olabilmektedir.

Dağılıma bağlı olarak mod, medyan ve ortalama değerleri aynı olabileceği gibi farklı da olabilir.

In [None]:
from scipy import stats as st
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline
# 0 ile 9 arasindaki rakamlardan rastgele
# secilmis 10000 sayiyla bir dagilim olusturalim
x = np.random.choice(range(10), size=10000)
plt.hist(x, bins= 10)
# Ornegin ortalama ve standart sapmasi
print("Ort: {:.4f}, St.Sapma: {:.4f}, Medyan: {:.4f}, Mode:{:d}".\
      format(np.mean(x),np.std(x), np.median(x), st.mode(x)[0][0]))
plt.axvline(x=x.mean(), ls='--', c='r')
plt.axvline(x=np.median(x), ls='--', c='g')
plt.axvline(x= st.mode(x)[0][0], ls='--', c='y')
plt.show()

[Başa Dön](#Bu-derste-neler-öğreneceksiniz?)

## Çarpıklık ##

<b>Çarpıklık (ing. skewness)</b> bir dağılımın asimetrisinin ölçütüdür. Bu ölçütün basit ve standart bir matematiksel ifadesi yoktur.

Temel olarak iki tür çarpıklık vardır.
* <u>Negatif Çarpıklık (ing. left skewed, negatively skewed):</u> dağılımın sol kuyruğu uzundur; dağılımın önemli bir çoğunluğu sağ tarafta toplanmıştır.
* <u>Pozitif Çarpıklık (ing. right skewed, positively skewed):</u>  dağılımın sağ kuyruğu uzundur; dağılımın önemli bir çoğunluğu sol tarafta toplanmıştır.

Çarpıklığı bir normal dağılıma göre 0'dan farklı dağılımlar için <i>ortalama</i> ve <i>ortanca</i> birbirinden farklı olabilir.

In [None]:
x = st.skewnorm.rvs(8, size=10000, loc=5, scale=2)
plt.hist(x, bins= 50)
# Ornegin ortalama ve standart sapmasi
print("Ort: {:.4f}, St.Sapma: {:.4f}, Medyan: {:.4f},".\
      format(x.mean(),x.std(), np.median(x)))
print("Çarpıklık: {:.4f}".format(st.stats.skew(x)))
plt.axvline(x=x.mean(), ls='--', c='r')
plt.axvline(x=np.median(x), ls='--', c='g')
plt.show()

[Başa Dön](#Bu-derste-neler-öğreneceksiniz?)

## Basıklık ##

<b>Basıkılık</b> bir dağılımın normal dağılıma göre ne kadar geniş  ya da ‘kuyruklu’ olduğunun ölçütüdür. $kurtosis$ gibi basıklık ölçütleriyle ifade edilir.

In [None]:
x = st.skewnorm.rvs(6, size=10000, loc=5, scale=3)
plt.hist(x, bins= 50)
# Ornegin ortalama ve standart sapmasi
print("Ort: {:.4f}, St.Sapma: {:.4f}, Medyan: {:.4f},".\
      format(x.mean(),x.std(), np.median(x)))
print("Basıklık: {:.4f}".format(st.stats.kurtosis(x)))
plt.axvline(x=x.mean(), ls='--', c='r')
plt.axvline(x=np.median(x), ls='--', c='g')
plt.show()

[Başa Dön](#Bu-derste-neler-öğreneceksiniz?)

# Örnek Dağılım ve Ana Dağılım #

Yapılan gözlemlerin sayısının arttırılması gözlemlerin oluşturduğu dağılımı, ilgili olgunun gerçek dağılımına daha fazla yaklaştıracaktır. Ancak herhangi bir değişkenin olası tüm değerlerini alabileceği çok fazla sayıda (sürekli durumda sonsuz) gözlem yapmanın mümkün olamayabilmesi sebebiyle yapılan gözlemler çoğu zaman gerçek dağılımın bir örneği niteliğini taşır.

Bir dağılımı oluşturmak için olası tüm değerlerin kullanılması kabulu, elde edilen dağılımın <b>ana dağılım (parent distribution)</b> olarak kabul edilmesi anlamına gelmektedir. Gerçekte herhangi bir olayın tam olarak ne tür bir dağılım gösterdiğini çoğu zaman bilemeyiz. Ancak bu dağılımı yeterli hassasiyette temsil ettiği kabul edilen matematiksel bir fonksiyonu, olgunun ana dağılımı olarak kabul edebiliriz.

Bu kabulden sonra, yapılan gözlemlerin oluşturduğu ve sonlu sayıdaki değerler ile üretilen <b>örnek dağılımı (ing. sample distribution)</b> kullanarak ana dağılıma ilişkin parametreleri elde edebilir ya da ana dağılımın geçerliliğini sorgulayabiliriz.

Örneğin metalce fakir Pop-II yıldızları olan RR Lyrae yıldızları için teorik olarak ortalama zonklama dönemi $P_{ort} = 14$ saat ve standart sapma $\sigma = 5$ saat olarak biliniyor olsun. Her bir kümede zonklama döneminin normal dağıldığını varsayarak, 500 kümedeki 20'şer RR Lyrae yıldızlarının gözlemleriyle bir <b>ana dağılım (ing. parent distribution)</b> oluşturmuş olalım. 

In [None]:
Port = 14. # ortalama zonklama donemi
Pstd = 5 # zonkalama doneminin standart sapmasi
# Her bir kuresel kumedeki 20ser RR Lyrae
# yildizinin zonklama donemi ortalalamalarinin dagilimi
gozlemler = np.zeros((500,20))
for i in range(gozlemler.shape[0]):
    for j in range(gozlemler.shape[1]):
        gozlemler[i,j] = Port + np.random.normal()*Pstd
print('Tum orneklerin ortalamasi:', round(np.mean(gozlemler),4))
print('Standart sapmasi:', round(np.var(gozlemler)**0.5,4))

Bu ana dağılımın bir histogramını çizdirelim.

In [None]:
fig, ax = plt.subplots(figsize=(9,6))
plt.hist(np.mean(gozlemler,axis=1), 
             bins=20, label='Ortalama Donem')
ax.set_xlabel("Zonklama Donemi (saat)",fontsize=12)
ax.set_ylabel("Frekans",fontsize=12)
# Aslinda tum RR Lyrae'lar icin ortalama
# parlakligi 14 gun varsayiyoruz
plt.axvline(x=14, ls='--', c='r')
plt.legend()
plt.tight_layout()

Bu ana dağılımın altındaki her bir kümenin dağılımı ondan alınmış bir <b>örnek dağılım (ing. sample distribution)</b> olacaktır.

In [None]:
plt.hist(gozlemler[199], bins=20, alpha=0.5, label='200. kume')
plt.xlabel("Zonklama Donemi (saat)")
plt.ylabel("Frekans")
plt.show()

Sadece bir kümeden hareketle ana dağılımı elde etmeye çalışabiliriz.

In [None]:
fig, ax = plt.subplots(figsize=(9,6))
# 500 kumede RR Lyrae yildizlarinin
# ortalama zonklama donemlerinin dagilimi
plt.hist(np.mean(gozlemler,axis=1), 
             bins=20, alpha=0.2, label='Tum Kumeler')
# Rastgele sectigimiz 42. kume
kume42ort = np.mean(gozlemler[41])
kume42std = np.var(gozlemler[41])**0.5
# Sadece bu kumeden yola cikarak 500 kuresel kume icin
# nasil bir dagilim elde edecegimize bakalim
cikarim = np.zeros((500,20))
for i in range(cikarim.shape[0]):
    for j in range(cikarim.shape[1]):
        cikarim[i,j] = kume42ort + np.random.normal()*kume42std
# Simdi bu kumeden yola cikarak elde edecegimiz dagilima bakalim
plt.hist(np.mean(cikarim, axis=1), bins=20, alpha=0.5, 
         label='42. kumeden cikarim')
plt.xlabel("Ortalama Zonklama Donemi (saat)",fontsize=12)
plt.ylabel("Frekans",fontsize=12)
plt.legend()
plt.show()
print('Tum orneklerin ortalamasi:', round(np.mean(gozlemler),4))
print('Standart sapmasi:', round(np.var(gozlemler)**0.5,4))
print('42. kumeden yapilan cikarimin ortalamasi:', round(np.mean(cikarim),4))
print('Standart sapmasi:', round(np.var(cikarim)**0.5,4))

Sadece 20 yıldızdan yola çıkarak elde edilen dağılım doğal olarak ana dağılımdan bir miktar farklıdır. Ancak yine de ortalama zonklama döneminin 14 sate, standart sapmasının da 5 saate yakın olduğu görülmektedir. 

Rastgele seçilmiş 5 kümenin ortalama ve standart sapmasını kullanarak ana dağılımı daha başarılı bir şekilde elde edebiliriz. Mümkün olsa tüm kümeleri (verideki 500 kümeyi) kullandığımızda <b>ana dağılımı</b>, evrendeki tüm kümeleri ve RR Lyrae yıldızlarını gözleyebilsek popülasyonu elde etmemiz mümkün olacaktır. 

In [None]:
fig, ax = plt.subplots(figsize=(9,6))
# 500 kumede RR Lyrae yildizlarinin
# ortalama zonklama donemlerinin dagilimi
plt.hist(np.mean(gozlemler,axis=1), 
             bins=20, alpha=0.2, label='Tum Kumeler')
# Rastgele 5 kume alalim
kumeler = [19, 125, 294, 396, 410]
toplam = 0.
toplam_varyans = 0.
for kume in kumeler:
    toplam +=  np.mean(gozlemler[kume])
    toplam_varyans += np.var(gozlemler[kume])
ortalama = toplam / len(kumeler)
stsapma = np.sqrt(toplam_varyans)
# Sadece bu kumeden yola cikarak 500 kuresel kume icin
# nasil bir dagilim elde edecegimize bakalim
cikarim_5kume = np.zeros((500,20))
for i in range(cikarim_5kume.shape[0]):
    for j in range(cikarim_5kume.shape[1]):
        cikarim_5kume[i,j] = ortalama + np.random.normal()*stsapma
# Simdi bu kumeden yola cikarak elde edecegimiz dagilima bakalim
plt.hist(np.mean(cikarim_5kume, axis=1), bins=20, alpha=0.5, 
         label='5 kumeden cikarim')
plt.xlabel("Ortalama Zonklama Donemi (saat)",fontsize=12)
plt.ylabel("Frekans",fontsize=12)
plt.legend()
plt.show()
print('Tum orneklerin ortalamasi:', round(np.mean(gozlemler),4))
print('Standart sapmasi:', round(np.var(gozlemler)**0.5,4))
print('Secilen kumeden yapilan cikarimin ortalamasi:', round(np.mean(cikarim),4))
print('Standart sapmasi:', round(np.var(cikarim)**0.5,4))

Görüldüğü üzere sadece 5 küme kullanıldığı için standart sapma büyük olmakla birlikte, ortalama ana dağılımınkine çok daha yakındır! Bu yaklaşım (örnek sayısının azlığı nedeniyle normal bir dağılıma benzemeyen kümeleirn ortalama ve standart sapmalarından hareketle ana dağılımın yakınsanması) örneklem sayısının arttırılmasıyla ana dağılıma yakınsanacağını göstermektedir ve daha sonra göreceğimiz <b>Merkezi Limit Teoremi</b>'nin temelini oluşturur.

[Başa Dön](#Bu-derste-neler-öğreneceksiniz?)

# Kaynaklar #

* Measurements and their Uncertainties, Ifan G. Hughes & Thomas P.A. Hase, Oxford University Press, 2010
* Data Reduction and Error Analysis for the Physical Sciences, Philip R. Bevington & D. Keith Robinson, MC Graw Hill, 2003
* [scipy.stats Modülü Dokümantasyonu](https://docs.scipy.org/doc/scipy/reference/stats.html)
* [numpy.random Modülü Dokümantasyonu](https://docs.scipy.org/doc/numpy-1.15.0/reference/routines.random.html)

[Başa Dön](#Bu-derste-neler-öğreneceksiniz?)