Python w laboratorium: Miary rozproszenia

Ostatnio zaprezentowałem wam najpopularniejsze miary położenia - średnią arytmetyczną i medianę. Nadszedł czas na miary rozproszenia.
Czym jest to owo rozproszenie? I dlaczego tak istotne jest podawanie go wraz z miarą położenia.

Rozproszenie możemy określić jako zróżnicowanie danej cechy wokół najczęściej wartości średniej lub środkowej. W przypadku małego zróżnicowania wartość miary rozproszenia będzie mała, natomiast przy wzrost odchyleń od wartości centralnej spowoduje wzrost wartości miar rozproszenia.

Do najpopularniejszych miar rozproszenia możemy zaliczyć:

rozstęp,
wariancję,
odchylenie standardowe,
odchylenie przeciętne,
współczynnik zmienności.

Rozstęp

Rozstęp to po prostu różnica pomiędzy wartością maksymalną a wartością minimalną. Stosuje się go zazwyczaj dla próbek statystycznych o małej liczbie obserwacji. Rozstęp nie daje nam informacji o zróżnicowaniu poszczególnych wartości.

$$ R = x_{max} - x_{min}$$

Wariancja

Wariancja to suma kwadratów odchyleń poszczególnych wartości od średniej arytmetycznej podzielona przez liczbę stopni swobody (ilość obserwacji minus 1).

$$ s^2 = \frac {\displaystyle \sum_{i=1}^{n} (x_i - x_{śr})^2}{n-1} $$

Ta miara rozproszenie nie jest używana zbyt często w statystyce. Bardziej popularny jest pierwiastek z wariancji czyli...

Odchylenie standardowe

Znając wariancję populacji w prosty sposób możemy obliczyć odchylenie standardowe. Wystarczy wyciągnąć z wariancji pierwiastek.

$$ s = \sqrt {s^2} =\sqrt {\frac {\displaystyle \sum_{i=1}^{n} (x_i - x_{śr})^2}{n-1}}$$

Dziś zajmiemy się tylko tymi trzema miarami. Zobaczmy jak wygląda kod pozwalający obliczyć w/w parametry:

def sd(y):
    suma = 0
    kwd = list(map(lambda x: (x-avg(y))**2,y))
    for i in kwd:
        suma = suma + i
    return sqrt(suma/(len(kwd)-1))

def s2(y):
    return sd(y)**2

def R(y):
    y.sort()
    return y[int(len(y)-1)] - y[0]

Pierwsza funkcja oblicza nam odchylenie standardowe. Druga funkcja podnosi do kwadratu wynik funkcji sd. Dzięki temu uzyskujemy wariancję. Ostatnia z prezentowanych tu funkcji oblicza różnicę pomiędzy wartością największą a najmniejszą zbioru liczb czyli rozstęp. Funkcje same w sobie nie będą działać, jeżeli nie zostaną przywołane. Dlatego trzeba je wywołać z odpowiednim argumentem, np utworzoną wcześniej listą a.
W kolejnym wpisie postaram się przedstawione tu funkcje rozebrać na części pierwsze, tak byście mogli z łatwością poeksperymentować w Pythonie.

Miary rozproszenia

Rozstęp

Wariancja

Odchylenie standardowe

Brak komentarzy:

Prześlij komentarz