Czym jest to owo rozproszenie? I dlaczego tak istotne jest podawanie go wraz z miarą położenia.
Rozproszenie możemy określić jako zróżnicowanie danej cechy wokół najczęściej wartości średniej lub środkowej. W przypadku małego zróżnicowania wartość miary rozproszenia będzie mała, natomiast przy wzrost odchyleń od wartości centralnej spowoduje wzrost wartości miar rozproszenia.
Do najpopularniejszych miar rozproszenia możemy zaliczyć:
- rozstęp,
- wariancję,
- odchylenie standardowe,
- odchylenie przeciętne,
- współczynnik zmienności.
Rozstęp
Rozstęp to po prostu różnica pomiędzy wartością maksymalną a wartością minimalną. Stosuje się go zazwyczaj dla próbek statystycznych o małej liczbie obserwacji. Rozstęp nie daje nam informacji o zróżnicowaniu poszczególnych wartości.
$$ R = x_{max} - x_{min}$$
Wariancja
Wariancja to suma kwadratów odchyleń poszczególnych wartości od średniej arytmetycznej podzielona przez liczbę stopni swobody (ilość obserwacji minus 1).
$$ s^2 = \frac {\displaystyle \sum_{i=1}^{n} (x_i - x_{śr})^2}{n-1} $$
Ta miara rozproszenie nie jest używana zbyt często w statystyce. Bardziej popularny jest pierwiastek z wariancji czyli...
$$ s = \sqrt {s^2} =\sqrt {\frac {\displaystyle \sum_{i=1}^{n} (x_i - x_{śr})^2}{n-1}}$$
Dziś zajmiemy się tylko tymi trzema miarami. Zobaczmy jak wygląda kod pozwalający obliczyć w/w parametry:
$$ s^2 = \frac {\displaystyle \sum_{i=1}^{n} (x_i - x_{śr})^2}{n-1} $$
Ta miara rozproszenie nie jest używana zbyt często w statystyce. Bardziej popularny jest pierwiastek z wariancji czyli...
Odchylenie standardowe
Znając wariancję populacji w prosty sposób możemy obliczyć odchylenie standardowe. Wystarczy wyciągnąć z wariancji pierwiastek.$$ s = \sqrt {s^2} =\sqrt {\frac {\displaystyle \sum_{i=1}^{n} (x_i - x_{śr})^2}{n-1}}$$
Dziś zajmiemy się tylko tymi trzema miarami. Zobaczmy jak wygląda kod pozwalający obliczyć w/w parametry:
def sd(y):
suma = 0
kwd = list(map(lambda x: (x-avg(y))**2,y))
for i in kwd:
suma = suma + i
return sqrt(suma/(len(kwd)-1))
def s2(y):
return sd(y)**2
def R(y):
y.sort()
return y[int(len(y)-1)] - y[0]
Pierwsza funkcja oblicza nam odchylenie standardowe. Druga funkcja podnosi do kwadratu wynik funkcji sd. Dzięki temu uzyskujemy wariancję. Ostatnia z prezentowanych tu funkcji oblicza różnicę pomiędzy wartością największą a najmniejszą zbioru liczb czyli rozstęp. Funkcje same w sobie nie będą działać, jeżeli nie zostaną przywołane. Dlatego trzeba je wywołać z odpowiednim argumentem, np utworzoną wcześniej listą a.
W kolejnym wpisie postaram się przedstawione tu funkcje rozebrać na części pierwsze, tak byście mogli z łatwością poeksperymentować w Pythonie.
Brak komentarzy:
Prześlij komentarz