A statisztikai adatgyűjtés végén jobb esetben van egy nagy kupanc adatunk: számok és betűk. A sok-sok szám, ami előttünk van lássuk be, nem túl bizalomgerjesztő vagy sokatmondó, sőt, kifejezetten unalmas. Ezekből így nyersen nem tudunk semmi érdekeset leolvasni. Mivel a leíró statisztika rész elég hosszú, ezért 3 különböző bejegyzésre osztottam az anyagot:
- a leíró statisztikában alkalmazott középérték mutatók,
- az ingadozás és aszimmetria mutatók, és
- mikor melyiket érdemes használni.
A kapott számadatokat sokféle módon jellemezhetjük, elsőként leíró statisztikai mutatószámokkal. Ezeket három nagyobb kategóriába sorolhatjuk:
- Középérték mutatók: az adatok egy számmal való jellemzése.
- Ingadozásmutatók: a középértéktől milyen nagyságú eltérések láthatóak.
- Aszimmetria mutatók: hova tömörülnek inkább az adatok.
Ezek közül következzen a leíró statisztika cikksorozat első része, ami a középérték mutatókról szól.
Középérték mutatók
Az adatok krémjét, a közepét ragadják meg – a cél, hogy egy számmal tudjuk jellemezni a számhalmazt. A legegyszerűbb az, ha ezeket egy konkrét példán keresztül mutatom be.
Tegyük fel, hogy megmértük 6, felnőtt (2 éves) corgi kutya testsúlyát (kg) és az alábbi eredményeket kaptuk: 10, 11, 11, 12, 13, 15. A következőkben ezekkel fogok dolgozni.
(Számtani) átlag:
Lényeg: ha a kapott átlagot megszorozzuk az elemszámmal, akkor ugyanazt az összeget kapjuk, mintha az eredeti adataink értékeit adtuk volna össze.
Számolás: nyers adatok esetén nagyon egyszerű: összeadjuk az értékeket és elosztjuk azok elemszámával.
Itt és most: összeadjuk a 6 kutya testsúlyát és a kapott összeget osztjuk 6-tal:
Értelmezés: A kutyák átlagos testsúlya 12 kg.
Módusz:
Lényege: a leggyakrabban előforduló (tipikus) ismérvérték.
Számolás: Megállapítása nem mindig egyszerű: lehet, hogy egy adathalmaznak nincs módusza vagy éppen több módusza is van.
Itt és most: a 11 kg-os testsúly fordult elő leggyakrabban (2 alkalommal), így a módusz 11 kg.
Értelmezés: A leggyakoribb kutya testsúly 11 kg.
Medián:
Lényege: az adathalmaz felezőpontja – az értékek egyik fele ettől kisebb, másik fele ettől nagyobb.
Számolás: növekvő (pontosabban nem-csökkenő) sorrendbe rendezve adatainkat a középső érték vagy páros elemszám esetén a két középső érték (számtani) átlaga.
Itt és most: 6 elemünk van (páros elemszám), így a két középső elem (számtani) átlagát kell vennünk:
Értelmezés: A kutyák fele 11,5 kg-nál könnyebb, a másik fele 11,5 kg-nál nehezebb.
Kvantilisek:
Lényege: az adathalmaz osztópontjai, melyek (közel) egyenlő gyakoriságú (elemszámú) részekre osztják az adathalmazt. A medián is tulajdonképpen ilyen, ő két egyenlő gyakoriságú részre osztotta.
Nevezetes kvantilisek:
- percentilis: 100 egyenlő gyakoriságú részre osztják az adathalmazt
- decilis: 10 egyenlő gyakoriságú részre osztják az adathalmazt
- kvartilis: 4 egyenlő gyakoriságú részre osztják az adathalmazt (ezt használják leggyakrabban – ezt határozzuk meg mi is)
Fontos tudnivaló: alacsony elemszámú halmazok esetén nem mindig jönnek (jöhetnek) létre közel egyenlő gyakoriságú részek. Gondolj bele: egy 5 elemű halmazt hogyan osztanál fel 4 vagy akár csak 2 egyenlő részre. Így a kapott eredmények értelmezése is néha problémás tud lenni…
Kvartilis:
A kvartilis 3 osztópontot rak az adathalmazba, ezzel 4 egyenlő gyakoriságú részre osztva azt: az alsó negyedet (25%) az alsó kvartilis (Q1) alatt, az alsó 50%-ot a középső kvartilis (medián) alatt, míg az alsó 75%-ot a felső kvartilis (Q3) alatt.
Számolás: Az esetszámot annyival kell osztani, ahány egyenlő részre akarjuk osztani az adathalmazt (percentilis esetén 100-zal, decilis esetén 10-zel, míg kvartilis esetén 4-gyel). A végeredmény tekintetében három esettel találkozhatunk:
- Az érték egész szám lesz: az adott sorszámú elem lesz a keresett tag (pl. a 4. elem jön ki az alsó kvartilisre, így a 4. elem lesz a keresett érték) vagy
- az érték …,5-re végződik: a két határos érték számtani átlagát kell venni (pl. 1,5. elemre jönne ki az alsó kvartilis, ilyenkor az 1. és a 2. elemek átlagát kell kiszámolnunk), vagy
- az érték nem egész és nem is 0,5-re végződik: azt a sorszámú elemet választjuk ki, amelyikhez közelebb esik (pl. 2,3. elemre jönne ki az alsó kvartilis sorszáma, ez a 2-höz esik közelebb, így a 2. elemet tekintjük az alsó kvartilisnek).
Az alsó kvartilis esetén az 1. és a 2. elem átlagát keressük, a felső kvartilis esetén a 1,5+1,5+1,5, azaz a 4,5 miatt a 4. és 5. elemek átlagát.:
Értelmezés: A kutyák egynegyedének (25%-ának) testsúlya kisebb, mint 10,5 kg (és ebből következik, hogy háromnegyedének (75%-ának) testsúlya nagyobb, mint 10,5 kg).
Értelmezés: A kutyák háromnegyedének (75%-ának) testsúlya kisebb, mint 12,5 kg (és ebből következik, hogy egynegyedének (25%-ának) testsúlya nagyobb, mint 12,5 kg).