A statisztikai adatgyűjtés végén jobb esetben van egy nagy kupanc adatunk: számok és betűk. A sok-sok szám, ami előttünk van, lássuk be, így ebben a formában kifejezetten unalmas és semmitmondó. Ezekből így ömlesztve nem tudunk semmi érdekeset leolvasni.
A kapott számadatokat sokféle módon jellemezhetjük-elemezhetjük, ezek jelentős része az egyetemi statisztika oktatásban kap helyet, középszinten csak az alap leíró statisztikai mutatószámokat kell ismerni. Ezeket két nagyobb kategóriába sorolhatjuk:
- Középérték mutatók: az adatok egy számmal való jellemzése.
- Ingadozás- vagy szóródásmutatók: a középértéktől milyen nagyságú eltérések láthatóak.
Középérték mutatók
Az adatok krémjét, a közepét ragadják meg – a cél, hogy egy számmal tudjuk jellemezni a számhalmazt. A legegyszerűbb az, ha ezeket egy konkrét példán keresztül mutatom be. Tegyük fel, hogy megmértük 6, felnőtt (2 éves) corgi kutya testsúlyát (kg) és az alábbi eredményeket kaptuk:
10, 11, 11, 12, 13, 15
A következőkben ezekkel az adatokkal fogunk dolgozni.
(Számtani) átlag
- Lényeg: Ha a kapott átlagot megszorozzuk az elemszámmal, akkor ugyanazt az összeget kapjuk, mintha az eredeti adataink értékeit adtuk volna össze.
- Számolás: Néhány egyedi adat esetén nagyon egyszerű: összeadjuk az értékeket és elosztjuk azok elemszámával.
- Itt és most: Összeadjuk a 6 kutya testsúlyát és a kapott összeget osztjuk 6-tal:

- Értelmezés: A kutyák átlagos testsúlya 12 kg.
Módusz
- Lényege: A leggyakrabban előforduló (tipikus) ismérvérték.
- Számolás: Megállapítása nem mindig egyszerű: lehet, hogy egy adathalmaznak nincs módusza vagy éppen több módusza is van.
- Itt és most: A 11 kg-os testsúly fordult elő leggyakrabban (2 alkalommal), így a módusz 11 kg.
- Értelmezés: A leggyakoribb kutya testsúly 11 kg.
Medián
- Lényege: Az adathalmaz felezőpontja – az értékek egyik fele ettől kisebb, másik fele ettől nagyobb.
- Számolás: Növekvő (pontosabban nem-csökkenő) sorrendbe rendezve adatainkat a középső érték vagy páros elemszám esetén a két középső érték (számtani) átlaga.
- Itt és most: 6 elemünk van (páros elemszám), így a két középső elem (számtani) átlagát kell vennünk, azaz (11+12)/2 = 11,5 kg.
- Értelmezés: A kutyák fele 11,5 kg-nál könnyebb, a másik fele 11,5 kg-nál nehezebb.
Kvartilisek
- Lényege: A kvartilis 3 osztópontot rak az adathalmazba, ezzel 4 egyenlő gyakoriságú részre osztva azt: az alsó negyedet (25%) az alsó kvartilis (Q1) alatt, az alsó 50%-ot a középső kvartilis (medián) alatt, míg az alsó 75%-ot a felső kvartilis (Q3) alatt.
- Számolás: Először meghatározzuk a szokásos módon a mediánt, majd megkeressük a medián alatti adatok mediánját (ez lesz az alsó kvartilis), valamint a medián feletti adatok mediánját is (ez lesz a felső kvartilis).
- Alsó kvartilis (Q1): Ha a mediánt a két középső adat számtani átlagaként kapjuk, akkor a medián nem esik ki az adathalmazból, hanem nézzük az alatta lévő 3 értéket: 10, 11 és 11. Ezek mediánja a 11, tehát ez az alsó kvartilis. Ez azt jelenti, hogy a kutyák egynegyedének (25%-ának) testsúlya kisebb, mint 11 kg (és ebből következik, hogy háromnegyedének (75%-ának) testsúlya nagyobb, mint 11 kg).
- Felső kvartilis (Q3): A medián feletti értékek: 12, 13 és 15. Ezek mediánja a 13, így ez a felső kvartilis. Ez azt jelenti, hogy a kutyák háromnegyedének (75%-ának) testsúlya kisebb, mint 13 kg (és ebből következik, hogy egynegyedének (25%-ának) testsúlya nagyobb, mint 13 kg).
- A kapott statisztikai mutatók alapján már elkészíthetjük a sodrófa (box-plot) diagramot (ebben a leckében találod meg, hogy hogyan kell).
Ingadozásmutatók
Tök jó, tudunk átlagot-mediánt-móduszt-kvartiliseket számolni, ám ezek önmagukban szinte semmit sem mondanak el (!) a valós helyzetről – nem mindegy ugyanis, hogy adataink ezen középérték mutatókhoz képest mennyire térnek el, mennyire ingadoznak, vagy úgy is mondhatjuk: mennyire sokszínűek.
Ugyannak a 6, felnőtt (2 éves) corgi kutyának testsúlyával (kg) dolgozunk továbbra is:
10, 11, 11, 12, 13, 15.
Terjedelem
- Lényeg: Megmutatja, hogy milyen nagy a különbség a két szélsőséges értékünk között.
- Számolás: A legnagyobb értékből kivonjuk a legkisebb értéket.
- Itt és most: A legnagyobb testsúlyból (15 kg) kivonjuk a legkisebb testsúlyt (10 kg):
- R = 15-10 = 5 kg
- Értelmezés: A legkisebb és legnagyobb súlyú kutya testsúlyának különbsége 5 kg (vagy: a kutyák testsúlya egy 5 kg szélességű sávban ingadozik).
- Előnye: Könnyen kiszámolható.
- Hátránya: Csak a két szélsőséges értéket veszi figyelembe, semmi mást.
Félterjedelem
- Lényeg: Megmutatja, hogy milyen nagy a különbség az alsó kvartilis (Q1) és a felső kvartilis (Q3) között.
- Számolás: A felső kvartilisből kivonjuk az alsó kvartilist.
- Itt és most: A félterjedelem = Q3 – Q1 = 13 – 11 = 2 kg
- Értelmezés: A súly szerint növekvő sorba rendezett kutyák középső 50%-ának súlya egy 2 kg szélességű sávban ingadozik.
Szórás (σ – szigma)
- Lényeg: Megmutatja, hogy az átlaghoz képest átlagosan mennyivel térnek el a kapott értékek.
- Számolás: Minden egyes adatból kivonjuk az átlagot, különbségüket négyzetre emeljük, ezeket összeadjuk, elosztjuk az elemszámmal és a végén gyököt vonunk az egészből.
- Itt és most: Nemrég kiszámoltuk az átlagot (12 kg), így a szórás:

- Értelmezés: Az egyes kutyák súlyaa átlagosan 1,63 kg-al térnek el az átlagos kutyasúlytól.

