A statisztikai adatgyűjtés végén jobb esetben van egy nagy kupanc adatunk: számok és betűk. A sok-sok szám, ami előttünk van lássuk be, nem túl bizalomgerjesztő vagy sokatmondó, sőt, kifejezetten unalmas. Ezekből így nyersen nem tudunk semmi érdekeset leolvasni. Mivel a leíró statisztika rész elég hosszú, ezért 3 különböző bejegyzésre osztottam az anyagot:
- a leíró statisztikában alkalmazott középérték mutatók,
- az ingadozás és aszimmetria mutatók, és
- mikor melyiket érdemes használni.
A kapott számadatokat sokféle módon jellemezhetjük, elsőként leíró statisztikai mutatószámokkal. Ezeket három nagyobb kategóriába sorolhatjuk:
- Középérték mutatók: az adatok egy számmal való jellemzése.
- Ingadozásmutatók: a középértéktől milyen nagyságú eltérések láthatóak.
- Aszimmetria mutatók: hova tömörülnek inkább az adatok.
Ezek közül következzen a leíró statisztika cikksorozat második része, ami az ingadozás és aszimmetria mutatókról szól (az első részt, ami a középérték mutatókról szól, ide kattintva éred el).
Ingadozásmutatók
Ahogy a cikksorozat első részében megismerhetted a középérték mutatók az adatok krémjét, közepét ragadják meg – a cél, hogy egy számmal tudjuk jellemezni a számhalmazt. Ezzel így nincs is gond, ám önmagában egy átlag vagy egy medián szinte semmit nem mond el (!) a valós helyzetről – nem mindegy ugyanis, hogy adataink ezen középérték mutatókhoz képest mennyire térnek el, mennyire ingadoznak avagy mennyire sokszínűek.
Folytassuk a feladatunkat és tekintsük újra az első részben megismert 6, felnőtt (2 éves) corgi kutya testsúlyát (kg): 10, 11, 11, 12, 13, 15.
Terjedelem (R = Range)
Lényeg: megmutatja, hogy milyen nagy a különbség a két szélsőséges értékünk között.
Számolás: a legnagyobb értékből kivonjuk a legkisebb értéket.
Itt és most: a legnagyobb testsúlyból (15 kg) kivonjuk a legkisebb testsúlyt (10 kg):
R = 15-10 = 5 kg
Értelmezés: A legkisebb és legnagyobb súlyú kutya testsúlyának különbsége 5 kg.
Előnye: Könnyen kiszámolható.
Hátránya: csak a két szélsőséges értéket veszi figyelembe, semmi mást.
Szórás (σ – szigma)
Lényeg: megmutatja, hogy az átlaghoz képest átlagosan mennyivel térnek el a kapott értékek.
Számolás: minden egyes adatból kivonjuk az átlagot, különbségüket négyzetre emeljük, ezeket összeadjuk, elosztjuk az elemszámmal és a végén gyököt vonunk az egészből.
Itt és most: az előző cikkben megkaptuk az átlagot, ami 12 kg lett, így a szórás:
Mivel kétszer is szerepel a (11-12)2 kifejezés, ezért így is felírhatjuk rövidebben:
Értelmezés: A kutyák súlya átlagosan 1,63 kg-al tér el az átlagos kutyasúlytól.
Előnye: Minden adatot felhasználunk a számolásnál.
Hátránya: Nehezebb számolni és értelmezni, mint egy terjedelmet, illetve önmagában nem alkalmas arra, hogy megmondjuk, hogy ez most nagy vagy kicsi ingadozás, avagy jó vagy sem, ha ennyi a szórás.
Relatív szórás (V)
Lényeg: megmutatja, hogy az átlaghoz képest átlagosan hány %-kal térnek el a kapott értékek.
Számolás: az előzőleg megkapott szórást osztjuk az átlaggal, majd a kapott eredményt 100-al felszorozzuk, így %-os formában kapjuk meg a végeredményt.
Itt és most: az előző cikkben megkaptuk az átlagot, ami 12 kg lett, így a relatív szórás:
Értelmezés: A kutyák súlya átlagosan 13,58%-kal tér el az átlagos kutyasúlytól.
Előnye: Minden adatot felhasználunk a számolásnál és látjuk, hogy relatíve nagy vagy kicsi az átlagos eltérés az átlaghoz képest.
Hátránya: Nehezebb számolni és értelmezni, mint egy terjedelmet.
Interkvartilis terjedelem (IQR = Interquartile Range)
Lényeg: megmutatja, hogy az adatok középső 50% között mekkora eltérés van.
Számolás: a felső kvartilisből (Q3) kivonjuk az alsó kvartilist (Q1).
Itt és most: az előző cikkben megkaptuk, hogy a Q1 = 10,5 kg, míg a Q3 = 12,5 kg, így:
Értelmezés: A kutyák középső 50%-ának súlya között 2 kg-os eltérés van, azaz 10,5 és 12,5 kg között van a kutyák 50%-ának testsúlya.
Előnye: Könnyebb számolni, mint a szórást.
Hátránya: Nehezebb az értelmezés, mint a terjedelemnél.
Aszimmetria mutatók
Azzal, hogy meghatároztuk az adathalmaz középértékét és ingadozásmutatóit máris sokat tettünk azért, hogy barátibb formát öltsön a rengeteg szám, ám érdemes még legalább egy dologra egy kis időt szánni: az aszimmetria kimutatására. Eddigi mutatószámaink (így önmagukban) ugyanis azt nem “mondják el”, hogy leginkább “hol tömörülnek” az adataink – inkább az átlag alattiak vagy felettiek a jellemzők.
Folytassuk a feladatunkat és tekintsük újra az első részben megismert 6, felnőtt (2 éves) corgi kutya testsúlyát (kg): 10, 11, 11, 12, 13, 15.
F-mutató
Lényeg: megmutatja, hogy milyen oldali aszimmetria figyelhető meg. A baloldali aszimmetria (+ értéket kapunk eredményül) azt jelenti, hogy inkább az alacsonyabb értékek jellemzőek, míg a jobboldali (- értéket kapunk eredményül) azt, hogy inkább a magasabbak figyelhetők meg. Ha 0 az értéke, akkor szimmetria figyelhető meg, azaz középen (a medián körül) tömörülnek az adatok, nincs aszimmetria.
Számolás: inkább mutatom a képletét 🙂
Itt és most: a számoláshoz szükségünk van a mediánra (11,5 kg), az alsó kvartilisre (10,5 kg) és a felső kvartilisre (12,5 kg), így:
Értelmezés: A medián körül szimmetrikus helyezkednek el az adatok.
A-mutató
Lényeg: A (Pearson-féle) A-mutató ugyanazt mutatja meg, mint az F-mutató (és ugyanazokkal az előjelekkel), csak más adatokat használunk ennek kiszámolására. Ha a mutató abszolút értéke 1 vagy annál nagyobb, akkor erős, ha pedig 1 alatti, akkor enyhe aszimmetria figyelthető meg.
Számolás: inkább mutatom a képletét 🙂
Itt és most: a számoláshoz szükségünk van az átlagra (12 kg), a móduszra (11 kg) és a szórásra (1,63 kg), így:
Értelmezés: Enyhe baloldali aszimmetria figyelhető meg, azaz inkább az átlag alatti kutyatestsúlyok jellemzőek.
Azért jöhetett ki eltérő eredmény a kétféle aszimmetria-mutatónál, mert mindkettőnél más és más számokat használunk, de leginkább azért, mert icipici adathalmazzal van dolgunk. Egy több száz vagy ezer adatot tartalmazó adathalmaz esetén jobban közelítene egymáshoz a két mutató eredménye.