A statisztikai adatgyűjtés végén jobb esetben van egy nagy kupanc adatunk: számok és betűk. A sok-sok szám, ami előttünk van lássuk be, nem túl bizalomgerjesztő vagy sokatmondó, sőt, kifejezetten unalmas. Ezekből így nyersen nem tudunk semmi érdekeset leolvasni. Mivel a leíró statisztika rész elég hosszú, ezért 3 különböző bejegyzésre osztottam az anyagot:
- a leíró statisztikában alkalmazott középérték mutatók,
- az ingadozás és aszimmetria mutatók, és
- mikor melyiket érdemes használni.
A kapott számadatokat sokféle módon jellemezhetjük, elsőként leíró statisztikai mutatószámokkal. Ezeket három nagyobb kategóriába sorolhatjuk:
- Középérték mutatók: az adatok egy számmal való jellemzése.
- Ingadozásmutatók: a középértéktől milyen nagyságú eltérések láthatóak.
- Aszimmetria mutatók: hova tömörülnek inkább az adatok.
Ezek közül következzen a leíró statisztika cikksorozat harmadik, egyben utolsó része, ami az eddig átnézett mutatókat helyezi kontextusba: mikor melyiket érdemes használni.
Szimmetrikus eloszlás
Ahhoz, hogy meg tudjuk mondani, hogy melyik középérték és melyik ingadozásmutató alkalmas az adott helyzet jellemzésére, érdemes egy oszlopdiagramot (vagy hisztogramot) készíteni. A szimmetrikus helyzet úgy fedezhető fel ezen, hogy ha egy tükröt elhelyeznénk oda, ahol az adatok leginkább tömörülnek (legmagasabb oszlopok), akkor ugyanazt látnánk (hellyel-közel) mindkét oldalt, azaz az egyik oldal a másik tükörképe lenne. Ilyen például az alábbi helyzet is:
A (közel) szimmetrikus eloszláson esetén bármelyik középérték mutató (átlag, medián, módusz) kiszámítása jó lehet, hiszen a szimmetria miatt közel hasonló eredményt kell adjanak. Mégis ilyenkor gyakran az átlagot szokták számolni, aminek az ingadozásmutatók közül a szórás a párja.
Tehát: szimmetrikus eloszlás esetén átlagot és szórást ajánlott számolni.
Aszimmetrikus eloszlás
Az aszimmetrikus helyzet, szemben a szimmetrikussal, úgy fedezhető fel, hogy a legmagasabb oszlopokhoz helyezett tükör képe nem lenne közel azonos a két oldalán, azaz az adatok inkább tömörülnek a diagram jobb oldalán (jobb oldali aszimmetria, átlag feletti értékek jellemzőek) vagy bal oldalára (bal oldali aszimmetria, átlag alatti értékek jellemzőek). Ilyen helyzet az alábbi:
Az aszimmetrikus eloszlások esetén a mediánt érdemes alkalmazni, ami sokkal inkább az adatok sűrűjében van, mint az átlag, jobban jellemzi azt. A medián párja az ingadozásmutatók közül pedig az interkvartilis terjedelem.
Tehát: aszimmetrikus eloszlás esetén mediánt és interkvartilis terjedelmet ajánlott számolni.