A leíró statisztika csodái III. – Mikor és melyiket érdemes használni?

A statisztikai adatgyűjtés végén jobb esetben van egy nagy kupanc adatunk: számok és betűk. A sok-sok szám, ami előttünk van lássuk be, nem túl bizalomgerjesztő vagy sokatmondó, sőt, kifejezetten unalmas. Ezekből így nyersen nem tudunk semmi érdekeset leolvasni. Mivel a leíró statisztika rész elég hosszú, ezért 3 különböző bejegyzésre osztottam az anyagot:

  1. a leíró statisztikában alkalmazott középérték mutatók,
  2. az ingadozás és aszimmetria mutatók, és
  3. mikor melyiket érdemes használni.

A kapott számadatokat sokféle módon jellemezhetjük, elsőként leíró statisztikai mutatószámokkal. Ezeket három nagyobb kategóriába sorolhatjuk:

  • Középérték mutatók: az adatok egy számmal való jellemzése.
  • Ingadozásmutatók: a középértéktől milyen nagyságú eltérések láthatóak.
  • Aszimmetria mutatók: hova tömörülnek inkább az adatok.

Ezek közül következzen a leíró statisztika cikksorozat harmadik, egyben utolsó része, ami az eddig átnézett mutatókat helyezi kontextusba: mikor melyiket érdemes használni.

Szimmetrikus eloszlás

Ahhoz, hogy meg tudjuk mondani, hogy melyik középérték és melyik ingadozásmutató alkalmas az adott helyzet jellemzésére, érdemes egy oszlopdiagramot (vagy hisztogramot) készíteni. A szimmetrikus helyzet úgy fedezhető fel ezen, hogy ha egy tükröt elhelyeznénk oda, ahol az adatok leginkább tömörülnek (legmagasabb oszlopok), akkor ugyanazt látnánk (hellyel-közel) mindkét oldalt, azaz az egyik oldal a másik tükörképe lenne. Ilyen például az alábbi helyzet is:

A (közel) szimmetrikus eloszláson esetén bármelyik középérték mutató (átlag, medián, módusz) kiszámítása jó lehet, hiszen a szimmetria miatt közel hasonló eredményt kell adjanak. Mégis ilyenkor gyakran az átlagot szokták számolni, aminek az ingadozásmutatók közül a szórás a párja.

Tehát: szimmetrikus eloszlás esetén átlagot és szórást ajánlott számolni.

Aszimmetrikus eloszlás

Az aszimmetrikus helyzet, szemben a szimmetrikussal, úgy fedezhető fel, hogy a legmagasabb oszlopokhoz helyezett tükör képe nem lenne közel azonos a két oldalán, azaz az adatok inkább tömörülnek a diagram jobb oldalán (jobb oldali aszimmetria, átlag feletti értékek jellemzőek) vagy bal oldalára (bal oldali aszimmetria, átlag alatti értékek jellemzőek). Ilyen helyzet az alábbi:

Az aszimmetrikus eloszlások esetén a mediánt érdemes alkalmazni, ami sokkal inkább az adatok sűrűjében van, mint az átlag, jobban jellemzi azt. A medián párja az ingadozásmutatók közül pedig az interkvartilis terjedelem.

Tehát: aszimmetrikus eloszlás esetén mediánt és interkvartilis terjedelmet ajánlott számolni.

Megosztás:

Hasonló tartalmak

Érdekelne
matek érettségi felkészítés?

egy alma a villanyszerelőt távol tartja