A leíró statisztika csodái I. – A középérték mutatók

A statisztikai adatgyűjtés végén jobb esetben van egy nagy kupanc adatunk: számok és betűk. A sok-sok szám, ami előttünk van lássuk be, nem túl bizalomgerjesztő vagy sokatmondó, sőt, kifejezetten unalmas. Ezekből így nyersen nem tudunk semmi érdekeset leolvasni. Mivel a leíró statisztika rész elég hosszú, ezért 3 különböző bejegyzésre osztottam az anyagot:

  1. a leíró statisztikában alkalmazott középérték mutatók,
  2. az ingadozás és aszimmetria mutatók, és
  3. mikor melyiket érdemes használni.

A kapott számadatokat sokféle módon jellemezhetjük, elsőként leíró statisztikai mutatószámokkal. Ezeket három nagyobb kategóriába sorolhatjuk:

  • Középérték mutatók: az adatok egy számmal való jellemzése.
  • Ingadozásmutatók: a középértéktől milyen nagyságú eltérések láthatóak.
  • Aszimmetria mutatók: hova tömörülnek inkább az adatok.

Ezek közül következzen a leíró statisztika cikksorozat első része, ami a középérték mutatókról szól.

Középérték mutatók

Az adatok krémjét, a közepét ragadják meg – a cél, hogy egy számmal tudjuk jellemezni a számhalmazt. A legegyszerűbb az, ha ezeket egy konkrét példán keresztül mutatom be.

Tegyük fel, hogy megmértük 6, felnőtt (2 éves) corgi kutya testsúlyát (kg) és az alábbi eredményeket kaptuk: 10, 11, 11, 12, 13, 15. A következőkben ezekkel fogok dolgozni.

(Számtani) átlag:

Lényeg: ha a kapott átlagot megszorozzuk az elemszámmal, akkor ugyanazt az összeget kapjuk, mintha az eredeti adataink értékeit adtuk volna össze.

Számolás: nyers adatok esetén nagyon egyszerű: összeadjuk az értékeket és elosztjuk azok elemszámával.

Itt és most: összeadjuk a 6 kutya testsúlyát és a kapott összeget osztjuk 6-tal:

Értelmezés: A kutyák átlagos testsúlya 12 kg.

Módusz:

Lényege: a leggyakrabban előforduló (tipikus) ismérvérték.

Számolás: Megállapítása nem mindig egyszerű: lehet, hogy egy adathalmaznak nincs módusza vagy éppen több módusza is van.

Itt és most: a 11 kg-os testsúly fordult elő leggyakrabban (2 alkalommal), így a módusz 11 kg.

Értelmezés: A leggyakoribb kutya testsúly 11 kg.

Medián:

Lényege: az adathalmaz felezőpontja – az értékek egyik fele ettől kisebb, másik fele ettől nagyobb.

Számolás: növekvő (pontosabban nem-csökkenő) sorrendbe rendezve adatainkat a középső érték vagy páros elemszám esetén a két középső érték (számtani) átlaga.

Itt és most: 6 elemünk van (páros elemszám), így a két középső elem (számtani) átlagát kell vennünk:

Értelmezés: A kutyák fele 11,5 kg-nál könnyebb, a másik fele 11,5 kg-nál nehezebb.

Kvantilisek:

Lényege: az adathalmaz osztópontjai, melyek (közel) egyenlő gyakoriságú (elemszámú) részekre osztják az adathalmazt. A medián is tulajdonképpen ilyen, ő két egyenlő gyakoriságú részre osztotta.

Nevezetes kvantilisek:

  • percentilis: 100 egyenlő gyakoriságú részre osztják az adathalmazt
  • decilis: 10 egyenlő gyakoriságú részre osztják az adathalmazt
  • kvartilis: 4 egyenlő gyakoriságú részre osztják az adathalmazt (ezt használják leggyakrabban – ezt határozzuk meg mi is)

Fontos tudnivaló: alacsony elemszámú halmazok esetén nem mindig jönnek (jöhetnek) létre közel egyenlő gyakoriságú részek. Gondolj bele: egy 5 elemű halmazt hogyan osztanál fel 4 vagy akár csak 2 egyenlő részre. Így a kapott eredmények értelmezése is néha problémás tud lenni…

Kvartilis:

A kvartilis 3 osztópontot rak az adathalmazba, ezzel 4 egyenlő gyakoriságú részre osztva azt: az alsó negyedet (25%) az alsó kvartilis (Q1) alatt, az alsó 50%-ot a középső kvartilis (medián) alatt, míg az alsó 75%-ot a felső kvartilis (Q3) alatt.

Számolás: Az esetszámot annyival kell osztani, ahány egyenlő részre akarjuk osztani az adathalmazt (percentilis esetén 100-zal, decilis esetén 10-zel, míg kvartilis esetén 4-gyel). A végeredmény tekintetében három esettel találkozhatunk:

  • Az érték egész szám lesz: az adott sorszámú elem lesz a keresett tag (pl. a 4. elem jön ki az alsó kvartilisre, így a 4. elem lesz a keresett érték) vagy
  • az érték …,5-re végződik: a két határos érték számtani átlagát kell venni (pl. 1,5. elemre jönne ki az alsó kvartilis, ilyenkor az 1. és a 2. elemek átlagát kell kiszámolnunk), vagy
  • az érték nem egész és nem is 0,5-re végződik: azt a sorszámú elemet választjuk ki, amelyikhez közelebb esik (pl. 2,3. elemre jönne ki az alsó kvartilis sorszáma, ez a 2-höz esik közelebb, így a 2. elemet tekintjük az alsó kvartilisnek).

Az alsó kvartilis esetén az 1. és a 2. elem átlagát keressük, a felső kvartilis esetén a 1,5+1,5+1,5, azaz a 4,5 miatt a 4. és 5. elemek átlagát.:

Értelmezés: A kutyák egynegyedének (25%-ának) testsúlya kisebb, mint 10,5 kg (és ebből következik, hogy háromnegyedének (75%-ának) testsúlya nagyobb, mint 10,5 kg).

Értelmezés: A kutyák háromnegyedének (75%-ának) testsúlya kisebb, mint 12,5 kg (és ebből következik, hogy egynegyedének (25%-ának) testsúlya nagyobb, mint 12,5 kg).

Megosztás:

Hasonló tartalmak

Érdekelne
matek érettségi felkészítés?

egy alma a villanyszerelőt távol tartja