A leíró statisztika csodái II. – Az ingadozásmutatók

A statisztikai adatgyűjtés végén jobb esetben van egy nagy kupanc adatunk: számok és betűk. A sok-sok szám, ami előttünk van lássuk be, nem túl bizalomgerjesztő vagy sokatmondó, sőt, kifejezetten unalmas. Ezekből így nyersen nem tudunk semmi érdekeset leolvasni. Mivel a leíró statisztika rész elég hosszú, ezért 3 különböző bejegyzésre osztottam az anyagot:

  1. a leíró statisztikában alkalmazott középérték mutatók,
  2. az ingadozás és aszimmetria mutatók, és
  3. mikor melyiket érdemes használni.

A kapott számadatokat sokféle módon jellemezhetjük, elsőként leíró statisztikai mutatószámokkal. Ezeket három nagyobb kategóriába sorolhatjuk:

  • Középérték mutatók: az adatok egy számmal való jellemzése.
  • Ingadozásmutatók: a középértéktől milyen nagyságú eltérések láthatóak.
  • Aszimmetria mutatók: hova tömörülnek inkább az adatok.

Ezek közül következzen a leíró statisztika cikksorozat második része, ami az ingadozás és aszimmetria mutatókról szól (az első részt, ami a középérték mutatókról szól, ide kattintva éred el).

Ingadozásmutatók

Ahogy a cikksorozat első részében megismerhetted a középérték mutatók az adatok krémjét, közepét ragadják meg – a cél, hogy egy számmal tudjuk jellemezni a számhalmazt. Ezzel így nincs is gond, ám önmagában egy átlag vagy egy medián szinte semmit nem mond el (!) a valós helyzetről – nem mindegy ugyanis, hogy adataink ezen középérték mutatókhoz képest mennyire térnek el, mennyire ingadoznak avagy mennyire sokszínűek.

Folytassuk a feladatunkat és tekintsük újra az első részben megismert 6, felnőtt (2 éves) corgi kutya testsúlyát (kg): 10, 11, 11, 12, 13, 15.

Terjedelem (R = Range)

Lényeg: megmutatja, hogy milyen nagy a különbség a két szélsőséges értékünk között.

Számolás: a legnagyobb értékből kivonjuk a legkisebb értéket.

Itt és most: a legnagyobb testsúlyból (15 kg) kivonjuk a legkisebb testsúlyt (10 kg):

R = 15-10 = 5 kg

Értelmezés: A legkisebb és legnagyobb súlyú kutya testsúlyának különbsége 5 kg.

Előnye: Könnyen kiszámolható.

Hátránya: csak a két szélsőséges értéket veszi figyelembe, semmi mást.

Szórás (σ – szigma)

Lényeg: megmutatja, hogy az átlaghoz képest átlagosan mennyivel térnek el a kapott értékek.

Számolás: minden egyes adatból kivonjuk az átlagot, különbségüket négyzetre emeljük, ezeket összeadjuk, elosztjuk az elemszámmal és a végén gyököt vonunk az egészből.

Itt és most: az előző cikkben megkaptuk az átlagot, ami 12 kg lett, így a szórás:

Mivel kétszer is szerepel a (11-12)2 kifejezés, ezért így is felírhatjuk rövidebben:

Értelmezés: A kutyák súlya átlagosan 1,63 kg-al tér el az átlagos kutyasúlytól.

Előnye: Minden adatot felhasználunk a számolásnál.

Hátránya: Nehezebb számolni és értelmezni, mint egy terjedelmet, illetve önmagában nem alkalmas arra, hogy megmondjuk, hogy ez most nagy vagy kicsi ingadozás, avagy jó vagy sem, ha ennyi a szórás.

Relatív szórás (V)

Lényeg: megmutatja, hogy az átlaghoz képest átlagosan hány %-kal térnek el a kapott értékek.

Számolás: az előzőleg megkapott szórást osztjuk az átlaggal, majd a kapott eredményt 100-al felszorozzuk, így %-os formában kapjuk meg a végeredményt.

Itt és most: az előző cikkben megkaptuk az átlagot, ami 12 kg lett, így a relatív szórás:

Értelmezés: A kutyák súlya átlagosan 13,58%-kal tér el az átlagos kutyasúlytól.

Előnye: Minden adatot felhasználunk a számolásnál és látjuk, hogy relatíve nagy vagy kicsi az átlagos eltérés az átlaghoz képest.

Hátránya: Nehezebb számolni és értelmezni, mint egy terjedelmet.

Interkvartilis terjedelem (IQR = Interquartile Range)

Lényeg: megmutatja, hogy az adatok középső 50% között mekkora eltérés van.

Számolás: a felső kvartilisből (Q3) kivonjuk az alsó kvartilist (Q1).

Itt és most: az előző cikkben megkaptuk, hogy a Q1 = 10,5 kg, míg a Q3 = 12,5 kg, így:

Értelmezés: A kutyák középső 50%-ának súlya között 2 kg-os eltérés van, azaz 10,5 és 12,5 kg között van a kutyák 50%-ának testsúlya.

Előnye: Könnyebb számolni, mint a szórást.

Hátránya: Nehezebb az értelmezés, mint a terjedelemnél.

Aszimmetria mutatók

Azzal, hogy meghatároztuk az adathalmaz középértékét és ingadozásmutatóit máris sokat tettünk azért, hogy barátibb formát öltsön a rengeteg szám, ám érdemes még legalább egy dologra egy kis időt szánni: az aszimmetria kimutatására. Eddigi mutatószámaink (így önmagukban) ugyanis azt nem “mondják el”, hogy leginkább “hol tömörülnek” az adataink – inkább az átlag alattiak vagy felettiek a jellemzők.

Folytassuk a feladatunkat és tekintsük újra az első részben megismert 6, felnőtt (2 éves) corgi kutya testsúlyát (kg): 10, 11, 11, 12, 13, 15.

F-mutató

Lényeg: megmutatja, hogy milyen oldali aszimmetria figyelhető meg. A baloldali aszimmetria (+ értéket kapunk eredményül) azt jelenti, hogy inkább az alacsonyabb értékek jellemzőek, míg a jobboldali (- értéket kapunk eredményül) azt, hogy inkább a magasabbak figyelhetők meg. Ha 0 az értéke, akkor szimmetria figyelhető meg, azaz középen (a medián körül) tömörülnek az adatok, nincs aszimmetria.

Számolás: inkább mutatom a képletét 🙂

Itt és most: a számoláshoz szükségünk van a mediánra (11,5 kg), az alsó kvartilisre (10,5 kg) és a felső kvartilisre (12,5 kg), így:

Értelmezés: A medián körül szimmetrikus helyezkednek el az adatok.

A-mutató

Lényeg: A (Pearson-féle) A-mutató ugyanazt mutatja meg, mint az F-mutató (és ugyanazokkal az előjelekkel), csak más adatokat használunk ennek kiszámolására. Ha a mutató abszolút értéke 1 vagy annál nagyobb, akkor erős, ha pedig 1 alatti, akkor enyhe aszimmetria figyelthető meg.

Számolás: inkább mutatom a képletét 🙂

Itt és most: a számoláshoz szükségünk van az átlagra (12 kg), a móduszra (11 kg) és a szórásra (1,63 kg), így:

Értelmezés: Enyhe baloldali aszimmetria figyelhető meg, azaz inkább az átlag alatti kutyatestsúlyok jellemzőek.

Azért jöhetett ki eltérő eredmény a kétféle aszimmetria-mutatónál, mert mindkettőnél más és más számokat használunk, de leginkább azért, mert icipici adathalmazzal van dolgunk. Egy több száz vagy ezer adatot tartalmazó adathalmaz esetén jobban közelítene egymáshoz a két mutató eredménye.

Megosztás:

Hasonló tartalmak

Középiskolai matek

Halmazok és halmazműveletek

A halmazok témakör a matematika egyik (ha nem a) legalapvetőbb témaköre, sok-sok más anyagrésznél hasznosak az itt meglévő alapfogalmak. Ebben a bejegyzésben ezeket vesszük át.

Elolvasom

Érdekelne
matek érettségi felkészítés?

egy alma a villanyszerelőt távol tartja