Következő képzések

Data Literacy Data literacy tréning

Illúzió, avagy adat és valóság kapcsolata

Gondolom mindannyian láttatok már szivárványt. Ami egy érdekes dolog, mert látunk valamit, ami ha jobban belegondolunk nincs is. A szivárvány egy optikai jelenség, ami azt az ILLÚZIÓT kelti, hogy a felhők alatt egy ezer színben pompázó körív van. Az illúziónak definíció szerint azt a  pszichológiai jelenséget hívják, amikor félreértelmezzük a valóságból érkező ingereket. Szakmánkban (data science) is létezik egy ehhez hasonló illúzió:

Adat-illúziónak nevezzük azt jelenséget, amikor félreértelmezzük az adatokból érkező ingereket.”

Adat-illúzió jelenséget több dolog is okozhatja. Ezek közül néhány:

  • adatbázis nem reprezentatív
  • adatok (legalábbis egy része) pontatlan
  • mi magunk rossz statisztikai módszert választunk

A fenti jelenségek bemutatására egy nyílt, mindenki számára elérhető adatbázist használtam, a „The Public 2020 Stack Overflow Developer Survey” kérdőíves kutatási anonim adatbázist. Ez 64.000 fejlesztő/adatelemző fizetésével, képzettségével, munkatapasztalatával kapcsolatos válaszait tartalmazza. Az adatbázis alapján egy olyan jelenséget emelek, ami a hétköznapi életben is gyakran keseríti meg az életünket: amikor az adatokat pontatlanul rögzítik.

Első körben egy nagyon egyszerű kérdésre keressük a választ: mennyi volt 2020-ban a programozók átlagfizetése? (worldwide)

Na erre tényleg nem nehéz válaszolni. A 64.000 válaszadó közül 35.000 válaszolt erre a kérdésre, ráadásul az adatbázisban mindenkinek a fizetése át volt váltva US$-ra, így nem kellett szenvedni a valuta-konvertálásokkal. 

Na akkor 2020-ban mennyi is volt egy programozó átlagfizetése?

Mean Median Modus
$103 756 $54 049 $120 000

A táblázatba a számtani átlag (Mean), medián (Median) és módusz (Modus) értékeket tettem be. Azonnal látszik, hogy a kérdésre nem fogunk azonnal választ adni – mert a 3 átlagérték köszönőviszonyban nincs egymással.

Tapasztalatom az, hogy a szélsőértékek miatt a számtani átlag általában magasabb mint a medián. Na de nem ennyivel!  

Itt valami tényleg nem stimmel. A teljes sokaságból vegyük ki az Egyesült Államok és kelet-európai programozók adatait, nézzük meg a két eloszlás függvényt:

Két ferde eloszlású függvényt kaptunk, azonban vegyük észre, hogy az USA programozók görbéje (nincs jobb szó rá) egy kicsit tüskés. Nagyítsuk fel egy kicsit:

A diagramot úgy állítottam be, hogy 50.000-300.000$ intervallumban 250 oszlopot rajzoljunk ki, azaz az oszlopok 50.000-51.000$, 51.000-52.000$, …. tartományokat reprezentálják. A nagyítás után egy sündisznó-szerű eloszlást kaptunk. A kiugró értékek (tüskék) rendre 5 vagy 0-ra végződő értékeknél vannak. A legmagasabb tüske pedig épp a 120.000$-os tartománynál van.

Hoppá?

Emlékszik még valaki az első táblázatunkra?

Mean Median Modus
$103 756 $54 049 $120 000

Akkor nem nagyon foglalkoztunk a módusszal (= leggyakoribb érték egy adott mezőben), pedig önmagában bizarr, ami a táblázatban látható. Normál eloszlás mellett soha nem a módusz a legmagasabb három átlagérték közül!

Esetünkben erre a furcsa jelenségre a fenti tüskés diagram adja meg a magyarázatot: amikor adatokat adunk meg, akkor hajlamosak vagyunk kerekíteni. Ha csak az adatokat nézzük, akkor az USA programozók 98%-ának 5-el osztható az éves fizetése. Valószínűleg azt történt, hogy akinek nem kerek a fizetése, az is 5-ra vagy 10-re kerekített a kitöltés során. Amivel nincs is nagy gond ha a számtani átlagot vagy a mediánt nézzük, ezeket nem nagyon befolyásolják a kerekítések, de a módusz értékét igen. A teljes adatbázisban (USA és nem USA) a medián 54.000 USD körül van, valahol ott kellene lennie az módusznak is. Azonban az amerikai programozóknál a medián és módusz 120.000 USD körül van, és mivel nagyon erre az értékre kerekítettek, ezért a teljes adatbázisban is a 120.000 USD érték lett leggyakoribb!  

Tanulság: amikor egy váratlan eredmény jön ki az adatokból, ne higgy neki! Légy szkeptikus – és vizsgáld meg részletesebben az adatokat, de dőlj be az adatillúzió jelenségének.

Ha ennél többet szeretnél megtudni az adatillúzió jelenségéről, a regisztrálj a Sherlock Holmes képzésemre vagy keress személyesen!