Illúzió, avagy adat és valóság kapcsolata
Gondolom mindannyian láttatok már szivárványt. Ami egy érdekes dolog, mert látunk valamit, ami ha jobban belegondolunk nincs is. A szivárvány egy optikai jelenség, ami azt az ILLÚZIÓT kelti, hogy a felhők alatt egy ezer színben pompázó körív van. Az illúziónak definíció szerint azt a pszichológiai jelenséget hívják, amikor félreértelmezzük a valóságból érkező ingereket. Szakmánkban (data science) is létezik egy ehhez hasonló illúzió:
„Adat-illúziónak nevezzük azt jelenséget, amikor félreértelmezzük az adatokból érkező ingereket.”
Adat-illúzió jelenséget több dolog is okozhatja. Ezek közül néhány:
- adatbázis nem reprezentatív
- adatok (legalábbis egy része) pontatlan
- mi magunk rossz statisztikai módszert választunk
A fenti jelenségek bemutatására egy nyílt, mindenki számára elérhető adatbázist használtam, a „The Public 2020 Stack Overflow Developer Survey” kérdőíves kutatási anonim adatbázist. Ez 64.000 fejlesztő/adatelemző fizetésével, képzettségével, munkatapasztalatával kapcsolatos válaszait tartalmazza. Az adatbázis alapján egy olyan jelenséget emelek, ami a hétköznapi életben is gyakran keseríti meg az életünket: amikor az adatokat pontatlanul rögzítik.
Első körben egy nagyon egyszerű kérdésre keressük a választ: mennyi volt 2020-ban a programozók átlagfizetése? (worldwide)
Na erre tényleg nem nehéz válaszolni. A 64.000 válaszadó közül 35.000 válaszolt erre a kérdésre, ráadásul az adatbázisban mindenkinek a fizetése át volt váltva US$-ra, így nem kellett szenvedni a valuta-konvertálásokkal.
Na akkor 2020-ban mennyi is volt egy programozó átlagfizetése?
Mean | Median | Modus |
$103 756 | $54 049 | $120 000 |
A táblázatba a számtani átlag (Mean), medián (Median) és módusz (Modus) értékeket tettem be. Azonnal látszik, hogy a kérdésre nem fogunk azonnal választ adni – mert a 3 átlagérték köszönőviszonyban nincs egymással.
Tapasztalatom az, hogy a szélsőértékek miatt a számtani átlag általában magasabb mint a medián. Na de nem ennyivel!
Itt valami tényleg nem stimmel. A teljes sokaságból vegyük ki az Egyesült Államok és kelet-európai programozók adatait, nézzük meg a két eloszlás függvényt:
Két ferde eloszlású függvényt kaptunk, azonban vegyük észre, hogy az USA programozók görbéje (nincs jobb szó rá) egy kicsit tüskés. Nagyítsuk fel egy kicsit:
A diagramot úgy állítottam be, hogy 50.000-300.000$ intervallumban 250 oszlopot rajzoljunk ki, azaz az oszlopok 50.000-51.000$, 51.000-52.000$, …. tartományokat reprezentálják. A nagyítás után egy sündisznó-szerű eloszlást kaptunk. A kiugró értékek (tüskék) rendre 5 vagy 0-ra végződő értékeknél vannak. A legmagasabb tüske pedig épp a 120.000$-os tartománynál van.
Hoppá?
Emlékszik még valaki az első táblázatunkra?
Mean | Median | Modus |
$103 756 | $54 049 | $120 000 |
Akkor nem nagyon foglalkoztunk a módusszal (= leggyakoribb érték egy adott mezőben), pedig önmagában bizarr, ami a táblázatban látható. Normál eloszlás mellett soha nem a módusz a legmagasabb három átlagérték közül!
Esetünkben erre a furcsa jelenségre a fenti tüskés diagram adja meg a magyarázatot: amikor adatokat adunk meg, akkor hajlamosak vagyunk kerekíteni. Ha csak az adatokat nézzük, akkor az USA programozók 98%-ának 5-el osztható az éves fizetése. Valószínűleg azt történt, hogy akinek nem kerek a fizetése, az is 5-ra vagy 10-re kerekített a kitöltés során. Amivel nincs is nagy gond ha a számtani átlagot vagy a mediánt nézzük, ezeket nem nagyon befolyásolják a kerekítések, de a módusz értékét igen. A teljes adatbázisban (USA és nem USA) a medián 54.000 USD körül van, valahol ott kellene lennie az módusznak is. Azonban az amerikai programozóknál a medián és módusz 120.000 USD körül van, és mivel nagyon erre az értékre kerekítettek, ezért a teljes adatbázisban is a 120.000 USD érték lett leggyakoribb!
Tanulság: amikor egy váratlan eredmény jön ki az adatokból, ne higgy neki! Légy szkeptikus – és vizsgáld meg részletesebben az adatokat, de dőlj be az adatillúzió jelenségének.
Ha ennél többet szeretnél megtudni az adatillúzió jelenségéről, a regisztrálj a Sherlock Holmes képzésemre vagy keress személyesen!