{"id":6954,"date":"2022-02-14T08:59:52","date_gmt":"2022-02-14T07:59:52","guid":{"rendered":"https:\/\/kovacsgyulacoach.hu\/?p=6954"},"modified":"2022-03-01T18:18:08","modified_gmt":"2022-03-01T17:18:08","slug":"sultgalamb-2","status":"publish","type":"post","link":"https:\/\/kovacsgyulacoach.hu\/sultgalamb-2\/","title":{"rendered":"S\u00fclt galamb"},"content":{"rendered":"\t\t
\n\t\t\t\t\t\t\t\t\t
\n\t\t\t\t\t\t
\n\t\t\t\t\t
\n\t\t\t
\n\t\t\t\t\t\t\t\t
\n\t\t\t\t
\n\t\t\t\t\t\t\t

Mi a Kaggle?<\/strong><\/p>

A 2010-ben alap\u00edtott\u00a0Kaggle<\/a>\u00a0a vil\u00e1g legnagyobb adatb\u00e1ny\u00e1sz verseny platformja. A Kaggle-versenyekre b\u00e1rmely regisztr\u00e1lt tag benevezhet, m\u00e1rpedig regisztr\u00e1lt tagb\u00f3l nincs hi\u00e1ny – 2020 j\u00falius\u00e1ban a tagok sz\u00e1ma el\u00e9rte az 5 milli\u00f3t. A versenyek egy r\u00e9sze p\u00e9nzd\u00edjas (jellemz\u0151en 10-15.000 USD-t lehet nyerni, de vannak enn\u00e9l komolyabb \u00f6sszegek is). A verseny feladatok csak egy r\u00e9sze \u00e9rkezik \u00fczleti oldalr\u00f3l, emellett rengeteg kutat\u00e1si, tudom\u00e1nyos t\u00e9m\u00e1j\u00fa feladat is el\u00e9rhet\u0151.<\/p>

A Kaggle azonban nemcsak egy versenyplatform. Rengeteg adatb\u00e1zis t\u00f6lthet\u0151 le az oldalr\u00f3l, amiken kezd\u0151\/halad\u00f3 adatelemz\u0151k tudnak gyakorolni, illetve rengeteg gyakorlatban is haszn\u00e1lhat\u00f3 k\u00f3d t\u00f6lthet\u0151 le.<\/p>

Hogy n\u00e9z ki egy Kaggle verseny?<\/strong><\/p>

1. Adatok let\u00f6lt\u00e9se. Minden versenyr\u0151l el\u00e9g r\u00e9szletese le\u00edr\u00e1s van: mag\u00e1r\u00f3l az elemz\u00e9s c\u00e9lj\u00e1r\u00f3l, az adatokr\u00f3l \u00e9s persze a ki\u00e9rt\u00e9kel\u00e9si krit\u00e9riumokr\u00f3l, de vannak olyan versenyek, ahol Te magad t\u0171zhetsz ki feladatot m\u00e1sok sz\u00e1m\u00e1ra. Ha valamelyik feladat megtetszik, akkor egyszer\u0171en let\u00f6lt\u00f6d az adatokat \u00e9s elkezdhetsz elemezni, modellezni rajtuk.<\/p>

2. Modellez\u00e9s. A tan\u00edt\u00f3 adatb\u00e1zison tudsz elemezni \u00e9s modellezni.<\/p>

3. Tesztel\u00e9s. A tan\u00edt\u00f3 adatb\u00e1zis mellett van egy \u00fan. teszt adatb\u00e1zis, a tan\u00edt\u00f3 adatb\u00e1zison fel\u00e9p\u00edtett modelleket ezen tesztelheted.<\/p>

4. Eredm\u00e9ny bead\u00e1sa. Itt el\u00e9g nagy v\u00e1ltoz\u00e1s t\u00f6rt\u00e9nt az elm\u00falt \u00e9vekben. M\u00edg kor\u00e1bban el\u00e9g volt a saj\u00e1t g\u00e9peden kisz\u00e1molt eredm\u00e9nyeket beadni, ahol a be\u00e9rkezett score-okat a Kaggle k\u00f6zponti algoritmusa \u00e9rt\u00e9kelte ki, addig napjainkban k\u00f3dokat (jellemz\u0151en Python k\u00f3dokat) kell\/lehet beadni.<\/p>

(Kaggle enn\u00e9l sokkak t\u00f6bbet tud \u00e9s a versenyek menete is elt\u00e9rhet a fentit\u0151l. A Kaggle oldalon r\u00e9szletesen elolvashat\u00f3k a verseny felt\u00e9telek<\/em>)<\/p>

Mi a gond a Kaggle versenyekkel?<\/strong><\/p>

Ha r\u00f6viden akarok v\u00e1laszolni, akkor a v\u00e1laszom az hogy: SEMMI. Nem lehet elvitatni a Kaggle szerep\u00e9t a data science n\u00e9pszer\u0171s\u00edt\u00e9s\u00e9ben. T\u00e9nyleg j\u00f3 platform, j\u00f3 feladatokkal, \u00e9s mint k\u00f6z\u00f6ss\u00e9gi f\u00f3rum is j\u00f3l m\u0171k\u00f6dik.<\/p>

H\u00e1t akkor mi a gond?<\/p>

A gond az, hogy a Kaggle versenyek egy olyan elemz\u00e9si kult\u00far\u00e1t honos\u00edtottak meg, ami az \u00fczleti \u00e9letben szinte biztosan kudarcra van \u00edt\u00e9lve.<\/blockquote>

Egy Kaggle verseny \u00fczenete nagyj\u00e1b\u00f3l megfeleltethet\u0151 a \u201es\u00fclt galamb a sz\u00e1dba rep\u00fcl\u201d \u00fczenettel. \u00a0A versenyre \u00fagy sz\u00e1llsz be, hogy …<\/p>

… k\u00e9szen van egy tiszt\u00edtott(!) adatb\u00e1zis<\/p>

… l\u00e9trehoztak egy tan\u00edt\u00f3 \u00e9s teszt adatb\u00e1zist<\/p>

… megvan a c\u00e9lv\u00e1ltoz\u00f3 \u00e9s a ki\u00e9rt\u00e9kel\u00e9si szab\u00e1lyok.<\/p>

A gond az, hogy a gyakorlatban a projekteknek csak igen kis szakasz\u00e1t fedi le a fenti modellez\u00e9si szakasz. N\u00e9h\u00e1ny olyan dolgot emelek ki, amire nem tan\u00edtanak meg a Kaggle versenyek \u2013 pedig a mindennapi \u00e9letben elengedhetetlenek a sikerhez.<\/p>

1.\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u201eAdatguber\u00e1l\u00e1s\u201d<\/span>. Olyan, hogy k\u00e9szen kapsz egy adatb\u00e1zist \u2013 felejtsd el! (s\u00fclt galamb sose rep\u00fcl a sz\u00e1dba<\/em>) \u00c1ltal\u00e1ban kapsz rengeteg adatot, amib\u0151l fel kell \u00e9p\u00edtened az elemz\u00e9si adatb\u00e1zist. Nagyon gyakori, hogy az els\u0151 k\u00f6rben \u00e1tvett adatok nem j\u00f3k szinte semmire. Kezd\u0151 elemz\u0151 egy tipikus hib\u00e1ja, hogy ilyenkor nem adja fel, pr\u00f3b\u00e1lkozik \u00faj v\u00e1ltoz\u00f3k l\u00e9trehoz\u00e1s\u00e1val, modellek param\u00e9terez\u00e9s\u00e9vel + n\u00e9h\u00e1ny \u201episzkos tr\u00fckk\u00f6kkel\u201d (l\u00e1sd t\u00faltanul\u00e1s). \u00a0\u00d6k\u00f6lszab\u00e1ly: ha az els\u0151 modellek gyeng\u00e9k, akkor nem TE vagy \u00fcgyetlen, hanem az adatb\u00e1zis rossz! Az \u201eadatguber\u00e1l\u00e1s\u201d az egyik legfontosabb r\u00e9sze a projekteknek. K\u00e9rdezz\u00fcnk nyugodtan r\u00e1, hogy m\u00e9g mik vannak a sufniban \u2013 meglep\u0151 dolgok szoktak el\u0151ker\u00fclni, amik sokszor j\u00f3val \u00e9rt\u00e9kesebbek adatelemz\u00e9s szempontj\u00e1b\u00f3l, mint az eredetileg \u00e1tvett adatok. Ha tudunk, mi is tegy\u00fcnk hozz\u00e1 netr\u0151l leszedett adatokkal (pl. esem\u00e9ny adatok, id\u0151j\u00e1r\u00e1s adatok, c\u00e9ginform\u00e1ci\u00f3s adatok, \u2026).<\/p>

2.\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0Tan\u00edt\u00f3 \u00e9s teszt adatb\u00e1zis<\/span>. A modellez\u00e9s egyik legsarkalatosabb pontja a tan\u00edt\u00f3, teszt \u00e9s valid\u00e1ci\u00f3s adatb\u00e1zis megtervez\u00e9se. Sz\u00e1mos t\u00e9nyez\u0151t kell figyelembe venni:<\/p>

a.\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0Mekkora legyen ezen adatb\u00e1zisoknak m\u00e9rete?<\/p>

b.\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0A c\u00e9lv\u00e1ltoz\u00f3 valamelyik \u00e9rt\u00e9k\u00e9t fel\u00fcl kell-e s\u00falyozni \u00e9s ha igen milyen m\u00e9rt\u00e9kben?<\/p>

c.\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0Milyen id\u0151szakot fedjen le a tan\u00edt\u00f3 \u00e9s a teszt adatb\u00e1zis? \u00a0<\/p>

A Kaggle versenyek azonban k\u00e9szen adj\u00e1k ezeket (s\u00fclt galamb sose rep\u00fcl a sz\u00e1dba<\/em>)\u00a0– mintha margin\u00e1lis k\u00e9rd\u00e9s lenen ezek el\u0151\u00e1ll\u00edt\u00e1sa.<\/p>

3.\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0T\u00faltanul\u00e1s<\/span>. L\u00e1tsz\u00f3lag a t\u00faltanul\u00e1s ki van z\u00e1rva a Kaggle rendszerb\u0151l \u2013 olyan adatokon tesztelik a modelleket, amit a versenyz\u0151 nem l\u00e1t. De a versenyek \u00fczenete m\u00e9gis a k\u00f6vetkez\u0151: az nyer, akinek a modellje legjobban teljes\u00edt a valid\u00e1ci\u00f3s adatokon. De biztos erre kell hajtanunk a val\u00f3di \u00e9letben? Tapasztalatom szerint a gyakorlatban k\u00e9t dolog egym\u00e1s ellen dolgozik: (i) min\u00e9l pontosabb legyen egy modell, (ii) id\u0151ben min\u00e9l stabilabb legyen egy modell. Azaz min\u00e9l pontosabb egy modell, ann\u00e1l kev\u00e9sb\u00e9 stabil id\u0151ben, ha meg stabiliz\u00e1ljuk a modellt, akkor romlik a teljes\u00edtm\u00e9nye. \u00dczleti szitu\u00e1ci\u00f3 d\u00f6nti el, hogy melyik a jobb megold\u00e1s \u2013 de egy elemz\u0151nek tiszt\u00e1ban kell lenni azzal, hogy az AUC \u00e9rt\u00e9k (modellek teljes\u00edtm\u00e9ny\u00e9t szok\u00e1s ezzel a mutat\u00f3val m\u00e9rni) nem mindenhat\u00f3 (m\u00e9g ha a Kaggle versenyeken az is).<\/p>

4.\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0Elemz\u00e9s elsorvad\u00e1sa<\/span>. A modellez\u00e9s l\u00e1tsz\u00f3lag egy technikai feladat. Dob\u00e1ljunk \u00f6ssze min\u00e9l t\u00f6bb adatot, modellezz\u00fcnk ezeken az adatokon, majd a modellt \u00e9rt\u00e9kelj\u00fck ki. Ezek olyan l\u00e9p\u00e9sek, amik j\u00f3l automatiz\u00e1lhat\u00f3k. Profi Python\/R programoz\u00f3 tud \u00edrni olyan scriptet, ami l\u00e9trehoz rengeteg sz\u00e1rmaztatott v\u00e1ltoz\u00f3t, ezeken k\u00fcl\u00f6nb\u00f6z\u0151 modellez\u0151 algoritmusokat futtat, \u00e9s a v\u00e9g\u00e9n kiv\u00e1lasztja a legjobb modellt. Nagyon gyorsan nagyon j\u00f3 modellek \u00e9p\u00edthet\u0151k \u00edgy.\u00a0A gond csak az, hogy ez nem elemz\u00e9s! Az \u00fczleti \u00e9letben az elemz\u00e9sek c\u00e9lja olyan \u00f6sszef\u00fcgg\u00e9sek felt\u00e1r\u00e1sa, melyek t\u00e1mogatj\u00e1k a d\u00f6nt\u00e9shoz\u00f3k munk\u00e1j\u00e1t.<\/strong>\u00a0Azonban a Kaggle versenyeken ez az elemz\u0151i attit\u0171d elsorvad \u2013 nincs lehet\u0151s\u00e9g k\u00e9rdezni az \u00fczleti oldalt\u00f3l, nincs lehet\u0151s\u00e9g az \u00e9rt\u00e9ktelen \u00f6sszef\u00fcgg\u00e9sek kisz\u0171r\u00e9s\u00e9re, nincs lehet\u0151s\u00e9g szak\u00e9rt\u0151i tud\u00e1s be\u00e9p\u00edt\u00e9s\u00e9re.\u00a0Azaz nincs lehet\u0151s\u00e9g annak a k\u00e9pess\u00e9gnek elsaj\u00e1t\u00edt\u00e1s\u00e1ra, hogy kialak\u00edtsunk egy k\u00f6z\u00f6s nyelvet az \u00fczleti oldallal<\/strong>\u00a0(hasonl\u00f3 aspektusa ennek a probl\u00e9m\u00e1nak ebben a KDNuggets\u00a0cikkben<\/a>\u00a0olvashat\u00f3).<\/p>

Akkor most ne induljunk Kaggle versenyen?<\/strong><\/p>

Dehogynem.<\/p>

Egyr\u00e9szt versenyezni j\u00f3! A versenyeken a versenyz\u0151k kommunik\u00e1lhatnak egym\u00e1ssal, illetve l\u00e1that\u00f3k m\u00e1s versenyz\u0151k k\u00f3djai, \u00edgy rengeteget lehet tanulni egym\u00e1st\u00f3l. Ha tiszt\u00e1ban vagyunk azzal, hogy ezek a versenyek mire j\u00f3k \u00e9s mire nem, akkor mindenkinek j\u00f3 sz\u00edvvel aj\u00e1nlom.<\/p>

De ne felejts\u00fck el soha:<\/p>

egy data science projekt mindig t\u00f6bb, mint adatok elemz\u00e9se!<\/strong><\/blockquote>\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t\t\t\t<\/div>\n\t\t","protected":false},"excerpt":{"rendered":"

Kaggle versenyek tapasztalata mire el\u00e9g \u00e9s mire nem az \u00fczleti \u00e9letben?<\/p>\n","protected":false},"author":4,"featured_media":3998,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_seopress_robots_primary_cat":"none"},"categories":[40],"tags":[91,86,38,9,90,85,41,76,87],"_links":{"self":[{"href":"https:\/\/kovacsgyulacoach.hu\/wp-json\/wp\/v2\/posts\/6954"}],"collection":[{"href":"https:\/\/kovacsgyulacoach.hu\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/kovacsgyulacoach.hu\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/kovacsgyulacoach.hu\/wp-json\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/kovacsgyulacoach.hu\/wp-json\/wp\/v2\/comments?post=6954"}],"version-history":[{"count":7,"href":"https:\/\/kovacsgyulacoach.hu\/wp-json\/wp\/v2\/posts\/6954\/revisions"}],"predecessor-version":[{"id":6988,"href":"https:\/\/kovacsgyulacoach.hu\/wp-json\/wp\/v2\/posts\/6954\/revisions\/6988"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/kovacsgyulacoach.hu\/wp-json\/wp\/v2\/media\/3998"}],"wp:attachment":[{"href":"https:\/\/kovacsgyulacoach.hu\/wp-json\/wp\/v2\/media?parent=6954"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/kovacsgyulacoach.hu\/wp-json\/wp\/v2\/categories?post=6954"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/kovacsgyulacoach.hu\/wp-json\/wp\/v2\/tags?post=6954"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}