Mert kell egy (Data Science) csapat
Velem egykorúak talán még emlékeznek Minarik Edére, Garas Dezső zseniális alakításában a Régi idők focija című filmben. Ott hangzott el a mára már klasszikus idézet Minarik Ede szájából: „Kell egy csapat”. Míg a futballban nem kérdés hogy kell egy csapat, hisz a szabályok miatt kötelező a pályára 11 embert felküldeni, addig az adatelemzési világában ritkán beszélünk a csapatépítés fontosságáról. Ha az adatvagyon hasznosítás problematikájának fő gyökerét keressük, akkor elég elvinni üzleti döntéshozókat egy data science konferenciára (vagy meetup-ra). Menedzsereink rengeteg olyan előadást fognak látni, ahol informatikusok érthetetlen szaknyelven R/Python/SQL kódokkal telitűzdelve lelkesen számolnak be új adatfeldolgozási módszerekről, párhuzamosításról, felhőbe költözésről és még ki tudja miről – csak magáról az elemzésekről nem beszél senki. Vagy ha modellezésről van szó, akkor különböző ROI/ROC/AUC mutatókon keresztül ismertetik korábbi munkájukat – de itt se hangzik el semmi olyan, ami egy döntéshozó számára izgalmas. Talán BI konferenciára kellene vinni őket, ahol az új Tableau/Power BI eszközökön keresztül jobbnál jobb grafikonok kerülnek bemutatásra. Sajnos itt se jobb a helyzet. Az eszközök funkcionalitásán van a hangsúly rengeteg szép grafikonnal – amik viszont az Excel grafikonokon szocializálódott menedzserek számára inkább modern absztrakt képzőművészeti alkotásnak tűnnek, mint jól hasznosítható információ forrásra.
Mi is a gond?
Amikor adatvagyon hasznosításának problematikájáról beszélünk, akkor ténylegesen eltérő kultúrák találkozási sokkjáról beszélünk. Milyen kultúrák vannak egy cégen belül?
- értékesítés: azért dolgoznak, hogy minél több terméket/szolgáltatást adjanak el
- operáció: azért dolgoznak, hogy optimalizálják az üzleti folyamatokat
- pénzügy: azért dolgoznak, hogy optimalizálják a vállalat cash-flow-ját
A fenti három, teljesen eltérő kultúrájú szervezeti egységeknek egyre nagyobb az adatéhsége. Ezt az adatéhséget kellene kiszolgálnia az egyszerűség kedvéért innentől Data Science csapatnak nevezett szervezeti egységnek. Azonban a data science világnak is van egy saját, önálló kultúrája, ami ráadásul korántsem homogén, rengeteg „rejtő jenői” figurába botolhatunk bele.
Data science világ szereplői
Az régóta egyértelmű mindenki számára, hogy a nyers adatok átalakítása üzletileg értelmezhető információvá rendkívül összetett, bonyolult feladatsor. Az elmúlt évtizedekben épp ezért a szakma specializálódott, létre jöttek:
- adatmérnökök (data engineer): akik az adatbázisok létrehozásáért és üzemeltetéséért felelnek
- adattudósok (data scientist): akik az adatok feldolgozásáért, részben elemzéért felelősök
- adatelemzők, modellezők (data analyst): akik a modellezésért, adatok mélyebb elemzésért felelősök
- üzleti elemzők (BI specialist): akik az eredmények vizuálizálásáért felelősök, ők készítik a BI riportokat és dashboardokat
Sőt! A feladatok tovább bonthatók. Nemrég találtam egy érdekes cikket (Francesco Corea: The Psychology of Data Science), amiben személyiség jegyek alapján osztották fel az adatemzők világát. Ez két dimenzió alapján történt:
- mi az aktuális szerepük a vállalaton belül (archeotipus)
- személyiség jegyük alapján
Mindkét dimenzió alapján 4-4 szegmensbe sorolták az elemzőket, így a dimenziók keresztszorzata alapján 16 különböző szegmensbe sorolták az adatelemzéssel foglalkozó szakembereket. Az alábbi ábrán ezen 16 szegmens (munkakör) rövid leírása található:
Archeotipusoknál a színek jelentése: hogy a matematikai/statisztikai (kék), üzleti (zöld) és programozó (piros) attitűd mennyire jellemző az adott szegmensre.
A cikkben a szerző azt szerette volna megmutatni, hogy egy data science csapat összeállítása messze nem annyiból áll, hogy a „kell 5 junior és 1 senior Python programozó, legyen köztük valakinek egy machine learning papírja, és akkor megvagyunk” igényt leadjuk a HR-nek. A fenti mátrixban a sárgával kiemelt 4 „munkakör” adja a data science csapatok vázát, és az elemzési igények illetve szervezeti felépítés függvényében bővülhet a csapat a fenti munkakörök valamelyikével.
Annak ellenére, hogy sok embernek egy adattudósról egy tipikus „kocka” képe ugrik be, láthatóan ennél jóval színesebb a kép. A fenti munkaköröket megpróbáltam két csoportra osztani az alapján, hogy viszonyulnak más üzleti területhez:
- KÉKEK: ők azok az adattudósok/modellezők, akik erős technikai, kutatói vénával rendelkeznek, számukra az adatelemzés inkább IT feladat, és az adatfeldolgozás-elemzés-kiértékelés szentháromságában élnek. Számukra az értékesítők, szervezet fejlesztők, pénzügyesek inkább a szükséges rosszat testesítik meg, ha tehetik, nem kerülnek velük kapcsolatba.
- PIROSAK: valójában az Ő feladatuk kapcsolatot teremteni a „külvilággal”, rajtuk múlik hogy a „kékek” munkája mennyire hasznos az üzlet számára. A külvilággal való kapcsolattartás mellett fontos katalizátor szerepük van a data science közösségen belül (közösség építés, mentorálás, információs áramlás).
Az alábbi táblázatban csoportosítottam a szakmákat az alapján, mennyire terjedtek nagyvállalati környezetben.
A táblázatban első oszlopába azokat a munkaköröket tettem, melyek többnyire megtalálhatók a hazai nagyvállalatoknál, míg a második oszlopba azokat, amik még fehér hollóként fordulnak elő. Feltűnő, hogy elsősorban épp azok a szakemberek hiányoznak egy vállalaton belül, akik képesek közvetíteni a data science csapat és az „üzlet” között.
A következő grafikon összefoglalja a fentieket és talán választ ad arra, hogy miért is sikertelen az adatvagyon hasznosítása nagyon sok vállalat esetében.
A data science világnak egy sajátos, jellemzően informatikai jegyeket hordozó kultúrája van. Az üzleti oldalnak is megvan a saját terminológiája, munkamódszere, üzleti célja. Ami viszont közös bennük, hogy egyre nagyobb és nagyobb az „adatéhségük”. Ez első hallásra jó hír a data science csapatnak, hisz nálunk van minden olyan adat, információ, ami kielégítheti ezt az adatéhséget. Azonban ezek az adatok jellemzően „nyers” formában vannak. És ez az üzlet számára akkor is „nyers”, ha ezek az adatok strukturált táblákban vannak egy adattárházban. Az üzlet könnyen emészthető elemzésekre, riportokra vágyik. És itt jönnek képbe az adatstratégák és idelisták.
Az adatvagyon hasznosításában az adatstratégák és idealisták központi szerepet töltenek be!
Egyrészt leülnek, összegyűjtik az elemzési riportigényeket, ha kell ezeken moderálnak, vagy új elemzési ötleteket adnak, megvalósítási javaslatokat tesznek az üzleti oldal felé. Majd beérkezett elemzési/riport igények alapján pontos elemzési/fejlesztői specifikációkat adnak – de már a „kékek” nyelvén. Látszólag ez „egyszerű” projekt menedzsment. Azonban messze nem az. Egy jó „piros tolmács” mindkét irányba tesz javaslatokat, azaz üzleti oldalról nemcsak begyűjt igényeket, hanem javasolhat is nekik új elemzéseket/riportokat, hisz Ő van tisztában az adatbázis „mélységeivel” és neki van rálátása, mik az aktuális üzleti célok.
Mint korábban írtam, épp ezek a piros munkakörök nincsenek meg a nagyvállalati szervezeten belül, így nem csoda, hogy az adatvagyon hasznosítása sok helyen nem sikertörténet.
Zárószó
Vállalati adatvagyon hasznosítása, ennek kultúrájának kialakítása egy rendkívül összetett feladat. Ennek sikere a szervezeti kérdéseken túl nagyban függ attól, hogy az adatelemző csapatot milyen szakértőkből állítjuk össze. Egy ilyen csapat vázát a kódgenerálók, modellezők, BI szakértők adják. Azonban ez a csapatváz elsődlegesen arra alkalmas, hogy az adatvagyon infrastruktúráját építse fel. Mivel az adatelemző (data science) csapat tagjai jellemzően technikai/kutatói attitűdökkel rendelkeznek, legtöbb vállalatnál nehézkes a kommunikáció a társterületek felé. Vannak „tolmácsolásra” szakosodott szakemberek (adatstratégák, idealisták), azonban csak nagyon kevés cég keresi tudatosan őket.
Minarik Edét idézve: kell egy csapat, egy data science csapat, de olyan, amiben a kék mezűek mellett játszanak piros mezű játékosok is!
Ha ennél többet szeretnél megtudni az adatvagyon hasznosítási lehetőségeiről, a regisztrálj a képzéseimre vagy keress személyesen!