Jak funguje datová analytika v roce 2021 a jak na tom vydělat
Big Data, machine learning, AI i NLP. Šéf Big Data týmu Hynek Jína nám vysvětlil, jak se to dá v byznysu použít bez mlžení otravnými buzzwordy.
--
V Creative Docku je tajemné datové oddělení, jehož jsi šéfem. Jak bys popsal, co vlastně děláte?
Náš obor je živý organizmus, který se skládá ze čtyř součástí: Risk (rozhodování podle pravděpodobnosti), Data Science (kouzla), Reporting (obrázky) a CRM (porozumění zákazníkovi). První oblastí je analýza rizik. To znamená rozhodovací procesy. Když chcete posoudit riziko nebo třeba ohodnotit půjčku. Používáme to na mnoha našich projektech.
Analýza rizik a hledání souvislostí
To analyzujete data nějakého konkrétního člověka, jestli mu má třeba banka dát půjčku?
Ano, ovšem není to jen analyzování, ale i shánění těch dat. Snažíme se o tom člověku zjistit něco dalšího, co běžně firmy nevyužívají.
Takže jste celý den na Facebooku.
No v podstatě ano (smích). Když máš třeba svoji firmu a žádáš o úvěr přes náš P2P projekt Nafirmy, strojově se samozřejmě díváme do všech těch klasických registrů. Jestli nemáš dluhy a podobně. Ale to, co děláme tady v Creative Docku, je, že dodáváme i další informace. Říkáme tomu alternativní scoring. Prostě se díváme i na další věci o tvojí firmě. Jestli má facebookovou stránku, jestli nebyla založena minulý týden, kolik je tam sledujících, jak jste aktivní, jak vypadá tvoje webová stránka. To je řekněme nějaká první vrstva. Ale pak můžeš jít dál a prozkoumat, jak jste aktivní, co tam vůbec říkáte. Mohou tam být reviews atd.
No ano, tohle já znám, to dělám i jako novinář.
Ale my to právě děláme strojově. V podstatě jakoukoliv věc, kterou děláš víc než jednou, zautomatizujeme. Snažíme se ty věci zobecňovat.
Automatizujte vše, co se opakuje více než dvakrát
Ale svět je přece tak komplikovaný!
U spousty věcí to sice vypadá, že je děláš pokaždé jinak, ale když si je rozdělíš do menších úkolů, dají se tam najít stejné vzorce. Takže my hledáme obecnější věci a menší úkoly, které jsou nějak uchopitelné. Jsou to pak takové balíčky, ze kterých to můžeš skládat dohromady.
Vyplatí se automatizace vždycky?
Vždycky určitě ne. Když se chceš podívat jen na jednu firmu, je jednodušší podívat se „ručně“. Jestli nemá FB stránku a co tam je. Ale jde taky o to, že pak už nemáš srovnání s celkem. A ty chceš najít rozdíly nebo naopak styčné body, abys to nějak vztáhnul k ostatním firmám. Když se podíváš, jak vypadá na sociálních sítích jedna firma, už nevíš, jakou těm jednotlivým věcem dát váhu. A součástí našeho produktu je, že ti nejen stáhne informace, ale zároveň je i interpretuje.
To je to, jak o mně roboti dnes vědí víc než moje rodina?
Řekneme, že je fajn, že máš FB stránku, a je fajn, když máš tolik a tolik views. Ale strojově rozpoznáme i to, když ti lidé nadávají v komentářích.
Vaše algoritmy rozumí psanému textu?
Dá se to rozpoznat ze sémantiky. Zrovna tomuhle oboru se extra nevěnujeme, spíš na to používáme externí knihovny. To je celkově princip dnešního vývoje, používat primárně to, co už udělal někdo jiný. Ale abych odpověděl na tvoji otázku, tak ano, ten nástroj nám umí říct, jestli je ten příspěvek naštvaný, nebo pozitivní. Jestli tě chválí, nebo jestli je neutrální.
Teď se ale bavíme o tom, že hodnotíte miliony lidí.
Nabalujeme to teď na jeden příklad. Máš firmu a chceš si vzít půjčku. A my chceme vědět, jestli jsi dobrá firma. Když jsou třeba o tobě někde reviews, je to super, jednoduše se to interpretuje. Jedna hvězdička je špatný, pět dobrý. Když tam ale pak někdo napíše komentář, ty jako člověk vidíš, jestli ti nadává, nebo tě chválí. Ale když jsou tam stovky komentářů, tak i když se bavíme jen o jedné firmě, zhodnotit to ručně je už docela zdlouhavé. A u každého si říct, jestli je to pozitivní příspěvek, nebo negativní, a jak moc pozitivní… Navíc se to neustále mění v čase.
Takže by šlo teoreticky to samé udělat ručně?
Ano, ale nedává mi to moc smysl. To, co jsem teď popsal, je nějaký výsledek, kdy můžeme obodovat, jak tě lidí vnímají, a z toho nám vyplývá, jak jsi asi dobrý. Nicméně to je v této fázi pouze naše domněnka, kterou musíme porovnat s předchozími daty. Protože ono to taky může znamenat, že když ti lidé nadávají, jsi naopak schopen splácet dobře. Protože sice nejsi populární, ale dokážeš sehnat prostředky. Ten proces zkrátka nemusí být tak intuitivní, jak bychom čekali. Takže na takovém případě může vznikat docela robustní model.
Z čeho se ale celý ten postup poskládá?
Ze začátku to funguje jako expertní model. To znamená, že přijde nějaký chytrý člověk, který se vydává za experta (smích), a ten řekne: „Myslím si, že tohle je pozitivní, tohle je dvakrát tak pozitivní a tohle si myslím, že je problém.“ No a na základě toho vytvoříme score kartu, což znamená, že na tebe máme nějaký „šanon“, kde si píšeme, co na tebe víme. Za něco jsou plusové a za něco minusové body a na konci se to vyhodnotí.
Jenže tady je potřeba právě ten expertní názor: když máš 32 bodů, znamená to, že už je to dobré, nebo potřebuju aspoň sto, abych ti mohl půjčit? A jakou ti mám dát úrokovou sazbu? Kolik ti jsem maximálně ochotný půjčit? Tohle všechno někdo zkušený na začátku zhodnotí a my podle toho stavíme algoritmy.
To zní skoro jednoduše
Jenže pak jsou samozřejmě sofistikovanější metody. Neskládá se to jako jedna plus jedna, ale statisticky se vyhodnotí souvislosti. Vychází se z nějakých historických dat a řekne se: tady jsou lidé, kteří měli tyto znaky a současně se chovali takhle. Třeba ti, co měli hodně komentářů, spláceli. Nebo naopak nespláceli. Hledají se společné vzorce chování. A pak už to mnohem sofistikovaněji ohodnotíš.
A pak už nastupuje jako ještě vyšší fáze machine learning?
Ano, můžeš se pak dostat až k supersofistikovaným machine learningům. Algoritmy vytrénuješ na datech. Jenže pak se z toho může stát black box, kdy ani nevíš, proč to ten konkrétní výsledek přesně dalo. Což ale v tom risku nechceš dělat, protože u banky potřebuješ vědět, proč to tak je. Naopak třeba u Google Translate nepotřebujete vědět, proč vám dal zrovna tuhle větu. Neanalyzujete to. Tohle je výsledek a nikdo neví proč. A když se nám to nelíbí, dáváte mu jiná data, aby se to naučil jinak. Ale tady u nás chceme, aby tomu bylo rozumět. Protože když se pak někdo ozve: „Hele proč jste mi nedali úvěr, když jsem vlastně skvělej?“ tak my mu umíme říct: „Ale v tomhle jsi špatnej.“
Takže když mě zabanuje Facebook, lidé od nich možná ani nevědí, proč to udělal?
To je možné. Ale když si budeš stěžovat, mohou se na to podívat a zpětně to analyzovat.
Takže uživatelsky se dnes ML dotýká už každého člověka?
Určitě. Pobavilo mě, když jsem teď letmo zkoušel německý překladač DeepL, který začal válcovat Google Translate. Ne v používání, ale v kvalitě překladu. Kolega mi říkal, že tam dal nějaký svůj český text, přeložil si ho do angličtiny, líbilo se mu to, tak si to z angličtiny přeložil zpátky do češtiny a přišlo mu, že to má lepší češtinu, než jak to mělo původně (smích).
Chápu, že vy jako Creative Dock tyhle věci využijete. Ale jak moc jsou tyto technologie jako strojové učení dostupné už i pro malé firmy?
To záleží. V Dánsku jsme měli projekt Eat Grim. To je společnost, která vyrostla poměrně z ničeho, pár měsíců to dělali ručně. Princip je v tom, že měli křivé ovoce a zeleninu, které neodpovídají představám velkých marketů, jak má správně vypadat okurka a podobně. Když chcete strojem rozpoznat „špatně“ křivý banán nebo zeleninu, používají se na to neuronové sítě. Máš třeba nějaký pás, po kterém to jede, kameru a software, který porovnává: Je to správná barva? Tvar? Je to zralé?
Ale tohle už snad není pro garážovku. Když jsem firma o třech lidech, tak se mi taková technologie taky vyplatí?
Takhle obecně to nedokážu posoudit. Ale asi ještě nejsme v takové fázi, aby sis byl schopen aplikovat tyto technologie sám, když jsi třeba malý živnostník, jako autoservis. A i u větších firem je lepší mít na to lidi nebo firmy, jako jsme my, kteří ti s tím pomůžou. Jen tak jednoduše si to zatím nikde nenaklikáš.
Ale je to přece někde v cloudu, levné a dostupné.
Jedna věc je, že si koupíš nějaký výpočetní výkon, takže nemusíš mít vlastní hardware, na kterém se to počítá. Někdo to pak za tebe spočítá a výsledek ti pošle zpátky. Ale to ti vyřeší jen část toho problému. Ty to potřebuješ nějak použít.
Datová věda je nejvíc sexy věc
Takže po risku a automatizaci je váš další byznys co?
Je to Data Science, do které už jsme plynule přešli před chvílí. To jsou ty nejvíc sexy věci, které se pak píšou do prezentací (smích). Například jsme dělali projekt Crash. Pro pojišťovnu jsme z fotky rozpoznávali části poškozeného auta a odhadovali výši škody. Nebo projekt pojištění aut podle kvality řízení, kde na základě polohových čidel v mobilu zjišťujeme, jestli řidič jezdí bezpečně. Ale spadají do toho i mnohem častější věci jako recommendation engine. Znáš třeba Netflix nebo YouTube, které ti nabídnou další věc na základě tvého chování. To se nás reálně týká například teď na projektu pro Albert. Podle toho, co si kupuješ, a podle svých priorit ti můžeme doporučovat co nejvhodnější produkty a recepty. Ale zase, má to spousty vrstev. I v takovémto velkém a velmi úspěšném projektu je ten recommendation engine udělaný v podstatě tou nejjednodušší logikou. A v Albertu jsou rádi, že tomu rozumí, že vědí, co to dává za výsledky a proč se to děje. Nechtějí žádná kouzla. Máme už vymyšlené asi tři stupně, jak by se to dalo udělat robustnější a přesnější podle konkrétních metrik, ale zatím to takhle vyhovuje.
Ale to vyladění algoritmů už je pak asi rutina, ne?
Naopak. Záleží, podle čeho tu úlohu optimalizujete. Může tam být spoustu kritérií. Jestli chcete mít největší obrat nebo se třeba chcete zbavit věcí, které máte na skladě, nebo potřebujete podpořit nějaký segment, jestli se chcete zaměřit na luxusnější zboží nebo jestli chcete, aby si toho kupovali víc. Nebo můžete naopak chtít, aby si toho kupovali méně a tím se to stalo oblíbenější. Někdy se totiž vyplatí ten svůj produkt jakoby ničit, ale s tím, že získáte dlouhodobě nějakou výhodu. Třeba že máte lepší reputaci nebo získáte větší market share a podobné věci. Minimalizmus teď hodně frčí.
Jak jste ještě používali Machine Learning?
Třeba pro jednoho klienta jsme měli projekt, kdy jsme zjišťovali, jestli je střecha tvého domu vhodná pro umístění solárních panelů. Respektive jaká by tam byla návratnost, kolik bys tam toho musel dát atd. Myšlenka byla taková, že tam zadáš svoji adresu, my si načteme fotky z Google Maps, případně z katastru a několika dalších databází, a řekneme: „Ano, odhadujeme takový a takový potenciál. Takže budete potřebovat investici třeba za půl milionu, za sedm let se vám to vrátí a bla bla bla.“ A to vše, aniž by tam někdo musel jezdit.
Toto jsme ovšem měli jen ve fázi prototypu, ale tím to skončilo. V tom je ta tvrdost byznysu. Často se udělá nějaký krok, ale nepřináší to tolik, kolik jsi očekával, tak se to pauzne. Někdy se to třeba po čase zase vytáhne, anebo ne.
Tak nějaký veselejší příklad.
Co jsme ale dotáhli, bylo něco podobného na projektu Refinanso. Když chceš refinancovat hypotéku, řekneš, jakou máš nemovitost, a my řekneme, že jsme si jistí, že na 80 % to zvládneš. A že se cena tvé nemovitosti pohybuje v rozmezí třeba 6 až 7 milionů. Strojově analyzujeme různé mapy, katastr, ale i cenové mapy, ale také jak se pohybují inzeráty podobných nemovitostí v okolí. Je tam spousta věcí, které se dají posuzovat. A výsledkem je, že tam nemusíte posílat agenta, který to nacení.
Výhoda větší firmy, jako je Creative Dock, oproti nováčkům je tedy v knihovně nějakých hotových řešení?
Jsou to dvě síly, které jsou proti sobě. Je to o nějaké optimální velikosti a to každá firma pořád hledá. Čím víc máte zkušeností, tak pokud se ti to daří dobře dokumentovat, zvětšuje se vaše know how. Celý vývoj může být rychlejší. V tom máme v Creative Docku už poměrně dobrou výhodu. Hodně věcí jsme si už vyzkoušeli. Dnes je ten trh ale tak rychlý, že stejně běžně jdeš dělat věci, které ještě nikdo na světě nedělal nebo ho nejsi schopný najít. Protože dnes jsou ty technologie úplně jiné, než byly třeba před dvěma lety. Vezmi si třeba, který software, co dnes používáš, před dvěma lety ještě ani neexistoval? Takže když jsi zase firma, která je tu 20 let, nemusíte mít už zase tak velkou výhodu. Ty 20 let staré zkušenosti už dneska nejsou moc relevantní a může tě to naopak zatěžovat.
Takže my tady v Creative Docku se snažíme najít nějaký zlatý střed. Abychom měli nějakou historii a abychom tu měli lidi, kteří s tím mají zkušenosti. Víme, které cesty nám fungovaly, ale zároveň nejsme ještě tak zkostnatělí, aby nás to brzdilo. Moje představa je nevytvářet nějakou pyramidu, která stále roste, ale abychom spíš vytvářeli síť, která se všemožně propojuje, a když už je něco funkční, jen se ten spoj posílí.
Všechno je to o optimalizaci?
Je to stejné, jako když pořádáte nějaký meeting. Musíte řešit, jestli jsou tam ti, co tam mají být, ale také musíte naopak řešit, jestli tam není někdo navíc. Tohle je hrozná past, se kterou mají velké firmy problém, a nám se tomu myslím daří docela dobře vzdorovat.
Jak to u vás funguje? Inovační tým za vámi přijde, že potřebují řešit nějaký problém, a nebo vy navrhujete, že by šlo něco vylepšit?
Připadá mi, že je ten náš obor pro ostatní lidi dost nesrozumitelný a abstraktní. Je těžké si představit, co vlastně děláme. Když budete dělat nějaký nový projekt, každý ví, že tam bude potřebovat nějaké programátory. I kdyby to byla jen nějaká obyčejná webovka, IT potřebují všichni. Každý ví, že když budu dělat aplikaci, potřebuji tam nějaký vývoj. U těch dat je to ale takové možná… něco, asi… Víš, že budeš potřebovat databázi, ale už ne, že tam třeba bude potřeba nějaká supertechnologie. Takže často se s tím nepočítá a najednou po půl roce někdo přijde s tím, že „hele, my tu máme docela problém, potřebovali bychom tam něco odbavovat“. Takže my jsme často v pozici, že hasíme problémy, a z toho se snažíme systematicky dostat. Spousta projektů je ale samozřejmě i naopak. Ví se, že to celé na nějaké takové technologii bude stát. Když jsme dělali například Mutumutu, věděli jsme od začátku, že tě budeme odměňovat podle toho, jak se hýbeš, a to bylo potřeba napočítat.
Jaký máte aktuálně v Creative Docku nějaký sexy datový projekt?
Ono se právě vždycky mluví jen o těch senzacích a já to chápu. Ale často je to o tom, že na něčem jeden člověk pracuje půl roku a pak se to zavře do šuplíku, protože se ukáže, že to byznysově není tak silné. My jsme sice rádi, že jsme si na to mohli sáhnout a dělali jsme nějakou pěknou věc, ale často jsou efektivnější triviálnější věci. Když třeba něco zautomatizuješ, tak ty věci zjednodušíš, člověk to pak třeba jen zkontroluje. Například na našem projektu Fairo. To je banka na Ukrajině, kde používáme různé párování dat. Propojujeme tam bankovní data a data od zákazníků. Když se třeba někteří uživatelé mateřské banky a toho produktu protínají, zjednodušuje se proces přihlašování. Když se registruješ, nemusíš už dělat tolik kroků a odpovídat znova na to samé, protože tvoje banka už ty věci ví.
To je něco, co zoufale chybí naší státní správě.
No ano. U nás v Creative Docku se totiž věci řídí logikou (smích). Takže se snažíš neobtěžovat člověka blbostmi. Na volném trhu když někoho otravuješ, tak si ubližuješ.