Už pošesté bude Vysoká škola ekonomická (VŠE) hostit KPMG Data Festival. Akce samotná, ale i práce s daty ušly v naší zemi dlouhou cestu. Dnes už není nutné firmám vysvětlovat užitečnost dat, jak říká v rozhovoru pro nás zakladatel festivalu a platformy Data a Business Ota Novotný.
Práce tím ale nekončí a pozornost se proto dnes směřuje k tématu, jak správně s daty zacházet. Do jejich analýzy budou pravděpodobně mluvit i nástroje umělé inteligence. Samotná VŠE reaguje na rostoucí poptávku po datových expertech dalšími studijními programy. V čem budou spočívat? A co je datové podsvětí? Přečtěte si rozhovor s Otou Novotným.
Proč jsou data důležitá?
V datech se odráží celý náš život, působení firem i fungování společnosti. Všechny tyto složky produkují data. Je jenom na nás, jak se s nimi naučíme pracovat. Pokud se je naučíme dobře analyzovat, lépe pochopíme všechny naše aktivity, vlastně celý náš život. A to nám umožní efektivněji pracovat a dělat lepší rozhodnutí.
Letošní ročník KPMG Data Festivalu má podnadpis Tajemství datového podsvětí. Co si pod tím můžeme představit?
V mytologiích je podsvětí obvykle místo, kde se dějí nepěkné věci, nebo kde věci nejsou úplně v pořádku. Stejně je tomu i se světem dat. Spousta firem má velké datové sklady, ale v každé vždy najdeme nějaké podsvětí jako jsou výsledky neúspěšných iniciativ, nepoužívané reporty nebo hromady nekvalitních a nepoužívaných dat. Cílem našeho festivalu je tento nepořádek rozkrýt, ukázat firmám, kde ho mají hledat a jak se ho můžou zbavit. Nikdy to nepůjde stoprocentně, ale velikost datového podsvětí a míru nekvality dat určitě můžeme omezit.
Říkáte, že boříte mýty týkající se dat. Jaké jsou ty největší?
Jde hlavně o zkratku mezi datovou analýzou a úspěchem. Když začnu analyzovat data, najednou budu úspěšnější, budu mít více zákazníků, víc toho o sobě vědět a dělat lepší rozhodnutí. Mezi tím ale ještě chybí mezistupeň, data musí být správná a hlavně se podle nich musím řídit a rozhodovat. Teprve potom může následovat vytoužený úspěch. Spousta firem si nakoupila drahý software pro analýzu dat, ale pak je čekalo nepříjemné překvapení, když se výsledky nedostavily. To je první mýtus.
Druhý mýtus předpokládá, že je v datech je všechno, a správně provedená datová analýza vždy přinese nějaké nové netušené poznání. Často se ukazuje, že některé věci v datech prostě zaznamenány nejsou, nejdou z nich dopočítat, a i to se musí brát v úvahu. Vždy je potřeba uplatnit kritické myšlení a tím validovat výsledky datových analýz.
Třetí mýtus je ten, že firmy mají vždy správná data. To není úplně pravda. Společnosti je často mají chybně uložená a nedobře kvalitativně ošetřená. Dá velkou práci se vůbec dostat k tomu, jaká data jsou kvalitní, jak jim mohu věřit a na tuto skupinu se pak soustředit a dostat z ní nějaké další výsledky.
Co pro práci s daty znamená vstup generativní AI jako ChatGPT?
Přímo pro datovou analytiku to zatím vidím jako malý krůček, začátek velkého posunu. Nejdříve je totiž potřeba se naučit používat tyto nástroje pro analýzu textu, přípravu podkladů a podobně. Už se ale začínají objevovat první aplikace, které nám umožní ptát se dat úplně stejně, jako se teď ptáme textu nebo jazykového modelu ChatGPT.
Díky nim se budu v blízké budoucnosti moci zeptat umělé inteligence, co je v mých datech zvláštního, nebo jak se něco vyvíjí. Tím odpadne velká část problémů jako například nezbytnost naformulovat dotaz v jazyce SQL nebo napsat program v programovacím jazyce Python. Cesta od kvalitních dat k výsledkům bude mnohem rychlejší.
Začínají české firmy chápat význam dat pro jejich činnost? Dá se zaznamenat nějaký posun ve srovnání před pěti lety, kdy byl první ročník festivalu? Jakým chybám by se firmy měly vyhnout ve využívání dat?
Ano, ten posun je hodně vidět na porovnání počtu přednášek a partnerů v prvním ročníku festivalu a teď. Mění se i témata. Ze začátku jsme se hodně soustředili na vysvětlování, proč by se měla data analyzovat. Návštěvníci se nás ptali, jak mají ve svých firmách vysvětlit nezbytnost jejich analýzy. Jakým způsobem by měli argumentovat svému vedení, které říká, že je to zbytečné a že se prostě podívá z okna a rozhodne se stejně dobře.
Tato doba už pominula, firmy dnes dobře chápou význam datové analytiky. Kolem tohoto tématu se udělalo hodně osvěty a teď se začínáme věnovat tomu, jak dělat analytiku správně. Jak zajistit, aby ve firmě nebylo datové podsvětí a aby firma neinvestovala spoustu peněz do nástrojů, které potom nevyužije. Jak se zaměřit jen na skutečně důležitá data.
Začíná chápat význam dat i naše školství? Produkují naše školy dostatek expertů na práci s daty?
Sám jsem reprezentantem školy, která si tuto problematiku uvědomuje. Nabízíme datové programy a i další školy se na ně začínají zaměřovat. Náš obor se postupně rozvíjí, ale počet absolventů stále není dostatečný. U nás dosahuje ke dvěma stům lidí ročně, ale poptávka po nich je podle mého odhadu zhruba desetkrát vyšší.
Připravujete na VŠE nové studijní programy týkající se dat. Můžete je blíže představit?
Už teď máme na Fakultě informatiky a statistiky celé portfolio datových programů. Jedná se o bakalářské a magisterské programy, ale i studium MBA pro celoživotní vzdělávání.
Teď připravujeme druhou vývojovou verzi našeho magisterského programu, který posouváme ještě víc směrem k praxi. To znamená, že v něm připravujeme takzvané datové odvětvové specializace. Studenti si budou moci vybrat, jestli se budou chtít věnovat datové analytice ve výrobě, v retailu, v marketingu nebo ve veřejné správě. Tyto jednotlivé specializace budeme učit s našimi partnery z byznysu a veřejné správy. Posluchači se díky tomu už za studií potkají s odborníky z daného odvětví. Experti našim studentům vysvětlí fungování jejich sektoru, jaké je v něm názvosloví a s jakými výzvami se zde setkají. Naši absolventi se pak díky tomuto přístupu rychleji v dané firmě aklimatizují.
Já osobně si taky slibuji, že naši studenti obohatí firmy o datově analytické know-how, které tam v některých případech může chybět. Výuku v tomto programu budeme startovat od září příštího roku.
Jak vlastně přistupují k práci s daty instituce státu? Naučil se už stát využívat oceán dat, který o nás občanech a firmách má?
Tady se nedá úplně paušalizovat. Některé instituce, jako samozřejmě Český statistický úřad nebo Národní kontrolní úřad, s daty pracují na každodenní bázi. Jinde to je velmi různorodé a závisí to i na tom, jestli a jaká mají datová oddělení a jak s daty pracují. Mě například mrzí malý zájem o práci s daty ve zdravotnictví. Analýzy zde sice vznikají, ale chybí vůle se jimi řídit.
Velký problém vidím v malé propojenosti center datové analýzy jednotlivých úřadů. Každá agenda má svou datovou analytiku, ale postrádám nad nimi nějaké jednotící rozhraní, které by umožňovalo komplexní práci s daty státu. I kvůli tomu stále ještě moc nevyužíváme možnosti, co by se dalo s daty na úrovni státu dělat.
Ve kterých sektorech očekáváte v příštích letech explozi ve využívání dat?
Už nečekám nějakou velkou revoluci, sektory využívající data se už celkem jasně vykrystalizovaly. Jde zejména o bankovnictví, pojišťovnictví, výrobu, možná i veřejnou správu a další. Lídři trhu, zpravidla tedy větší firmy, už dávno s datovou analýzou pracují.
Osobně čekám expanzi ne do šířky, ale do hloubky nebo do počtu firem, které se datové analytice věnují.
Předpokládám, že právě i díky technologiím, jako je ChatGPT, a zpřístupnění analytických technologií široké bázi uživatelů se možnost pracovat s daty posune i do středních a menších firem. Na druhou stranu zde stále vidím velké nedostatky. Ty plynou třeba i z toho, že si menší společnosti často nemůžou dovolit experta přímo na datovou analýzu a tuto kompetenci musí převzít někdo ze stávajících zaměstnanců – musí se datovou analýzu doučit.
Jak dobře se dají data sehnat? Jinými slovy, ve kterých odvětvích jsou dobře dostupná a kde se k nim naopak složitě dostává?
Obecně se data z daného sektoru nebo firmy dají sehnat velmi těžko bez ohledu na odvětví. Data obsahují všechno, například jak firma funguje, kde má mezery, kde má nedostatky v konkurenceschopnosti a podobně. S takovými daty se nikdo příliš nešíří a nepouští je na trh.
Vidím potenciál právě v roli profesních sdružení, zastřešující velké firmy z daného odvětví. Jde třeba o sázkové kanceláře. Jejich společná aktivita pomáhá odhalovat hráče na hranici závislosti. Není nutné si přímo vyměňovat osobní data konkrétních lidí, ale know-how, jak takového uživatele identifikovat. Každá sázková kancelář si pak sama stanoví způsob, jak přesně takové know-how použije.
Očekáváte, že i „běžní občané“, kteří dosud neměli o využití dat ponětí, je budou v nedaleké budoucnosti běžně využívat pro svoje osobní účely?
Nečekám, že bychom se všichni učili principy datové analýzy, programování datových modelů a podobně. Ale budeme běžně využívat, notabene už to teď děláme, třeba v rámci nástrojů umělé inteligence, datové analýzy, které pro nás někdo připraví.
Možným příkladem datové analýzy “pro všechny” jsou mnohé iniciativy zaměřené na automatizované odhalování „fake news“. Čtenáři získávají možnost si ověřit, jestli má nějaká zpráva atributy takových lživých sdělení. Jiná otázka je, jestli se jimi budou řídit.
Šestého října se bude na půdě Vysoké školy ekonomické v Praze konat již šestý ročník KPMG Data Festivalu, tentokrát s podtitulem Tajemství datového podsvětí. Jeden z největších datových festivalů u nás je pořádán vzdělávací platformou Data a Business ve spolupráci s FIS VŠE a podnikatelským akcelerátorem xPORT VŠE Business Accelerator.
Program festivalu pokrývá aktuální trendy, což odráží i jeho letošní tematické okruhy – Démoni AI a GPT, 50 odstínů datové šedi a Záhada datového skladu. Tradičně se na něm podílejí startupy i větší firmy a další významní partneři.
KPMG Data Festival je otevřená akce pro zájemce o problematiku dat a všeho, co s nimi souvisí. Festival nabídne přednášky o základech práce s daty, workshopy pro začátečníky i mírně pokročilé na řadu témat, od vizualizace přes analýzy textových dat až po data science, interaktivní hry s daty nebo umění v datech.