Náš projekt - vizualizace statistik NBA
ZPRACOVÁNÍ A ANALÝZA SPORTOVNÍCH DAT
...tak tohle je naše oficiálně schválené téma projektu. Že to zní dost široce a uchopitelně ze všech možných stran? V pořádku, o to nám přesně při zadávání tématu šlo. Nějak jsme se totiž pořád nemohly rozhodnout, jaký úžasný-převratný-mega překvapivý dataset budeme zkoumat. Ono totiž nebylo vůbec jednoduché vybrat si. Myslím, že budu mluvit z duše i Katce, své parťačce na projektu, že se nám díky studiu v DA otevřelo tolik možností, že nebylo snadné se z toho nezamotat.
Sportovní statistiky jsme chtěly dělat hned od začátku, pouze jsme vyměnily sporty - nejdříve jsme měly našlápnuto na volejbalové statistiky, ale nakonec se nám tak zalíbily NBA dostupná data, že jsme využily načasování letošního finále play-off a zkrátka šly do basketu :-)
Naším cílem byla vizualizace statistik hráčů pro potřeby širokého publika. Zapisování statistik během utkání či tréninků je snadné, ale my chtěly pomocí naší vizualizace v Power BI udělat práci trenérovi mnohem snazší a tedy efektivnější. Produkce herních statistik umožní trenérům a jednotlivcům hodnotit individuální a týmový výkon, což jim umožní zaměřit se na oblasti zlepšení a využít silných bodů svých svěřenců. Statistiky her by byly k dispozici prostřednictvím webové stránky nebo zaslány emailem. Tak takhle nějak jsme si to plánovaly.... Během práce na projektu jsme ale náš původní cíl lehce přepracovaly a za cílové publikum si určily fanoušky NBA. Zrovna jsem se totiž trefily přesně do chvíle vyvrcholení letošní soutěže play-off a byly samy velmi zvědavé, zda jsme schopny predikovat, který tým má letos lepší formu, aby celou soutěž vyhrál. Takže pojďme se podívat, z čeho jsme vlastně vycházely a kolik dat jsme si našly.
Naším cílem byla vizualizace statistik hráčů pro potřeby širokého publika. Zapisování statistik během utkání či tréninků je snadné, ale my chtěly pomocí naší vizualizace v Power BI udělat práci trenérovi mnohem snazší a tedy efektivnější. Produkce herních statistik umožní trenérům a jednotlivcům hodnotit individuální a týmový výkon, což jim umožní zaměřit se na oblasti zlepšení a využít silných bodů svých svěřenců. Statistiky her by byly k dispozici prostřednictvím webové stránky nebo zaslány emailem. Tak takhle nějak jsme si to plánovaly.... Během práce na projektu jsme ale náš původní cíl lehce přepracovaly a za cílové publikum si určily fanoušky NBA. Zrovna jsem se totiž trefily přesně do chvíle vyvrcholení letošní soutěže play-off a byly samy velmi zvědavé, zda jsme schopny predikovat, který tým má letos lepší formu, aby celou soutěž vyhrál. Takže pojďme se podívat, z čeho jsme vlastně vycházely a kolik dat jsme si našly.
Fáze 1 - ZÍSKÁNÍ DAT
Představte si, že jste totální IT nepolíbenec. Jako jasně, nějaké sociální sítě, email a excelovské tabulky umíte. Možná dokonce zvládnete i něco vyfotit, fotky upravit v kouzelné appce a publikovat, ale mám na mysli IT pojmy vyššího kalibru - databáze SQL, vizualizace v Power BI, programování v Pythonu, Google Analytics...Zní to dost hustě, co?
Na netu a kolem nás čeká taková spousta dat, že existuje snad nekonečně mnoho možných témat. Dosud jsem netušila, jakou magickou moc pro mě může mít spojení slov "open data source". Nikdy jsem nic takového nehledala, na škole jsme si vystačili s Českým statistickým úřadem a Eurostatem, příp. jsme si sami tvořili datasety skrz dotazníkové šetření.
Jak já se teď zpětně cítím ochuzená tím, že jsem neznala Power BI nebo že mě minula vlna digitálního marketingu... O to víc jsem den za dnem byla nadšenější, že se učím s Czechitas od těch nejlepších odborníků na datovou analytiku a že jsem součástí Czechitas komunity !
Před pár týdny nám začala ovšem trnitá cesta zpracování projektu vlastními silami. Nyní se ukáže, co jsme se naučily a jak dobře ovládáme dotazování se Googlu. Dlouho dobu jsme sháněly data po všech čertech. Měly jsme slíbená data přímo od trenéra českého teamu volejbalistek, ale nakonec to bohužel nevyšlo, tak jsme se musely vrhnout na open data source. Nějak jsme se pořád motaly kolem sportovních statistik, ale nic nám nebylo dost dobré a nedávalo nám to smysl. Mám pocit, že ta doba získávání dat zabrala nejvíce času. Jsem na nás ale moc pyšná, že jsme se nevzdaly a objevily během toho skvělé weby a tutoriály např. o data scrapingu, prográmky v Pythonu a práci s SQL dotazy. Sice jsme to nakonec v našem projektu nevyužily, ale důležité pro nás je, že prostě víme, kde hledat příště :-) Nakonec jsme našly štědrý zdroj údajů o NBA přímo z oficiálních stránek.
Fáze 2 - VYTVÁŘENÍ DATOVÉHO MODELU V SQL
Tak v této části jsme se vrhly na SQL dotazování a tvorbu datového modelu. Zde přišli na řadu naši mentoři Roman Baroš a Jan Richter, kteří jsou oba ostřílení IT borci a ví toho o databázích mega moc :-) Myslím, že z nás lehce vycítili, že nevíme, co dřív, a tak se nás snažili směřovat správným směrem, jak to jen uměli. Takže na následujících obrázcích můžete zřetelně vidět, jak hezky jsme si v tom SQL pospojovaly data a posléze vytvářely vlastní tabulky, které jsme si navrhly.
Zde je vhodné zmínit také nemalou zásluhu našeho lektora Miloše Minaříka za trpělivou snahu nám vysvětlit v lekcích SQL, jak na databázi snadno a rychle :-) Stejně tak Lenka Kmeťová nám do hlav moc hezky naskládala postupné kroky vytváření datového modelu a několikrát zdůrazňovala, jak dlouho některým lidem může trvat, než to pochopí. Takže všem výš zmíněným děkujeme, fakt nám to hodně pomohlo a náš model jsme si dlouho vyšperkovávaly.
Nicméně musím přiznat, že nakonec jsme si v návalu všeho toho stresu a chuti dodávat nové a nové tabulky a hodnoty do našeho datasetu, prostě vypomohly dále Excelem a Power BI a SQL databázi jsme neaktualizovaly, protože nám to přišlo jako zdržování. Ale pro budoucí upload nového ročníku NBA play-off už bychom určitě SQL databázi dotáhly do konce a poctivě v ní roztřídily skutečně všechna data, protože jsme pochopily, jak hodně času by nám to ušetřilo! Nejen při načítání dat do Power BI, ale také bychom s daty mohly dále přehledněji pracovat. Nu což, chybami se člověk učí :-)
Zde je vhodné zmínit také nemalou zásluhu našeho lektora Miloše Minaříka za trpělivou snahu nám vysvětlit v lekcích SQL, jak na databázi snadno a rychle :-) Stejně tak Lenka Kmeťová nám do hlav moc hezky naskládala postupné kroky vytváření datového modelu a několikrát zdůrazňovala, jak dlouho některým lidem může trvat, než to pochopí. Takže všem výš zmíněným děkujeme, fakt nám to hodně pomohlo a náš model jsme si dlouho vyšperkovávaly.
Nicméně musím přiznat, že nakonec jsme si v návalu všeho toho stresu a chuti dodávat nové a nové tabulky a hodnoty do našeho datasetu, prostě vypomohly dále Excelem a Power BI a SQL databázi jsme neaktualizovaly, protože nám to přišlo jako zdržování. Ale pro budoucí upload nového ročníku NBA play-off už bychom určitě SQL databázi dotáhly do konce a poctivě v ní roztřídily skutečně všechna data, protože jsme pochopily, jak hodně času by nám to ušetřilo! Nejen při načítání dat do Power BI, ale také bychom s daty mohly dále přehledněji pracovat. Nu což, chybami se člověk učí :-)
Fáze 3 – něco málo o NBA a basketbalu obecně
Během zpracování našeho širokého datasetu jsme se dostaly do bodu, že jsme měly spoustu ukazatelů a statistik, ale vlastně jsme pořádně netušily, co se za nimi skrývá. Přiznáváme, že basketu jsme moc neholdovaly, takže jsme raději nastudovaly jeho pravidla a podstatu NBA. Díky tomu jsme se např. dozvěděly, že za počátek vzniku současné podoby basketbalu je považován už rok 1891, kdy v USA, státě Massachusetts, spriengfieldské univerzitě, Dr. James Naismith upravil tuto hru pro potřeby studentů. Jeho cílem bylo vytvořit hru s intenzivní sportovní činností během zimní výuky v tělocvičně. Výsledkem byla hra, která podněcovala smysl pro spolupráci, byla snadno naučitelná a bez možnosti tvrdších zákroků. Naismith určil, že se při hře nesmí běhat s míčem v rukách a poměrně lehký míč bude vhazován do koše horizontálně položeného ve výšce. Z původních třinácti pravidel uveřejněných v lednu 1892 ve školním časopise Triangl se do dnešní doby zachovala pravidla o krocích a úderu pěstí do míče. Basketbal hrálo nejdříve devět hráčů, teprve v roce 1897 byl stanoven definitivní počet pěti hráčů.
National Basketball league (tj.NBA) je americkou nejvyšší basketbalovou soutěží a zároveň i nejprestižnější basketbalovou ligou světa. Tato soutěž vznikla v roce 1949, nejúspěšnějšími kluby v její historii jsou Boston Celtics, Los Angeles Lakers a Chicago Bulls. V současné době je součástí NBA třicet týmů, které jsou rozděleny do dvou konferencí, Western Conference (Západní konference) a Eastern Conference (Východní konference). Po skončení základní části postupuje osm nejlepších týmů z každé konference do vyřazovací části, takzvané Playoff. V Playoff postupuje vždy tým, který dosáhne čtyř vítězství. Do finále pak postupuje nejlepší tým z každé konference vyřazovacím způsobem. Body se počítají trojím způsobem. Za bod dosažený ze hry se počítají dva body pro dané družstvo. Pokud je koš dosažen z prostoru za tříbodovým územím, získává družstvo tři body. Při vhození koše z trestného bodu se počítá bod jeden.
V NBA se používá široký počet sledovaných metrik výkonnosti hráčů a teamů, které jsme si naskládaly do našeho interního slovníčku. K tomu nám pomohla vylepšená znalost Excelu´díky výtečnému lektorovi Pavlu Lasákovi a jeho dosahu maker. Pojmy totiž byly na webu uloženy v nepříjemné formě pseudotabulky, která se nám nedařila překopírovat do Excelu a různě bláznilo formátování.
Fáze 4 – (konečně) Power BI vizualizace
V NBA se používá široký počet sledovaných metrik výkonnosti hráčů a teamů, které jsme si naskládaly do našeho interního slovníčku. K tomu nám pomohla vylepšená znalost Excelu´díky výtečnému lektorovi Pavlu Lasákovi a jeho dosahu maker. Pojmy totiž byly na webu uloženy v nepříjemné formě pseudotabulky, která se nám nedařila překopírovat do Excelu a různě bláznilo formátování.
Fáze 4 – (konečně) Power BI vizualizace
Na tuto fázi jsme se těšily nejvíce, protože Power BI nás nadchlo, resp. Adéla Krátká nás během svého vyprávění a názorných ukázkách vizualizací v Power BI okouzlila, a tak jsme chtěly většinu projektu zvládnout s tímto nástrojem. Přišlo nám to na hodinách naprosto easy...Ach ouvej, jak jsme se mýlily a co všechno jsme si prožily. Nebudu přehánět, když řeknu, že poslední dva týdny jsme nedělaly ve svém volném čase nic jiného, než klikaly a zkoušely pracovat s naším datasetem v Power BI a bez výsledku pak tupě zíraly do počítače na další Error, který jsme si způsobily. Zas na druhou stranu jsme si procvičily angličtinu a dotazovací schopnost na web Power BI Community, kde je spousta řešení všemožných dotazů.
Takže blížíme se do finále, zde můžete vidět náš dashboard :
Vyzkoušet jeho funkčnost lze zde:
NBA
Závěr
Závěrem nutno podotknout, že jsme měly dalekosáhlé plány a vize, co všechno budeme mít v dashboardu a jak krásně propojíme naše predikce se skutečným rozsahem dat. Doufáme, že do prezentace na galavečeru ještě nějakou perličku přidáme, protože rozpracovaného toho máme spoustu. Leč náš časový rámec nekorespondoval s našimi povinnostmi a radostmi, které máme v rámci našich rodin a pracovních zařazení. I tak jsme se naprosto vydaly ze svého volného času a opravdu se znovu a znovu snažily objevit řešení našich dílčích kroků projektu. S pomocí našich dvou mentorů a zástupem koučů, kteří nabídli svou pomocnou ruku, jsme překročily svoje dosavadní limity a fakt mám pocit, že nám to myslí o dost jinak, než na začátku Digitální akademie :-) Poučily jsme se ze svých mnohých chyb a záludnosti Power BI krůček za krůčkem přicházíme na kloub. Moc rády bychom se do budoucna věnovaly právě vizualizacím a analýze dat. Však počkejte, ono to semínko analytického myšlení zaseté Czechitas akademií brzy přinese úrodu, my se jen tak nevzdáme, IT světe, těš se na nás!
Informační zdroje
Takže blížíme se do finále, zde můžete vidět náš dashboard :
Vyzkoušet jeho funkčnost lze zde:
NBA
Závěr
Závěrem nutno podotknout, že jsme měly dalekosáhlé plány a vize, co všechno budeme mít v dashboardu a jak krásně propojíme naše predikce se skutečným rozsahem dat. Doufáme, že do prezentace na galavečeru ještě nějakou perličku přidáme, protože rozpracovaného toho máme spoustu. Leč náš časový rámec nekorespondoval s našimi povinnostmi a radostmi, které máme v rámci našich rodin a pracovních zařazení. I tak jsme se naprosto vydaly ze svého volného času a opravdu se znovu a znovu snažily objevit řešení našich dílčích kroků projektu. S pomocí našich dvou mentorů a zástupem koučů, kteří nabídli svou pomocnou ruku, jsme překročily svoje dosavadní limity a fakt mám pocit, že nám to myslí o dost jinak, než na začátku Digitální akademie :-) Poučily jsme se ze svých mnohých chyb a záludnosti Power BI krůček za krůčkem přicházíme na kloub. Moc rády bychom se do budoucna věnovaly právě vizualizacím a analýze dat. Však počkejte, ono to semínko analytického myšlení zaseté Czechitas akademií brzy přinese úrodu, my se jen tak nevzdáme, IT světe, těš se na nás!
Informační zdroje
http://www.nba.com/playoffs#/
https://www.nejlevnejsisport.cz/vse-o-basketbalu-a-201.html
https://www.nejlevnejsisport.cz/vse-o-basketbalu-a-201.html
https://stats.nba.com/help/glossary/#tracking_player_points
http://telesna-vychova.studentske.eu/2008/03/historie-basketbalu.html

Komentáře
Okomentovat