STATISTIKA / DATA SCIENCE
Statistika / Data science
Statistika se zabývá zpracováním hromadných jevů a procesů. Obsahuje v sobě širokou škálu oblastí od sběru dat, jejich zpracování, statistické modelování a analyzování, až po vizualizaci, prezentaci dat a interpretaci výstupů.
Statistické nástroje nám pomáhají lépe porozumět vašim datům a díky nim lze provádět důležitá rozhodování a závěry podložené relevantními informacemi.
Průzkumová analýza dat
Data, která má uživatel k dispozici většinou nejsou dokonalá a velice často nejsou taková, jak bychom si je přáli mít.
Problémy způsobuje:
- formální nedostatky
- nejrůznější chyby
- obsahová pochybení
- chyby technického rázu
- chybějící pozorování a další
Na základě nevhodných, nedostatečných nebo dokonce chybných dat nelze provádět žádné adekvátní úsudky a činit jakékoliv užitečné závěry.
Cílem průzkumové analýzy dat (explorační analýzy, EDA) je nalezení základních znalostí v datech.
Vyhledávají se a identifikují se nestandardní chování dat, zjišťují se zvláštnosti v datech a ověřují se vlastnosti dat pro další statistické pracování.
Na základě této analýzy si děláme celkový obrázek o našich datech a zjišťujeme problémy, které se v nich nacházejí.
Statistické modelování
Statistické modelování je široká oblast metod, ze kterých čerpají obory statistiky, machine learningu a data science.
Vždy, když potřebujete zjistit nové informace ukryté ve vašich datech, můžeme provést statistické modelování a tyto informace odhalit. Lze například zjistit vztahy uvnitř vašich dat nebo pomocí predikčních modelů předpovídat další vývoj vaší činnosti.
K tomu využíváme celou řadu modelů, jejichž výběr závisí na definovaném cíli analýzy a charakteru dat:
Zjištění vztahů, souvislostí a závislostí
- Regrese
- Lineární modely
Zjednodušení úlohy cestou redukce dat při co nejmenší ztrátě informace
- Metoda hlavních komponent
- Faktorová analýza
- Korespondenční analýza
Třídění objektů či proměnných podle známých pravidel či nalezení takových pravidel
- Diskriminační analýza
- Shluková analýza
- Rozhodovací stromy
- Neuronové síťě
Vizualizace dat
„Jeden obrázek řekne více než tisíc slov.“
Informace sdělená grafickou formou bývá pro uživatele přehlednější a srozumitelnější než pouhé číselné výstupy. Díky zobrazení dat pomocí grafického jazyka lze zobrazovat a vzájemně propojovat velké množství informací, a pochopit tak i velmi komplexní problémy a vztahy.
Grafické zobrazení lze využít:
- jako obohacení číselných výstupů analýz
- jako samotnou analýzu dat
Cílem vizualizace je přeměnit abstraktní data v užitečnou a srozumitelnou informaci pro uživatele.
Budeme velice rádi,
pokud se rozhodnete pro spolupráci s námi.