Jak začít s daty

Kredit: https://www.flickr.com/photos/gleonhard/31254136671/in/photostream/

Všichni jsme slyšeli zvukový skus.

„Nejcennějším zdrojem na světě již není ropa, ale data“ - The Economist

Možná. Pokud jsou však data podobná ropě, stav dat v mnoha organizacích se podobá tomuto:

Rozlití ropy Deepwater Horizon

Nespočet datových toků se ztrácí v datovém oceánu. Zeptejte se jakéhokoli vědce s údaji a řeknou vám, že nejtěžší věcí v oblasti vědy o věcech je zachycení správných dat. Jak tedy začít?

1. Položte správné otázky

Sběr dat je kvůli tomu zbytečný a časově náročný. Musíme zjistit naše metriky, které by měly vycházet z cílů podnikání. Jaké jsou nejprodávanější produkty? Kde uživatelé opouštějí proces ve více krocích? Kolik aktivních uživatelů máme? Mnoho organizací prezentuje metriky svým zúčastněným stranám na základě věcí, které jsou schopny měřit (např. Tržby), což nemusí nutně odpovídat směru jejich společnosti.

Jakmile víme, co se snažíme měřit, můžeme určit, kde začít hledat data, a naplánovat kroky k zahájení zaznamenávání příslušných dat.

2. Poskytněte kulturu založenou na údajích

Jakmile organizace doroste do určité velikosti, nemůže se již čistě spolehnout na „střevní pocit“. Rozhodnutí by měla být založena na údajích a tato data musí být dostupná na všech úrovních.

Mohou zaměstnanci přistupovat k datům a metrikám nebo jsou za patnácti vrstvami zabezpečení a byrokracie? Zaměstnanci by měli být zmocněni provádět průzkum údajů v souborech údajů (které by měly být anonymizovány a zabezpečeny tak, aby respektovaly soukromí). K tomu je ideální analytická platforma pro vlastní servis. Tato práce musí být otevřená a transparentní. Je nezbytné umístit práci na řídicí panel a sdílet ji v celé organizaci.

Organizace musí pro tento druh práce poskytovat podporu, povzbuzení a zdroje. To znamená čas a peníze, avšak kultura založená na údajích bude podporovat informovanější rozhodování.

3. Najměte datové inženýry

Je běžným nedostatkem organizací najímat datové vědce, nikoli datové inženýry. Vědci dat jsou naprosto kritičtí, mohou najít vzory v datech, předpovídat výsledky a psát modely, které se mohou naučit zlepšovat. Upozornění je, že vše závisí na kvalitativních údajích. Data, která lze získat pouze prostřednictvím velké datové infrastruktury, ETL a automatizovaných pracovních postupů. To je obvykle role datového inženýra. Dejte práci lidem, kteří jsou pro ni kvalifikovaní, a co je důležitější, baví se to.

4. Začněte malé a levné

Může být velmi lákavé skočit na velký datový humbuk, vytvořit tým pro vědeckou práci s údaji, zakoupit software podnikové analýzy a utratit velké množství peněz s velmi malým množstvím, které vám za to ukážou. Před provedením velké investice lze toho hodně udělat. Zde jsou některé z nástrojů, které může organizace použít:

  • Analytické nástroje jazyka Javascript, jako je Mixpanel nebo Amplitude. Je zdarma až pro určité množství uživatelů měsíčně.
  • Proudění vzduchu pro automatickou správu pracovního toku. Vytvořil Airbnb a inkuboval v Apache Software Foundation. Je to otevřený zdroj a de facto standard pro datové inženýry.
  • Řídicí panely, grafy a průzkumy dat pomocí programu Superset (také společností Apache). Metabáze je také dobrá alternativa a obě jsou otevřeným zdrojem.
  • Vydání komunity Databricks a Kaggle. Oba mohou být použity pro procesy vědecké práce v cloudu a zdarma.
  • Amazon Web Services S3. Ne zdarma, ale zahrnuto zde, protože s technologiemi vyvíjenými dnes není vždy nutné mít datový sklad. Úložiště je levné a služby jako Databricks, MongoDB datové jezero, AWS Athena znamená, že můžete číst přímo ze svého datového jezera.

Tyto nápady budou pro organizaci dobrým základem k tomu, aby mohla začít zaznamenávat správná data a uvědomovat si svou hodnotu.