Vanntortur - En analyseanalogi går en bro for langt

dryppanalyse

Data, som vann, kommer i mange former. Det menneskelige sinnet har utviklet seg for å filtrere ut det meste av dataene som kommer vår vei fordi det bare er så mye av det.

Når du åpner øynene og ørene, er data overalt. Veggens farge, lyden fra klimaanlegget og lukten av naboens kaffe blir behandlet som fuktighet. Vannet er i luften hele tiden, men det er ikke nyttig å ta mye hensyn til det.

Når vann kondenserer til tåke, tvinger det deg til å se det og vanskeligere forståelsen av verden rundt deg. Ufullstendige datasett, ødelagte data, dårlig vitenskap, falske konklusjoner og kognitiv skjevhet gjør at du mister veien i tåken.

Data faller som regn. Når det bare er litt, er det veldig utilfredsstillende - akkurat nok til å gjøre bilen din skitten og forvirre samtalen. Du finner deg selv å tørke bort flekken på brillene dine når noen tapper et tilfeldig datapunkt, hentet fra en uklar kilde.

  • Foreldet vann i en grunne dam er farlig. Data, samlet inn fra en upålitelig forsyning, verken renset eller normalisert og overlatt til å bli stillestående, kan lett føre til feil konklusjoner.
  • A jevn sildring vann kan være akkurat nok til å fylle en kantine eller opprettholde et skogøkosystem. Bare tre datapunkter (antall sendte e-poster, versus åpnet, versus klikket) kan opprettholde et markedsføringsprogram.
  • A sunnere flyt data i form av en liten bekk kan brukes til bading. En kontinuerlig datastrøm tillater benchmarking og historisk sammenligning. Optimalisering av destinasjonssider kan oppnås med jevn konverteringsdata.
    A beskjeden elv kan drive en mølle til å sage tre eller male hvete. En anbefalingsmotor trenger bare pålitelig bidrag fra en håndfull bifloder for å gi en økning i verdien av handlekurver.
  • A foss kan drive et stort vannhjul og tilstrekkelig tilstrømning av informasjon kan føre til et dynamisk innholdssystem i sanntid.
  • A elv som er bredt og dypt nok, kan støtte en hel transportindustri. Nok data kan flyte lektere og lasteskip i form av en samling informasjonskapsler fra annonsenettverk, lojalitetskortprogramdataaggregatorer og datameglere.

Når data kommer i forventede mengder til forventede tider, kan de fanges opp, kanaliseres og tas i bruk. Vanningssystemer, dammer og reservoarer gir en følelse av kontroll og muliggjør bygging av en stadig utvidende infrastruktur med kanaler, låser og demninger. Datalager har blitt bygget på mindre pålitelige strømmer.

Renslighet er ved siden av guddommelighet

Rent vann er avgjørende for livets suksess, vanning, drivende kraftverk osv. Definisjonen av "rent" kan endres for formålet; det er OK hvis det er alger i vann som kjøler et kraftverk, og det er ikke akseptabelt hvis det er mer enn 10 deler per milliard arsen i drikkevann.

Data er den samme. I en direct mail-søknad er det ubetydelig om du har en persons tittel (Mr., Mrs., Ms.) ... med mindre du sender til legene. Men skitne data vil føre deg opp hver gang.

Som US Chief Data Scientist, DJ Patil, si det på et CTO-toppmøte i første runde, “Hvis du ikke tenker på hvordan du skal holde dataene dine helt fra begynnelsen, er du f ^ ¢ & red. Jeg garanterer det. Det vil i det minste ta flere måneder å prøve å rydde opp i det. ”

Hvis du varmer opp vann til kokepunktet, kan det drive en hel industriell revolusjon. Data ser ut til å gjøre det samme. Fra det øyeblikket datamaskiner kunne lagre og beregne, har data blitt samlet inn så raskt som lagringsutstyret kan opprettes for å gjøre det.

Data Lake

Når dataene fra disse biflodene sildrer gjennom møllens motorer, havner det hele i innsjøen bak dammen. Ettersom data slippes ut på en kontrollert måte, driver de turbinene i dataindustrien; de gigantiske motorene for databehandling med navn som Google og Facebook. Det blir ingen tørke her.

Og til slutt er det et dypt vannbasseng som venter på at analytikeren skal dykke i. Dykkeutstyr og spydpistol i hånden, undersøker analytikeren dypet, kartlegger ny bakke og oppdager nye arter. Det er en veldig spennende tid å være en datautforsker.

Det er derfor så mange av dem har dukket opp for Summit eMetrics siden 2002. Neste mulighet er i Boston 27. september til 1. oktober 2015.

Registrering av eMetrics Summit

A Bridge Too Far

Og hva med kraften i data for å skjære neste Grand Canyon? Hva med issmelting av strukturerte data? Hvordan behandler vi avløpsvann i en verden som blir mer og mer privatlivsbevisst?

Det er spørsmål for en annen gang og vann under broen.

Hva tror du?

Dette nettstedet bruker Akismet for å redusere spam. Lær hvordan kommentaren din behandles.