Wat wordt bedoeld met Big Data?
Bedrijven, het rijk en onderzoeksinstellingen en andere organisaties verzamelen al jarenlang gegevens. Bijvoorbeeld via reguliere bedrijfsinformatie, klantenkaarten en interviews. Alleen de hoeveelheid die automatisch geregistreerd wordt is gewijzigd. Veel apparaten hebben tegenwoordig sensoren die registreren. Veel data wordt verstuurt en geregistreerd vanuit telefoons, camera´s en ander apparaten. Op internet wordt van alles geregistreerd op sociale media, webwinkels en tijdens het gewone surfen. Maar dat feit op zich is niet waaraan men refereert met Big Data. Wat dan wel?
Het samenvoegen en de analyse zijn eigenlijk Big Data
Hierboven gaat het over afzonderlijke registraties. En veel gegevens is niet hetzelfde als het begrip Big Data.
De techniek is nu zo ver dat men terra-grote hoeveelheden data op kan slaan. En er zijn tools om met deze data te werken. Het is tegenwoordig mogelijk nog grotere gegevensbestanden te combineren en te doelgericht te bevragen.
Met het begrip “Big Data” bedoelt men meestal doelgerichte analyse en gebruik van deze gegevens. Door verschillende gegevensbestanden te combineren, kun je met geavanceerde gegevenstools (onverwachte) correlaties vinden. Er wordt geprobeerd correlaties te vinden tussen gebeurtenissen, personen en omgeving. Op basis van die correlaties wil men beslissingen nemen en doelgerichte activiteiten ondernemen.
Wat kunnen instanties hiermee doen?
Met een bedacht voorbeeld probeer ik te illustreren hoe gegevens gebruikt kunnen worden.
Een bedrijf werkt met klantenkaarten. Je koopt er levensmiddelen in de supermarktafdeling en kleding via de webwinkel. Je wijzigt je koopgedrag. Je koopt de afgelopen weken meer light producten. In de webwinkel van het bedrijf kijk je bij kleinere maten bikini´s dan wat bij vorige aankopen als jouw eigen maat was. De zomer nadert. Naar aanleiding daarvan wordt geconcludeerd dat je vermoedelijk aan de lijn doet voor de zomervakantie. En kun je een aanbieding van afvalclub Weight Watchers toegestuurd krijgen.
Het bedrijf heeft een analyse gestart omdat een maand voor de vakantie veel starten dames met lijnen. Weight Watchers heeft het bedrijf ingehuurd om hun gegevens te gebruiken voor een analyse. En de mogelijkheid de klanten een aanbod te doen.
Misschien krijg je wanneer je je hiervoor aanmeldt een bijpassend receptenboek met producten die je in het bedrijf kunt kopen.
Bovenstaande moet bekend voorkomen. Diverse supermarkten beweren (soms al jaren) te werken met aanbiedingen op maat. Tot nu toe sluiten die aanbiedingen eigenlijk nooit aan bij mij persoonlijk. Maar het moet mogelijk zijn dit te optimaliseren.
Een belangrijk aspect bij dit alles is de privacy gevoeligheid. Wanneer klanten denken dat hun gegevens niet veilig zijn bij een bedrijf zullen ze afhaken. Er stomweg van uit gaan dat iedere klant zal blij zijn met dergelijke persoonlijke aanbiedingen, klinkt naïef. De meeste mensen zijn niet zo gesteld op organisaties die hun privé gegevens verzamelen.
Niet kloppende persoonlijk aanbiedingen, wat nu nog vaak gebeurt wekt, ook irritatie op. Want de klant heeft het gevoel dat er misschien wel geschikte aanbiedingen zijn, maar dat juist hij meer moet betalen door de mismatch.
Tegenwoordig hoor je vaak het woord risicoprofiel. Bijvoorbeeld de veiligheidsdienst die bepaalt of iemand potentieel een terrorist zou kunnen zijn. En actiever in de gaten gehouden moet worden Of verzekeringsbedrijven die informatie gebruiken om risico’s van klanten in te schatten.
Terecht kan hier de vraag gesteld worden tot hoe ver dit kan en mag gaan.
Betrouwbaarheid van de conclusies
Het analyseren van dergelijke hoeveelheid gegevens is niet altijd makkelijk. En dan bedoel ik niet de technische verwerking. Maar het is moeilijk tot goede en juiste conclusies te komen.
Juiste conclusies kun je alleen trekken wanneer de gegevens representatief zijn voor die groep. Vaak is dat niet duidelijk. Zijn alle mensen die twitteren in Nederland representatief voor de Nederlandse bevolking? Die kans is klein. Bepaalde demografische groepen, bijvoorbeeld leeftijdsgroepen zullen onder- en oververtegenwoordigd zijn
Verder betekent een correlatie tussen gegevens lang niet altijd een oorzakelijk verband. Er kan wel een verband zijn, maar dat hoeft zeker niet een direct verband te zijn.
Wanneer in de herfst blaadjes van de bomen vallen wordt er meer televisie gekeken. Er is een verband, vermoedelijk het feit dat de dagen korter worden. Maar je kunt niet concluderen dat het vallen van blaadjes leidt tot meer televisie kijken.
Wanneer je ontdekt dat kankerpatiënten meer fruit eten, kun je niet concluderen dat fruit kanker veroorzaakt. Data analyses wijzen juist in de richting dat het eten van fruit een factor is die de kans op kanker verkleint.
Wanneer je werkt met veel gegevens en verschillende eigenschappen kun je ook makkelijk correlaties vinden, die in de praktijk los van elkaar staan.
Wat is er nu nieuw?
Grote gegevensbestanden op dergelijke wijze gebruiken gebeurt al veel langer.
De hoeveelheid data die via internet verzameld wordt is toegenomen. En de kracht en tools om dit te verwerken verder ontwikkeld. Internet marketing bedrijven komen momenteel vaker met het idee om website data te combineren met off-line gegevens. Dit wordt gebracht als een een nieuwe ontwikkeling. Wat misschien ook zo is wanneer veel meer bedrijven hiervan gebruik gaan maken.
Verbanden tussen gedrag in de winkel en op de website kunnen alleen gelegd worden wanneer klanten dat toestaan. Wanneer ze een klantenkaart gebruiken in de winkel en een loginnaam hebben op een webwinkel.
Andere verbanden kunnen anoniem zijn. Bijvoorbeeld de invloed van het weer. In regenachtige zomers worden over het algemeen meer reizen naar warmere landen geboekt. Op zich is dat niet zo´n opmerkelijk of nieuw feit. Met big data zou het mogelijk kunnen zijn meer verbanden te vinden tussen het weer of andere factoren en koopgedrag.
Andere factoren zou demografische informatie kunnen zijn zoals leeftijd, of je getrouwd bent en kinderen hebt, waar je woont, je salaris en welke websites je bezoek.
Wanneer zijn deze analyses zinvol?
Meer gegevens, meer tools voor rapportages en meer analyses is dat zinvol? Deze ontwikkeling wordt pas zinvol wanneer een organisatie in beweging komt. Analyses kunnen leiden tot zinvolle acties. Of tot het wijzigen van de strategie van een bedrijf of instantie. Dat vereist natuurlijk dat ook dat het effect van doorgevoerde wijzigingen geanalyseerd wordt.
Voor commerciële bedrijven zal opgaan dat wijzigingen zinvol zijn wanneer de klant tevreden is en meer tevreden wordt.
Lees meer in artikel “De Big Data hype”, waar in een video analytics experts hun mening geven.