Data Mining
Wat is data mining?
Data mining is een onderdeel van Big Data Analytics en een middel waarmee je statistische verbanden, patronen en relaties kunt vinden in een grote berg data, oftewel Big Data. Bol.com maakt al gebruik van verfijnde data mining technieken, zoals ‘Anderen bekeken ook’.
Wat data mining uniek maakt ten opzichte van de standaard statistische analyses is dat data mining het mogelijk maakt om patronen en scenario’s te ontdekken in Big Data. Dit is niet mogelijk met simpele analyses. De reden hiervoor is dat data mining wiskundige algoritmes gebruikt om data te segmenteren. Hierdoor kun je met data mining voorspellingen doen en de waarschijnlijkheid van gebeurtenissen inschatten.
Voorbeeld data mining: Apriori algoritme
Een voorbeeld van een vrij simpel data mining algoritme is Apriori. Het Apriori algoritme wordt in data mining gebruikt om associatieregels te leren. Stel je hebt als winkel een groot aantal transactiegegevens:
- T1: Chips, zeep, appels
- T2: Chips, zeep
- T3: Zeep, bananen
- T4: Chips, zeep, bananen
Met het Apriori algoritme kun je dankzij learning associatieregels achter komen welke producten vaak samen gekocht worden. In dit geval zijn dat chips en zeep.
Data mining: Walmart
Walmart is een voorbeeld van een winkel dat het Apriori algoritme voor data mining toepast. Zo kwamen ze erachter dat jonge mannen die op vrijdagmiddag luiers kochten ook meer geneigd waren om bier te kopen. Daarom besloot Walmart om deze producten naast elkaar te plaatsen. En dit had effect: de verkoopcijfers van bier schoten omhoog. En inderdaad, dit resultaat had niemand kunnen voorspellen zonder data mining.
Het belang van datamining
Maar waarom is datamining nu echt zo belangrijk? Big Data bevatten, zoals de naam al aangeeft, veel data. Dit wil echter niet zeggen dat al deze data waardevol is. En dit is waar datamining om de hoek komt kijken. Met datamining is het mogelijk om de bruikbare gegevens eruit te filteren en deze op een goede manier te gebruiken, zodat je uitkomsten kunt voorspellen. Wil je dus daadwerkelijk goed gebruikmaken van Big Data, dan is data mining onmisbaar.
Risico’s data mining
Data mining is echter niet zonder risico’s. Aangezien je enorm veel data hebt, ligt het gevaar op de loer dat resultaten al snel een statistisch verband aantonen. In deze zin is het niets anders dan statistiek. Hier geldt namelijk ook: hoe groter het aantal gegevens dat je verzamelt, hoe eerder je statistisch significante verbanden of relaties vindt. Het vinden van dergelijke significante verbanden hoeft dus ook bij data mining niet te betekenen dat er daadwerkelijk sprake is van een oorzakelijk verband. Bovendien zijn ook data mining algoritmes gevoelig voor onder andere uitbijters en irrelevante kolommen. Data mining kan dus niet zonder een kritische blik en het is van groot belang dat je de data begrijpt.
Meer weten over data mining?
Data mining is in praktisch elke sector te gebruiken. Wil je meer weten over data mining en haar mogelijkheden? Wil je meer weten over Big Data Analytics? Volg dan de cursus Big Data Analyst bij de Big Data Academy. Dit is de plek waar je opgeleid wordt tot Big Data specialist. Na de cursus ontvang je van ons het Big Data certificaat waarmee je kunt aantonen dat jij zowel inhoudelijke als praktische kennis bezit over verschillende Big Data analysestrategieën, algoritmen en voorspellende modellen.