Big data databases

Auteur:

Auteur: Dilek Türkyilmaz
Gepubliceerd op: 05-02-2015

Vandaag de dag worden er elke dag massale hoeveelheden data gegenereerd. Dit gebeurt ook nog eens steeds sneller. Als gevolg daarvan is big data analytics uitgegroeid tot een krachtig hulpmiddel voor bedrijven die op zoek zijn naar waardevolle informatie in deze berg gegevens. Organisaties zetten big data analytics in om winst te maken en concurrentievoordeel te behalen. Maar hoe kan je als bedrijf nu gebruik maken van al deze big data analytics? Daarvoor zijn er diverse NoSQL databases en andere big data technologieën. Als een van de belangrijkste big data oplossing wordt vaak Hadoop genoemd. Dit is een platform dat speciaal is ontwikkeld voor big data systemen.

Wat is Hadoop?

Als je analyses wilt uitvoeren met gestructureerde en ongestructureerde data, is het moeilijk om al deze gegevens in een traditionele database op te slaan. Dat neemt erg veel ruimte in en is een grote kostenpost. Om dit anders aan te pakken kan je gebruik maken van Hadoop. Apache Hadoop is een open source software framework waarmee je grote hoeveelheden gestructureerde en ongestructureerde data kunt opslaan en analyseren.
Bij ongestructureerde gegevens kan je denken aan e-mails, tekstdocumenten, serverlogs, Facebook berichten, foto’s en video’s. Al deze grote datasets worden verwerkt en in kleine blokken verdeeld en verspreid over meerdere computers, zodat deze tegelijkertijd gebruikt kunnen worden. Dit wordt gedaan met MapReduce en Hadoop Distributed File System (HDFS). Met Hadoop kun je snel en efficiënt de verschillende gegevens koppelen en analyseren zonder er eerst een structuur aan te geven. Hierdoor is er meer data beschikbaar en kent het combineren van gegevens meer mogelijkheden. Dit zorgt er voor dat organisaties diepere inzichten kunnen krijgen.
Wil jij graag meer leren over Hadoop? Schrijf je in voor een cursus Hadoop! Tijdens een cursus Hadoop leer je werken met Hadoop, MapReduce en HDFS en zal je een eigen omgeving inrichten.

NoSQL

Gegevens worden opgeslagen in databases. Dit is vergelijkbaar met een archief, maar dan is het digitaal. Deze gegevens worden gestructureerd, zodat deze informatie snel kan worden geraadpleegd. Vaak wordt de programmeertaal SQL gebruikt om informatie uit de databases te halen. Voor het gebruiken van databases met big data, is het handiger om NoSQL databases te gebruiken. NoSQL staat voor Not Only SQL en omvat de groep databaseservers die op cruciale punten verschillen van de klassieke relationele databasesystemen. NoSQL databases worden veel gebruikt in big data en real-time webapplicaties, omdat NoSQL databases veel sneller doorzoekbaar zijn. De voordelen van NoSQL databases ten opzichte van SQL databases zijn:

  • Het is makkelijk om (horizontaal) op te schalen.
  • Het is erg snel.
  • Er wordt een grote hoeveelheid data (tegelijkertijd) verwerkt.
  • Er is geen vooropgezet schema.

Databases

Hier volgt een korte uitleg over twee van de meest gebruikte NoSQL databaseservers. Deze databases worden ook bij onze cursus big data technologie besproken. Het gaat om de database Cassandra en database MongoDB.
Cassandra DB is een open source NoSQL database systeem, wat ontworpen is om grote hoeveelheden data over verschillende servers op te slaan. Cassandra kenmerkt zich door de goede schaalbaarheid en de fout tolerantie. Cassandra is het meest effectief wanneer het wordt gebruikt voor het beheren van echt grote hoeveelheden data (de soort die niet passen in een enkele server). Cassandra was oorspronkelijk ontworpen voor Facebook, maar is inmiddels overgenomen door Apache. Cassandra beschikt over een eigen taal, CQL (Cassandra Query Language) en is vergelijkbaar met SQL. De taal is vooral gebaseerd op Java.
Wil jij graag meer leren over Cassandra? Volg dan een cursus Cassandra! Tijdens een cursus Cassandra leer je werken met Cassandra, informatie in de database beheren en integratie met toepassingen en systemen.

MongoDB is een document-georiënteerde NoSQL database met open source en is gebaseerd op C++. MongoDB is zeer geschikt voor het opslaan en analyseren van grote big data volumes (zoals bezoekersaantallen en klikgedrag op een site) en de mogelijkheid om sneller data te zoeken. MongoDB gebruikt een JSON variant voor opslag, dat BSON wordt genoemd.
Wil jij graag meer leren over MongoDB? Schrijf je dan in voor een cursus MongoDB! Tijdens de cursus MongoDB ga je zelf een MongoDB database omgeving inrichten. Je leert documenten aanmaken, welke tools beschikbaar zijn om een database te beheren en welke rol MapReduce speelt. Daarnaast leer je een aantal beheertaken en toepassingen in webapplicaties.

Cursus big data technologie

Wil jij graag meer weten over de big data technologieën? Volg dan een cursus Big Data Technologie! Tijdens de cursus big data technologie leer je welke technologieën en tools belangrijk zijn bij het opzetten van een big data project en hoe de verschillende technologieën samen integreren. Daarnaast wordt er o.a. ingegaan op NoSQL, Cassandra, MongoDB en Hadoop inclusief MapReduce en HDFS. Ook wordt er stil gestaan bij big data, data mining, data opslag en privacy.

Terug