Mini cursus Data analyse lineaire regressie (4/4)
Deze week: Lineaire Regressie
Vorige week hebben we geleerd hoe je verbanden gebruikt in SPSS. Deze week gaan we verder met verbanden en focussen we ons op Lineaire Regressie in data analyse.
Als twee variabelen met elkaar samenhangen, kun je wellicht de onafhankelijke variabele (degene die beïnvloed) gebruiken om de afhankelijke variabele (degene die wordt beïnvloed) te voorspellen (Regressie). We kunnen dan een lineaire vergelijking berekenen. Een voorbeeld: je kan lengte gebruiken om het gewicht te voorspellen.
Voorspellen met data analyse
- Beïnvloeden van de resultaten
- Door voorspelling kun je ‘aan de knoppen draaien’
- Voorspellingen doen over soortgelijke groep
- Voorspellingen kunnen alleen tot aan de rand van de dataset!
Voorbeeld enkelvoudige lineaire regressie:
Van de onderzoeksgroep verzamelen we 2 variabelen, namelijk lengte in cm en gewicht in kg. Met enkelvoudige lineaire regressie trachten van de populatie op basis van de lengte het gewicht te voorspellen.
Om onze vergelijking te maken moeten we SPSS gebruiken. In SPSS gaan we naar het menu Analyze/Regression/Linear. In dit menu geef je aan welke variabele de Dependent is (Afhankelijk, in dit geval Gewicht is afhankelijk van lengte) en welke variabele de Independent is (Onafhankelijk, in dit geval Lengte). En je laat SPSS de berekening maken. Uiteraard kun je meerdere Independent Variabelen invoeren als je vermoedt dat er meerdere zaken zijn die van invloed zijn op de Dependent variabele. De output dat SPSS jou voorschotelt is de input voor onze lineaire vergelijking:
Voor onze liniaire vergelijing gebruiken we Ŷ= a+bx en voor onze vergelijking lengte/gewicht gebruiken we:
Gewicht = constante + coëfficiënt*lengte
Voorspelling Gewicht (Y dakje) op basis van bovenstaande gegevens:
Gewicht = 0,687 * lengte – 48,81
R2 = 0,55
Sig. Voor Lengte = 0,006
Wat betekent R2? R2 zegt ons iets over de verklaarde variantie. De R2 bereken je door R2 = r*r.
Hoeveel van de variantie in variabele X wordt verklaard door Y:
r= 0,1 => R2 = 0,01 (1% verklaard)
r= -0,3 => R2 = 0,09 (9% verklaard)
r= 0,6 => R2 = 0,36 (36% verklaard)
r= -0,9 => R2 = 0,81 (81% verklaard)
Dus voor ons voorbeeld lengte/gewicht is met R2=0,55 voor ongeveer 55% te verklaren!
Let erop dat per independent variabele de sig. kleiner moet zijn dan 0,05 (of 0,10 als je iets losser bent met je betrouwbaarheid). Daarnaast is de Adjusted RSquare een herberekening van de determinatie coëfficiënt (R-kwadraat). Deze correctie, corrigeert voor het aantal variabele wat je probeert te gebruiken om de Dependent te verklaren. Als je oneindig veel variabelen in de Independent lijst gooit, zal de lineaire vergelijking uiteindelijk 100% verklaren van de Dependent variabelen, vandaar dat er een correctie plaatsvindt.
Voorbeeld meervoudige lineaire regressie:
Wanneer er sprake is van 1 onafhankelijke variabele spreekt men van enkelvoudige lineaire regressie. Als er meerdere onafhankelijk variabelen in het spel zijn dan heeft men het over een meervoudige lineaire regressie.
Met meervoudige lineaire regressie trachten van de populatie op basis van vooraf bekende gegevens (Aanwezigheid, Zelfstudie, Afstand) het cijfer te voorspellen.
Van de onderzoeksgroep verzamelen we 3 variabelen:
- Cijfer tentamen
- Uren zelfstudie
- Aantal malen aanwezig bij college
Als output van SPSS krijgen we de volgende gegevens:
De formule voor een meervoudige reguliere regressie is als volgt opgebouwd:
Ŷ= a + b1x1 + b2x2
Op basis van de bovenstaande output van SPSS zal dit de formule worden voor onze voorspelling:
Cijfer = 3,839 + 0,249*uren + 0,219*aanwezigheid
De R² is in dit geval 0,689. Dat betekent dat de formule dus met ongeveer 69% te verklaren!
Dus met 6 uur aan studie en 10 lessen aanwezig, wat voor cijfer zou je dan halen?
Cursus Data analyse
Wil je op een professionele manier data leren analyseren? De cursus Data Analyse leidt jou door de wereld van de toegepaste toetsende statistiek. Je leert latente variabelen begrijpen en je leert hoe je betrouwbare en valide toetsen uitvoert.