Mini cursus Data analyse T-toetsen (1/4)

Deze week: t / t2 toetsen, is een verschil wel een verschil?

De omvang en snelheid van hedendaagse datastromen maakt het analyseren van data noodzakelijk. De komende weken zullen we korte tutorials schrijven met betrekking op data analyse. Om statistische analyses uit te voeren is het computerpakket SPSS een veel gebruikte programma. In deze korte tutorial laten we jou zien welke toetsen je in verschillende situaties kunt toepassen.

T-toets in data analyse

Wanneer is een verschil nu significant is of niet? Voor deze tutorial gaan we bepalen of een verschil significant was op het 95 of 99% niveau. SPSS geeft je de mogelijkheid om een significantiewaarde op te vragen. Met deze significantiewaarde kun je aangeven of het verschil wel of niet significant is.

Laten we de hypothese nemen dat een student gemiddeld 10 uur voor het tentamen moet studeren voor een voldoende. We verwachten dat dit lager is (voor het onderzoek) en doen een onderzoek onder tweedejaars studenten. We vragen aan SPSS om te kijken of het gevonden gemiddelde afwijkt van 10 uur studeren en houden in ons achterhoofd dat we enkelzijdig toetsen. SPSS geeft ons via Analyze/Compare Means/ One-Sample T-test de uitkomst van normale t-toets. Je vergelijkt namelijk een gevonden gemiddelde met een aanname.

cursus data analyse training data analyse

SPSS geeft aan dat in het onderzoek een gemiddelde is gevonden (onder 55 studenten) van 7,56. We toetsen tegen de waarde 10. SPSS rekent voor ons de formule uit en geeft een t-waarde (-3,552). Nu komt de significantiewaarde om de hoek kijken (Sig (2-tailed)). Stel dat uit ons onderzoek het gemiddelde van 10 zou komen (wat we hadden verwacht) dan zou Sig. (2-tailed) 1 zijn (=100%). We willen een uitspraak doen met 95% zekerheid/betrouwbaarheid dat ons gemiddelde significant afwijkt van de aanname. Dat betekent dat wij op zoek zijn naar een sig. die kleiner is dan 0,05. Want dan geeft SPSS aan dat de kans dat ons gemiddelde hetzelfde is als die vanuit de aanname kleiner is dan 5% en kunnen we omgekeerd dus met 95% betrouwbaarheid zeggen dat het gemiddelde afwijkt.

SPSS bekijkt in de t-toets altijd de hypothese 2 zijdig en telt dus beide kanten van de verdeling bij elkaar op. Als we 1 zijdig toetsen moeten we de Sig. (2-tailed) nog door 2 delen. We hebben uit dit onderzoek dus een significantie waarde van 0,001 / 2 = 0,0005. De kans dat ons gemiddelde hetzelfde is als de aanname van 10 uur, is dus 0,05%. We kunnen onze uitspraak dus zelfs doen met 99% betrouwbaarheid!!

T-2 toets met data analyse

Een T-2 toets werkt op hetzelfde principe. Hierbij vergelijken we echter groepen met elkaar en geeft SPSS ons 1 extra tabel. We gaan in SPSS naar Analyze/Compare Means / Independent – Samples t-test en kijken of mannen en vrouwen verschillen qua inkomen. Omdat we voor het onderzoek geen vermoeden heb wie er meer verdient, stel je de hypothese 2 zijdig op. We willen een uitspraak doen met minimaal 95% betrouwbaarheid. SPSS geeft ons de volgende uitkomst:

cursus data analyse opleiding data analyse

Twee zaken vallen op. Mannen verdienen volgens de gemiddeldes meer (3.721) dan vrouwen (3.012), maar is dit verschil ook significant? We zien in de tweede tabel nu twee rijen met uitkomsten en we zien een keer een Sig. en een keer een Sig (2-tailed).

Wat moeten we gebruiken? Allereerst kijken we enkel naar de twee eerste kolommen (in het voorbeeld dik omrand). Daarmee bepalen we (met Levene) of we de bovenste rij moeten uitlezen of de onderste rij. Levene toets of de variantie binnen de twee groepen gelijk zijn elkaar of niet (equal variances (not) assumed). Hierover hoef je op dit moment niet meer te weten dan als de Sig. van Levene boven de 0,05 is, dan nemen we de bovenste regel, bij een Sig. onder de 0,05 nemen we de onderste regel. In dit geval nemen we dus de bovenste regel.

Nu zien we weer een t-waarde (2,204) die hoort bij de uitkomst van de formule. SPSS geeft ook de kans dat de twee gemiddeldes gelijk zijn aan elkaar (Sig. 2-tailed) en deze waarde is 0,031. Wij hoeven niet door 2 te delen omdat we tweezijdig toetsen. We hadden een minimale betrouwbaarheid van 95% (alpha 0,05), dus sig moet onder de 0,05 zijn. Dat is deze nu. We kunnen met 95% betrouwbaarheid zeggen dat de groepen significant van elkaar verschillen.

De volgende mini cursus data analyse zal gaan over T-d toets en de chi-kwadraat. De cursus Data Analyse leidt jou door de wereld van de toegepaste toetsende statistiek. Je leert latente variabelen begrijpen en je leert hoe je betrouwbare en valide toetsen uitvoert.

Terug