Groepen vergelijken
Het tweede type onderzoeksvraag hoort bij vergelijken van twee groepen. Voorbeelden daarvan zijn:
“Is het gemiddelde cijfer van jongens bij centrale examens hoger dan dat van meisjes?”
“Slapen pubers langer dan volwassenen?”
We gaan nu in op een aantal verschillende statistische analysetechnieken om groepen te vergelijken. Welke je kan gebruiken, hangt af van het type variabele waar je mee te maken hebt.
Bij een nominale variabele kun je gebruik maken van de Phi coëfficiënt.
Bij een ordinale variabele kun je gebruik maken van max Vcp.
Bij een kwantitatieve variabele kun je gebruik maken van de effectgrootte of het vergelijken van boxplots.
In de komende paragrafen wordt kort herhaald wat deze typen variabelen zijn en wordt uitgelegd hoe je de technieken precies gebruikt.
Phi coëfficiënt
Een nominale variabele is een variabele met categorieën zonder volgorde. Een voorbeeld is de variabele ‘oogkleur’, met als mogelijke waarden: blauw, groen, bruin, etc. Een ander voorbeeld is de variabele ‘afkomst’, met als mogelijke waarden: Frans, Nederlands, Marokkaans, Amerikaans, etc.
Soms heb je een nominale variabele met twee mogelijke waarden, zoals bijvoorbeeld de variabele ‘soort wiskunde’, met als waarden: wiskunde A en wiskunde B. Of een willekeurige variabele waar alleen ‘ja’ of ‘nee’ kan worden geantwoord: ook dan zij er twee categorieën en dus twee mogelijke waarden. Als je bij deze variabelen twee groepen met elkaar wil vergelijken, krijg je een 2x2-kruistabel. In onderstaande kruistabel staan de variabelen ‘soort wiskunde’ en ‘geslacht’ tegenover elkaar.
Op de plek van de puntjes staan frequenties: dus het aantal jongens met wiskunde A, het aantal meisjes met wiskunde A, het aantal jongens met wiskunde B en het aantal meisjes met wiskunde B. Door zo’n tabel te maken kun je de twee groepen (jongens en meisjes) vergelijken wat betreft de variabele ‘soort wiskunde’. Een mogelijke onderzoekvraag daarbij is ‘Is er een verschil tussen jongens en meisjes wat betreft het kiezen voor wiskunde A?’. We bekijken nu een aantal verschillende situaties.
Situatie 1
In de bovenstaande situatie kiezen 10 jongens voor wiskunde A en 0 jongens voor wiskunde B; en kiezen 0 meisjes voor wiskunde A en 8 meisjes voor wiskunde B. Op basis hiervan zou je kunnen zeggen dat er zeker een verschil is: de jongens in de steekproef kiezen nooit voor wiskunde B en meisjes juist nooit voor wiskunde A.
Situatie 2
In deze situatie is er nog steeds een groot verschil. De jongens kiezen vooral voor wiskunde A en de meisjes vooral voor wiskunde B.
Situatie 3
Deze situatie is bijzonder. De jongens kiezen vooral voor wiskunde A en de meisjes ook. Als je goed kijkt zie je ook dat de verhouding in beide groepen gelijk is. Bij wiskunde A zijn er dubbel zoveel meisjes, en bij wiskunde B ook. Op basis van deze uitkomst zou je dus kunnen concluderen dat er geen verschil is tussen meisjes en jongens wat betreft het kiezen voor wiskunde A of B.
Situatie 4
Hier is het weer net anders. Nog steeds kiezen de jongens vooral voor wiskunde A en de meisjes ook. Maar de verhouding is nu niet gelijk. Bij meisjes is de verhouding wiskunde B iets groter dan bij jongens: 6 van de 15 is meer dan 3 van de 10.
Over verschillende kruistabellen kun je allerlei dingen zeggen, zoals we hierboven hebben gedaan. Maar het is handig om een maat te hebben die het verschil tussen twee groepen aangeeft met een getal. Deze maat zou bij situatie 3 moeten aangeven dat er geen verschil is tussen jongens en meisjes (de verhouding is gelijk) en bij situatie 1 moeten aangeven dat er juist een heel groot verschil is.
De maat die je hiervoor kunt gebruiken heet de phi coëfficiënt. Je kunt deze maat alleen gebruiken bij 2x2-kruistabellen. Je vergelijkt dan twee groepen wat betreft een nominale variabele met twee mogelijke waarden. De vier plekken in zo’n tabel noemen we a, b, c en d:
De formule is dan als volgt:
In de teller van de breuk betekent ‘ad’ dat je a en d met elkaar moet vermenigvuldigen. De optellingen in de noemer breuk zijn de rij-totalen en kolom-totalen van de kruistabel, die soms al bij de tabel staan en je dus direct kunt aflezen.
Aan de hand van de waarde van phi die eruit komt kun je bepalen of het verschil ‘groot’, ‘middelmatig’ of ‘gering’ is. Daar gebruik je de volgende regels bij:
Als phi < 0,4 of phi > -0,4 , dan zeggen we ‘het verschil is groot’.
Als -0,4 ≤ phi < -0,2 of 0,2 < phi ≤ 0,4, dan zeggen we ‘het verschil is middelmatig’.
Als -0,2 ≤ phi ≤ -0,2, dan zeggen we ‘het verschil is gering’.
Deze regels kun je in een plaatje weergeven:
We bekijken nu weer situaties van hierboven.
Situatie 1
De formule wordt:
Dit is gelijk aan:
Phi heeft dus de waarde 1. Dat ligt ruim boven 0,4, dus we kunnen nu zeggen ‘het verschil is groot’. Jongens kiezen dus vaker wiskunde A dan meisjes, en dat verschil is groot.
Situatie 2
De formule wordt:
Dit is gelijk aan:
Phi heeft dus ongeveer de waarde 0,7. Dat ligt nog steeds boven 0,4, dus we kunnen ook in deze situatie zeggen ‘het verschil is groot’. Jongens kiezen dus vaker wiskunde A dan meisjes, en dat verschil is groot.
Situatie 3
De formule wordt:
Dit is gelijk aan:
Doordat de verhouding jongen:meisje voor de twee wiskunde soorten precies even groot is, geldt dat ad gelijk is aan bc. Daardoor wordt de teller van de breuk 0 en phi dus ook 0. Dat betekent dat we kunnen zeggen ‘het verschil is gering’. Doordat het precies 0 is, zou je eigenlijk zelfs kunnen zeggen dat er geen verschil is tussen jongens en meisjes wat betreft het kiezen van wiskunde A of wiskunde B.
Situatie 4
De formule wordt:
Dit is gelijk aan:
Phi heeft dus ongeveer de waarde 0,1. Dat ligt nog steeds tussen -0,2 en 0,2 in, dus we kunnen ook in deze situatie zeggen ‘het verschil is gering’. Jongens kiezen dus vaker wiskunde A dan meisjes, maar het verschil is gering.