Temperatuur meet je met een thermometer. Of de een het nu wat aan de kille kant vindt en de ander juist een lekker temperatuurtje, de thermometer is onverbiddelijk. De thermometer geeft een getalswaarde aan de temperatuur die los staat van je persoonlijke mening.
Iets soortgelijks doet zich voor in de statistiek (en in veel meer gebieden van de wetenschap). Als je groepen vergelijkt, stuit je op verschillen. Over de grootte van die verschillen kun je twisten. De een vindt dat ze aanzienlijk zijn, een ander vindt dat dat wel meevalt. We gaan nu proberen de verschillen te meten, dat wil zeggen uit te drukken in een getal. Welke manier van meten je kiest, hangt af van de situatie en soms van je persoonlijke voorkeur. Net zoals bij de thermometer: de Amerikanen doen het met Fahrenheit en in Europa houden we het op Celsius.
In de volgende twee paragrafen maak je kennis met manieren om groepen te vergelijken als het gaat om kwalitatieve variabelen.
Op het Amalia College is een vragenlijst voorgelegd aan de havo4-leerlingen. De resultaten zijn verzameld in de dataset Gegevens154Leerlingen. De data zijn geordend per leerling: op één regel vind je de gegevens van één leerling, zoals het geslacht en de lengte. Hieronder zie je een deel van de datamatrix.
Wiskunde A bereiden voor op een studie in de alfa- of gammavakken. Je kunt je dus
afvragen of je tussen wiskunde A- en wiskunde B-leerlingen verschillen vindt in ‘belangstelling
voor kunst’. Die is gemeten met de variabele kunstbelangstelling. Deze variabele kan
de waarden 1 tot en met 6 hebben (1 = geen belangstelling, 6 = veel belangstelling).
Als je de frequenties in een kruistabel zet, krijg je in dit geval een zogenaamde
-tabel, want de variabele kunstbel heeft zes mogelijke waarden. De kruistabel voor
de leerlingen ziet er als volgt uit.
Waarom is het lastig in de tabel de A-leerlingen en de B-leerlingen met elkaar te vergelijken wat kunstbelangstelling betreft?
Vanwege de ongelijke groepsgroottes kun je beter overgaan op relatieve frequenties.
Vul op het werkblad de percentages in voor beide wiskundevakken. Rond af op één decimaal.
Het totale percentage A is niet precies .
Hoe komt dat?
In welk opzicht krijg je nu een beter inzicht in de verschillen?
In welk opzicht is het vergelijken nog steeds lastig?
Met de percentages is een zogenaamd geclusterd staafdiagram gemaakt, zie de figuur in opgave 15. Daarin staat hoe de belangstelling voor kunst verdeeld is over de verschillende waarden, van beide groepen, in procenten. Je krijgt meteen al een eerste indruk van de verschillen: de B-groep heeft een veel hoger percentage op de score middelmatig en ook een hoger percentage op de score groot; op de andere scores zijn de percentages lager dan van de A-groep.
Bekijk de volgende figuur.
Welk niveau van belangstelling komt het meeste voor als je de hele groep bekijkt? Hoe noemen we deze centrummaat?
In de grafiek zie je dat de aantallen niet symmetrisch zijn verdeeld rond . De aantallen links ervan zijn groter dan de aantallen rechts ervan.
Wat betekent dat voor de algemene belangstelling voor kunst in deze groep leerlingen?
Vind jij dat er veel verschil is in belangstelling voor kunst tussen beide groepen? Waarom wel/niet?
Om de groepen beter te kunnen vergelijken, kijken we naar de cumulatieve percentages. Je neemt dan de percentages tot en met een bepaalde score. Bijvoorbeeld het percentage A-leerlingen met een score t/m middelmatig is , afgerond .
In de kolom cf staan de cumulatieve (= opgetelde) frequenties en cp staat voor cumulatief percentage. Zo is bij de A-groep de cumulatieve frequentie van “middelmatig” , want er zijn A-leerlingen met middelmatige of lagere belangstelling voor kunst, en dat is ongeveer .
Door de staven in het staafdiagram van opgave 15 te stapelen, krijg je automatisch de cumulatieve percentages in beeld. Dat zie je in het reepdiagram. De zes percentages van een groep (kolom cp in de kruistabel) zijn er opgestapeld weergegeven door (gekleurde) blokjes in een reep. Voor de duidelijkheid zijn de grenzen tussen de blokjes nog met stippellijnen verbonden.
Komt een lagere belangstelling voor kunst (dat is “helemaal geen” of “niet zo groot”) meer voor bij de B- dan bij de A-groep?
Wat is je conclusie over het verschil in kunstbeleving voor beide groepen?
Je kunt de verschillen tussen de cumulatieve percentages bekijken: .
Bij negatieve verschillen laat je het minteken weg.
Deze percentageverschillen noemen we kortweg .
Vul op het werkblad de kolom in en stel vast wat het grootste verschil is.
Hoe zie je in het reepdiagram wat het grootste verschil is?
We tekenen de lijngrafieken van de cumulatieve percentages cp van beide groepen, de zogenaamde cumulatieve frequentiepolygonen.
Lees uit de grafiek af hoeveel procent van de B-leerlingen middelmatig of minder belangstelling voor kunst heeft.
Lees uit de grafiek af hoeveel procent van de B-leerlingen tamelijk grote belangstelling voor kunst heeft (dat is categorie 4).
Hoe zie je in de grafiek dat er procentueel meer A-leerlingen zijn met tamelijk grote belangstelling (categorie 4) voor kunst dan B-leerlingen?
Hoe zie je aan deze lijngrafieken dat de belangstelling voor kunst in de wiskunde B-groep (iets) groter is dan in de wiskunde A-groep?
Om na te gaan of er een verschil in kunstbeleving is tussen leerlingen die wiskunde A hebben gekozen en de wiskunde B-leerlingen, bekijken we nogmaals de variabele kunstbeleving. De cumulatieve percentages en hun verschillen staan in onderstaande tabel.
Je zoekt nu de maximale waarde van op. Dat is een geschikte maat voor het verschil tussen beide groepen op de variabele kunstbeleving. Hij heet het maximaal verschil in cumulatieve percentage, of kortweg max Vcp.
In dit geval is .
Deze waarde zie je bij de reepdiagrammen (zoals in opgave 17) terug als de meest steile verbindingslijn tussen de beide staven.
In een relatieve somfrequentiepolygoon (zoals in opgave 19) lees je af door het grootste verschil (in verticale zin) tussen beide polygonen te bepalen.
In stappen bepaal je het -verschil dus als volgt:
Bepaal de cumulatieve frequenties van beide groepen.
Zet die om in de cumulatieve percentages.
Bepaal per waarde het verschil van de cumulatieve percentages tussen de groepen, waarbij je bij negatieve verschillen het minteken weglaat.
Neem van die verschillen de grootste waarde; dat is .
Om een oordeel te geven over de omvang van het verschil tussen de twee groepen, hanteert men in de praktijk de volgende vuistregels:
als groter dan is, dan zeggen we “het verschil is groot”,
als groter dan en kleiner of gelijk aan is, dan zeggen we “het verschil is middelmatig”,
als kleiner of gelijk aan is, dan zeggen we “het verschil is gering”.
Op het examen krijg je een formuleblad met deze vuistregels.
Hieronder zie je de kruistabel van aantal vreemde talen en wiskundegroep (A of B).
Bereken op het werkblad voor dit geval .
Is het verschil tussen beide groepen groot?
In de volgende kruistabel, weer van het Amalia College, is het geslacht tegen de wiskundekeuze uitgezet.
Neem de tabel over en percenteer die verticaal.
Waarom is het in dit geval niet zinvol om uit te rekenen?
Nu als maat is afgevallen om het verschil in wiskundekeuze bij jongens en meisjes uit te drukken, moet je een andere maat bedenken.