Bij grote databestanden is het ondoenlijk om met de hand het tel- en tekenwerk te doen. Met een statistiekprogramma neemt de computer je al dit werk uit handen. Er bestaan veel statistiekprogramma’s. Ze hebben allemaal hun voor- en nadelen. Op de meeste HBO-vervolgopleidingen (en op universiteiten) wordt het programma SPSS gebruikt, of soms Excel. We gebruiken in dit practicum de online-versie van het programma "VUstat" . Deze ben je al meerdere keren tegengekomen in dit hoofdstuk en eerdere hoofdstukken. In deze paragraaf herhalen we kort de belangrijkste mogelijkheden van dit programma. Dit doen we aan de hand van een bestand met de profielkeuze van 154 vwo4-leerlingen.
Open met VUstat het bestand Gegevens154Leerlingen.
Je krijgt een datatabel (datamatrix). Hierboven zie je een deel van de tabel.
We gaan een kruistabel maken waarbij het geslacht wordt uitgezet tegen het profiel.
Kies in het menu Tabel > Kruistabel
Selecteer voor Variabele 1 geslacht en klik bij Variabele 2 het profiel.
Je krijgt het volgende resultaat:
Onderzoeksvraag: Is er een verschil tussen jongens en meisjes in welke mate ze een maatschappijprofiel (CM en EM) of een natuurprofiel (NG en NT) hebben gekozen?
Bereken met behulp van de gegevens uit deze tabel met de verschilmaat phi hoe groot dit verschil is. Gebruik het "formuleblad" .
VUStat kan de aantallen in de kruistabel ook omzetten in percentages.
Kies Rij percentages;
Kies Kolom percentages;
Kies Totaal percentages.
Twee mogelijke onderzoeksvragen:
A: Je wilt weten of er per profiel een verschil is in welke mate ze door jongens of meisjes worden gekozen.
B: Je wilt weten of er een verschil is in profielkeuze tussen jongens en meisjes.
Leg uit bij elk van deze twee onderzoeksvragen of je horizontaal of verticaal moet percenteren om deze vraag te kunnen beantwoorden.
We kunnen ook een 'gewone' frequentietabel maken om naar het verschil in profielkeuze tussen jongens en meisjes te kijken.
Kies Tabel Frequentie-tabel
Kies variabele profiel
We moeten nu nog groeperen op geslacht: kies Groeperen variabele geslacht
Je kunt desgewenst de getallen met een muisklik omzetten in Percentages, of Cumulatieve percentages.
Je krijgt dan dit:
Maak deze tabel met VUstat.
Waarom kun je nu niet de verschilmaat gebruiken om het verschil tussen jongens en meisjes te kwantificeren?
We gaan de verdeling van de jongens en meisjes over de vier profielen grafisch weergeven.
Dat gaat prima via een
staafdiagram of een reepdiagram.
Opmerking: een staafdiagram is niet precies hetzelfde als een histogram: bij een staafdiagram staat op de horizontale as (meestal) een kwalitatieve variabele
en hoeven de staven niet tegen elkaar te staan. Bij een histogram MOET horizontaal
een kwantitatieve (continue) variabele staan die is opgedeeld in doorlopende klassen.
In VUstat hoef je dit onderscheid niet te maken: het programma ziet zelf of het een
kwantitatieve of kwalitatieve variabele is en past de grafiek hierop aan.
Open met VUstat het bestand Gegevens154Leerlingen.
Kies in het menu Grafiek > Histogram, selecteer de variabele geslacht.
Voor een opdeling in profielen klik je op de knop Groeperen. Selecteer de groeperingsvariabele profiel.
Je kunt nu per profiel de verhouding jongens/meisjes zien.
Merk ook op dat je drie verschillende type grafieken kunt kiezen: per profiel een
aparte grafiek, of een grafiek waarin ze samen naast elkaar staan en per profiel een
andere kleur.
Je kunt ook een reepdiagram kiezen.
In de figuur hiernaast zie je zo'n reepdiagram.
Vink Percentages aan. Bekijk goed wat het effect is.
Doe hetzelfde door te beginnen met profiel en als groeperingsvariabele geslacht.
NB Ook via het hoofdmenu Data > Groeperen kun je een groepering ongedaan maken.
Twee mogelijke onderzoeksvragen:
A: Je wilt weten of er per profiel een verschil is in welke mate ze door jongens of meisjes worden gekozen.
B: Je wilt weten of er een verschil is in profielkeuze tussen jongens en meisjes.
Welke van de twee reepdiagrammen (eerst met geslacht beginnen en dan groeperen op profiel, of eerst met profiel beginnen en dan groeperen op geslacht) kun je het best gebruiken bij het beantwoorden van onderzoeksvraag A? En is het dan zinvol om te percenteren?
We gaan een cirkeldiagram maken
Kies in het menu Grafiek > Cirkeldiagram en selecteer variabele geslacht.
Voor een groepsindeling groepeer je op de variabele profiel.
Bekijk wat het effect bij een cirkeldiagram is van omdraaien van de volgorde van variabele kiezen en groeperen. Welke van de twee mogelijkheden past het beste bij beantwoorden van onderzoeksvraag A en welke bij onderzoeksvraag B?
Bovenstaande grafieken en tabellen zijn uitermate geschikt voor kwalitatieve variabelen. In de volgende opgave kijken we met name naar kwantitatieve variabelen.
Open met VUstat het bestand Gegevens154Leerlingen.
We gaan nu eerst een histogram maken van de lengtes van de leerlingen.
Is de lengte een continue of een discrete variabele?
Kies in het menu Grafiek > Histogram en selecteer de variabele lengte.
Je krijgt meer inzicht in de verdeling van de variabele lengte als je ook andere klassenindelingen bekijkt. Je moet niet te weinig, maar ook niet te veel klassen hebben voor een goed overzicht.
Klik op Indeling en zet het aantal klassen op 8; kies een passende klassenbreedte.
Let op: zorg dat je het aantal klassen en de klassenbreedte op elkaar afstemt zodat alle
metingen ook zichtbaar zijn! VUstat geeft bij het veranderen van de klassenindeling
aan wat de grootste en kleinste waarden zijn die in de tabel voorkomen, dus kijk daar
goed naar. Gelukkig waarschuwt VUstat als er waarden buiten vallen.
Welke klassenbreedte heb je nodig bij 8 klassen?
Er wordt vaak de vuistregel gebruikt om het aantal klassen gelijk te maken aan de wortel van het aantal metingen,
dus in dit geval . Dus 12 klassen.
(Maar in de praktijk is er vaak een voorkeur voor 'mooie' waarden van de klassengrenzen,
dus voor breedtes van 5 of 10. Dat is ook altijd een afweging.)
Welke klassenbreedte heb je nodig bij 12 klassen?
We gaan nu een cumulatieve frequentiepolygoon maken van de kunstbelangstelling van de leerlingen.
Kies in het menu Grafiek > Lijndiagram en selecteer de variabele kunstbel (van kunstbelangstelling).
Vink Cumulatief aan en Percentages.
Je kunt ook nu weer groeperen op geslacht om te onderzoeken of er verschil is tussen de jongens en de meisjes. Doe dat.
Door de twee lijndiagrammen van jongens en meisjes in één grafiek bij elkaar
te laten tekenen, kun je vrij eenvoudig
met de grafiek bepalen.
Hoe groot is volgens de grafieken? Is het verschil in kunstbelangstelling tussen jongens en meisjes gering, middelmatig of groot?
We gaan een boxplot maken maken van het gewicht van de leerlingen.
Open met VUstat het bestand Gegevens154Leerlingen.
Kies in het menu Grafiek > Boxplot en selecteer de variabele gewicht en klik op OK.
Met de optie Uitschieters kun je de uitschieters in een boxplot laten aangeven met een kruisje: dat zijn metingen
die meer dan anderhalf keer de kwartielafstand afwijken van
(naar beneden) of van (naar boven).
Je ziet dat er een aantal uitschieters zijn.
Deze uitschieters worden soms bij statistische analyses buiten beschouwing gelaten. Je moet dan wel
melden welke metingen zijn weggelaten en waarom dat is gebeurd.
Hoe groot is de kwartielafstand? Vanaf welk gewicht wordt het als een uitschieter gezien?
Ga via het menu naar Kentallen en bepaal van het gewicht , en vervolgens de kwartielafstand.
Je kunt ook bij de boxplots kiezen voor Groeperen om zo te onderzoeken of er een duidelijk verschil is tussen de gewichten van de meisjes
en de jongens.
Je krijgt dan twee boxplots die je met elkaar kunt vergelijken met behulp
van het
"formuleblad"
.
Hoe is het verschil in gewicht tussen de jongens en de meisjes: gering, middelmatig of groot?
Soms wil je op twee niveaus groeperen: je wilt bijvoorbeeld alleen naar de leerlingen met een EM-profiel kijken en daarbinnen kijken hoe het verschil is tussen jongens en meisjes wat betreft de cijfers voor wiskunde. Dat kan de online-versie van VUstat met de optie Data > Selecteren.
Open met VUstat het bestand Gegevens154Leerlingen.
Ga naar Data > Selecteren en selecteer alleen de leerlingen met het EM-profiel.
Door op de kolomtitel lengte te klikken, worden de records gesorteerd op de waarde in deze kolom, van klein naar groot. Door nog eens te klikken op de kolomtitel, draait de sortering om: van groot naar klein.
Wat is de lengte en het gewicht van de kleinste jongen met EM-profiel? En wat is de lengte en het gewicht van het grootste meisje met EM-profiel?
Is de EM-leerling met het laagste cijfer voor wiskunde een meisje of een jongen? Welke wiskunde-cijfer heeft hij/zij?
Onderzoek met de effectgrootte (en het "formuleblad" ) hoe groot onder de EM-leerlingen het verschil is tussen jongens en meisjes wat betreft het cijfer voor wiskunde.
In plaats van de selectiefilter die je zojuist gebruikt hebt, kun je ook een deel van de records verwijderen: je houdt dan alleen de records over die je wilt bekijken. In VUstat kun je in één keer een groot aantal records tegelijk verwijderen.
Open met VUstat het bestand Gegevens154Leerlingen.
Sorteer de records op profiel;
Bovenaan krijg je nu de leerlingen met een CM-profiel, met volgnummers 1
t/m 11 (kijk zelf ook even!).
Die kun je in één keer verwijderen, als volgt:
DataRecords verwijderen
Vanaf recordnummer: 1
Tot en met recordnummer: 11
OK.
Verwijder op deze manier de leerlingen met een CM-profiel
Verwijder daarna ook de leerlingen met een NT- en NG-profiel.
(Hint: sorteer opnieuw in aflopende volgorde, dan kun je alle leerlingen
met een N-profiel in één keer verwijderen.)
Houd je nu net zoveel records over als bij het selecteren in de vorige opgave?
Is de EM-leerling met het laagste cijfer voor wiskunde een meisje of een jongen?
Welke wiskunde-cijfer heeft hij/zij? Vind je dezelfde antwoorden als in de vorige
opgave?
In welke maand is het jongste meisje met wisA/C geboren?
We kijken alleen naar de leerlingen die in 1992 geboren zijn. Ga met de effectgrootte na of het verschil in gewicht tussen de leerlingen met wisB en wisA/C uit dat geboortejaar gering, middelmatig of groot is. [Beetje onzinnige vraag, natuurlijk, maar het gaat erom of je dit met VUstat kunt berekenen.]
Open met VUstat het bestand Voetlengtes. Dit zijn de meetresultaten van een onderzoek waarbij van 100 mannen en vrouwen de voetlengte (in cm) is gemeten.
Bereken de 95%-betrouwbaarheidsinterval voor de gemiddelde voetlengte van vrouwen volgens deze steekproef. Rond de getallen af op 2 decimalen. Doe hetzelfde voor de mannen.
Bereken bij hoeveel procent van de vrouwen de voetlengte meer dan 1 keer de
sd afwijkt van het gemiddelde. Doe hetzelfde voor de mannen.
Vergelijk deze uitkomsten met de vuistregels voor de normale verdeling: zijn
de voetlengtes van mannen en vrouwen (bij benadering) normaal verdeeld?
Maak histogrammen met de voetlengtes van de mannen en de vrouwen apart. Maak de indeling zodanig dat de klassenbreedte 1 cm is.
Kijk naar de grafieken die je krijgt: is de voetlengte bij de mannen en/of bij de vrouwen bij benadering normaal verdeeld?
Je kunt met VUstat ook het verband tussen twee variabelen onderzoeken door een
zogenaamde puntenwolk of spreidingsdiagram te tekenen.
Door deze puntenwolk kun je dan een lijn tekenen die het beste past: de regressielijn.
Zie de figuur hieronder waarbij van de 154 leerlingen uit het bestand
Gegevens154Leerlingen
het verband tussen de lengte (in cm)
en het gewicht (in kg) is weergegeven en ook de regressielijn is getekend.
VUstat geeft ook de formule van deze regressielijn. Met deze formule kun je dan een schatting berekenen van het gewicht van een leerling waarvan je de lengte kent.
Maak de bovenstaande grafiek na in VUstat en bereken met de formule die VUstat geeft van de regressielijn hoe zwaar een leerling is die cm groot is.
Zoals je weet zijn mannen gemiddeld langer dan vrouwen. Dus het is eigenlijk niet zo verstandig dat hierboven de regressielijn is bepaald voor alle leerlingen gezamenlijk. Beter is het om de metingen te splitsen op geslacht.
Maak bij zowel de mannen als de vrouwen apart de puntenwolk voor het verband tussen lengte en gewicht en bepaal de bijbehorende formules van de regressielijnen.
Bereken hoe groot het verschil is tussen het voorspelde gewicht van een vrouw en van een man die beiden cm groot zijn.
Bereken bij welke lengte een man en een vrouw volgens de regressielijnen even zwaar zijn. Hoe zwaar zijn ze dan?