Onderzoeksvragen zijn de vragen waarop een (statistisch) onderzoek antwoord moet geven. De onderzoeksvragen vormen het kompas van de onderzoeker, het is de rode draad die door de opzet van een onderzoek loopt.
Het formuleren van goede onderzoeksvragen is een lastige klus. Hoe weet je nu of jouw
vragen goed zijn? In het kort moet gelden: de onderzoeksvragen moeten een bijdrage
leveren aan het oplossen van het probleem (of het vraagstuk) dat in de probleemoriëntatie
is beschreven.
Als een probleemsituatie is vertaald naar onderzoekbare vragen, dan is het tijd om
gegevens te verzamelen. Bij statistisch onderzoek gebeurt dat vaak met behulp van
een enquête (ook wel ‘survey’ genoemd): de onderzoeker verzamelt gegevens door middel van het
stellen van vooraf bedachte vragen aan de respondenten.
Er is een belangrijk verschil tussen een enquêtevraag en een onderzoeksvraag. Een
enquêtevraag kan rechtstreeks gesteld worden in een vraaggesprek. Dit geldt meestal
niet voor de onderzoeksvragen waar de enquêtevragen uit zijn afgeleid.
Het gemiddelde, de mediaan en de modus zijn kengetallen voor het midden (het centrum) van een groep getallen. Ze worden daarom centrummaten genoemd.
Bij de mediaan is dat letterlijk zo. Als je de getallen naar grootte ordent, is de mediaan het -percentiel: het middelste getal of (bij een even aantal getallen) het gemiddelde van de middelste twee getallen.
De modus is de meest voorkomende waarneming.
Het gemiddelde is de som van de scores gedeeld door hun aantal.
Bij een symmetrische verdeling vallen modus, mediaan en gemiddelde (vrijwel) samen.
Naast bovenstaande kengetallen voor het centrum zijn er ook kengetallen voor de spreiding van een groep getallen.
De meest eenvoudige is de spreidingsbreedte: het verschil tussen de grootste waarneming en de kleinste waarneming.
Een andere maat voor de spreiding is de kwartielafstand:
derde kwartiel (Q3) − eerste kwartiel (Q1).
De standaardafwijking is een spreidingsmaat die alle waarnemingen meeweegt. Een kleine standaardafwijking betekent ‘er is weinig spreiding: de waarnemingen liggen dicht bij elkaar’. Een grote standaardafwijking betekent ‘er is veel spreiding: de waarnemingen liggen ver uit elkaar’.
Vaak kun je aan de vorm van een verdeling al iets zeggen over de standaardafwijking.
Bijvoorbeeld:
de standaardafwijking is groot als in een histogram veel waarnemingen in de ‘staarten’ zitten;
in een boxplot duidt een grote box op een grote standaardafwijking;
als de standaardafwijking groot is, loopt een cumulatief frequentiepolygoon geleidelijk omhoog; terwijl bij een kleine standaardafwijking een cumulatief frequentiepolygoon eerst weinig stijgt, daarna hard en op eind weer weinig.
De keuze voor een centrum- of spreidingsmaat is afhankelijk van de vorm van een frequentieverdeling.
Bij klokvormige verdelingen hoort een wiskundig model: de normale verdeling. Belangrijke kenmerken van de normale verdeling zijn:
de grafiek is symmetrisch, de verticale lijn door het gemiddelde (; spreek uit: mu) is symmetrieas;
de totale oppervlakte onder de kromme is gelijk aan (of );
de afstand van symmetrieas tot de buigpunten is gelijk aan de standaarddeviatie (; spreek uit: sigma).
Voor de normale verdeling geldt dat waarnemingen die veel afwijken van het gemiddelde zeldzaam zijn. Bijna altijd zal een waarneming tussen de grenzen “” en “” liggen. Bij klokvormige verdelingen gelden de volgende vuistregels voor de afwijkingen van het gemiddelde:
van de waarnemingen ligt tussen de waarden en ;
van de waarnemingen ligt tussen de waarden en ;
nagenoeg van de waarnemingen ligt tussen de waarden en .
Bij statistisch onderzoek (bijvoorbeeld bij enquêtes) moeten de deelnemers willekeurig worden gekozen. Iedere persoon (of elk element) in de populatie moet dezelfde kans hebben om in de steekproef terecht te komen. We noemen zo’n steekproef aselect. Dus:
niet in een gezondheidswinkel vragen of mensen een positief effect ondervinden bij vitaminegebruik; de mensen die overtuigd vitaminekopers zijn, zijn oververtegenwoordigd in de steekproef; de steekproef is niet representatief;
niet een onderzoek als volwaardig presenteren als slechts een klein deel van de ondervraagden heeft geantwoord; bij een groot aantal weigeringen (non-reponse) is de steekproef wellicht niet representatief.
In de praktijk schat je het populatiegemiddelde met de resultaten van een aselecte steekproef. Je bent namelijk vrijwel nooit in
staat om de gehele populatie te onderzoeken. Het steekproefgemiddelde is veelal een goede schatting van het populatiegemiddelde.
Het deel van een populatie met een zekere eigenschap noem je de populatieproportie. Het deel binnen de steekproef met deze eigenschap heet de steekproefproportie. De steekproefproportie is veelal een goede schatter van de populatieproportie. Deze
schatting is betrouwbaarder naarmate de steekproef groter is. Als we één steekproef trekken uit een bekende populatie, kunnen we niet voorspellen
wat de uitkomst van deze steekproef (de steekproefproportie of het steekproefgemiddelde)
is. Maar door een groot aantal keer een steekproef te simuleren en het histogram van
de steekproefproporties (of –gemiddelden) te tekenen, wordt de variatie in steekproefproporties
(of –gemiddelden) zichtbaar; je krijgt een steekproevenverdeling van een proportie
(of gemiddelde). Als de steekproefomvang voldoende groot is, dan is de steekproevenverdeling
(van het gemiddelde of de proportie) bij benadering normaal verdeeld. Bij toename
van de steekproefomvang, neemt de spreiding van de steekproevenverdeling af: de ‘klok’
wordt steeds smaller.
Het -gebied is het gebied waarbinnen naar verwachting procent van de steekproefuitkomsten liggen. Anders gezegd: met procent zekerheid zal een steekproefuitkomst in een dergelijk gebied liggen.
Voor het steekproefgemiddelde zijn de grenzen van het -gebied:
Voor de steekproefproportie zijn de grenzen van het -gebied:
waarbij de populatieproportie en de steekproefomvang is.
Maar in de dagelijkse praktijk zal de populatie niet bekend zijn. Immers, daarvoor
trekken we een steekproef. Op basis van zo’n steekproef willen we dan conclusies trekken
over de (onbekende) populatie. In het volgende statistiekhoofdstuk leer je hoe dit
werkt.