Onderzoeks- en enquêtevragen

Onderzoeksvragen zijn de vragen waarop een (statistisch) onderzoek antwoord moet geven. De onderzoeksvragen vormen het kompas van de onderzoeker, het is de rode draad die door de opzet van een onderzoek loopt.

Het formuleren van goede onderzoeksvragen is een lastige klus. Hoe weet je nu of jouw vragen goed zijn? In het kort moet gelden: de onderzoeksvragen moeten een bijdrage leveren aan het oplossen van het probleem (of het vraagstuk) dat in de probleemoriëntatie is beschreven.

Als een probleemsituatie is vertaald naar onderzoekbare vragen, dan is het tijd om gegevens te verzamelen. Bij statistisch onderzoek gebeurt dat vaak met behulp van een enquête (ook wel ‘survey’ genoemd): de onderzoeker verzamelt gegevens door middel van het stellen van vooraf bedachte vragen aan de respondenten.
Er is een belangrijk verschil tussen een enquêtevraag en een onderzoeksvraag. Een enquêtevraag kan rechtstreeks gesteld worden in een vraaggesprek. Dit geldt meestal niet voor de onderzoeksvragen waar de enquêtevragen uit zijn afgeleid.

Centrum- en spreidingsmaten

Het gemiddelde, de mediaan en de modus zijn kengetallen voor het midden (het centrum) van een groep getallen. Ze worden daarom centrummaten genoemd.

Bij de mediaan is dat letterlijk zo. Als je de getallen naar grootte ordent, is de mediaan het $50$ -percentiel: het middelste getal of (bij een even aantal getallen) het gemiddelde van de middelste twee getallen.
De modus is de meest voorkomende waarneming.
Het gemiddelde is de som van de scores gedeeld door hun aantal.

Bij een symmetrische verdeling vallen modus, mediaan en gemiddelde (vrijwel) samen.

Naast bovenstaande kengetallen voor het centrum zijn er ook kengetallen voor de spreiding van een groep getallen.

De meest eenvoudige is de spreidingsbreedte: het verschil tussen de grootste waarneming en de kleinste waarneming.
Een andere maat voor de spreiding is de kwartielafstand:
derde kwartiel (Q3) − eerste kwartiel (Q1).
De standaardafwijking is een spreidingsmaat die alle waarnemingen meeweegt. Een kleine standaardafwijking betekent ‘er is weinig spreiding: de waarnemingen liggen dicht bij elkaar’. Een grote standaardafwijking betekent ‘er is veel spreiding: de waarnemingen liggen ver uit elkaar’.

Vaak kun je aan de vorm van een verdeling al iets zeggen over de standaardafwijking. Bijvoorbeeld:

de standaardafwijking is groot als in een histogram veel waarnemingen in de ‘staarten’ zitten;
in een boxplot duidt een grote box op een grote standaardafwijking;
als de standaardafwijking groot is, loopt een cumulatief frequentiepolygoon geleidelijk omhoog; terwijl bij een kleine standaardafwijking een cumulatief frequentiepolygoon eerst weinig stijgt, daarna hard en op eind weer weinig.

De keuze voor een centrum- of spreidingsmaat is afhankelijk van de vorm van een frequentieverdeling.

De normale verdeling

Bij klokvormige verdelingen hoort een wiskundig model: de normale verdeling. Belangrijke kenmerken van de normale verdeling zijn:

de grafiek is symmetrisch, de verticale lijn door het gemiddelde ( $μ$ ; spreek uit: mu) is symmetrieas;
de totale oppervlakte onder de kromme is gelijk aan $1$ (of $100 %$ );
de afstand van symmetrieas tot de buigpunten is gelijk aan de standaarddeviatie ( $σ$ ; spreek uit: sigma).

Voor de normale verdeling geldt dat waarnemingen die veel afwijken van het gemiddelde zeldzaam zijn. Bijna altijd zal een waarneming tussen de grenzen “ $gemiddelde - 2 \cdot SD$ ” en “ $gemiddelde + 2 \cdot SD$ ” liggen. Bij klokvormige verdelingen gelden de volgende vuistregels voor de afwijkingen van het gemiddelde:

$68 %$ van de waarnemingen ligt tussen de waarden $μ - σ$ en $μ + σ$ ;
$95 %$ van de waarnemingen ligt tussen de waarden $μ - 2 \cdot σ$ en $μ + 2 \cdot σ$ ;
nagenoeg $100 %$ van de waarnemingen ligt tussen de waarden $μ - 3 \cdot σ$ en $μ + 3 \cdot σ$ .

Steekproeven

Bij statistisch onderzoek (bijvoorbeeld bij enquêtes) moeten de deelnemers willekeurig worden gekozen. Iedere persoon (of elk element) in de populatie moet dezelfde kans hebben om in de steekproef terecht te komen. We noemen zo’n steekproef aselect. Dus:

niet in een gezondheidswinkel vragen of mensen een positief effect ondervinden bij vitaminegebruik; de mensen die overtuigd vitaminekopers zijn, zijn oververtegenwoordigd in de steekproef; de steekproef is niet representatief;
niet een onderzoek als volwaardig presenteren als slechts een klein deel van de ondervraagden heeft geantwoord; bij een groot aantal weigeringen (non-reponse) is de steekproef wellicht niet representatief.

Variatie bij steekproeven

In de praktijk schat je het populatiegemiddelde met de resultaten van een aselecte steekproef. Je bent namelijk vrijwel nooit in staat om de gehele populatie te onderzoeken. Het steekproefgemiddelde is veelal een goede schatting van het populatiegemiddelde.

Het deel van een populatie met een zekere eigenschap noem je de populatieproportie. Het deel binnen de steekproef met deze eigenschap heet de steekproefproportie. De steekproefproportie is veelal een goede schatter van de populatieproportie. Deze schatting is betrouwbaarder naarmate de steekproef groter is. Als we één steekproef trekken uit een bekende populatie, kunnen we niet voorspellen wat de uitkomst van deze steekproef (de steekproefproportie of het steekproefgemiddelde) is. Maar door een groot aantal keer een steekproef te simuleren en het histogram van de steekproefproporties (of –gemiddelden) te tekenen, wordt de variatie in steekproefproporties (of –gemiddelden) zichtbaar; je krijgt een steekproevenverdeling van een proportie (of gemiddelde). Als de steekproefomvang voldoende groot is, dan is de steekproevenverdeling (van het gemiddelde of de proportie) bij benadering normaal verdeeld. Bij toename van de steekproefomvang, neemt de spreiding van de steekproevenverdeling af: de ‘klok’ wordt steeds smaller.

Wel of niet uitzonderlijk

Het $95 %$ -gebied is het gebied waarbinnen naar verwachting $95$ procent van de steekproefuitkomsten liggen. Anders gezegd: met $95$ procent zekerheid zal een steekproefuitkomst in een dergelijk gebied liggen.

Voor het steekproefgemiddelde zijn de grenzen van het $95 %$ -gebied:
$populatiegemiddelde \pm 2 \cdot \frac{populatiestandaardafwijking}{\sqrt{steekproefomvang}}$

Voor de steekproefproportie zijn de grenzen van het $95 %$ -gebied:
$P_{p} \pm 2 \cdot \sqrt{\frac{P_{p} \cdot (1 - P_{p})}{n}}$
waarbij $P_{p}$ de populatieproportie en $n$ de steekproefomvang is.

Maar in de dagelijkse praktijk zal de populatie niet bekend zijn. Immers, daarvoor trekken we een steekproef. Op basis van zo’n steekproef willen we dan conclusies trekken over de (onbekende) populatie. In het volgende statistiekhoofdstuk leer je hoe dit werkt.