Vaak kan je niet de gehele populatie onderzoeken. Bijvoorbeeld als je de grootte van de aanhang van een politieke partij wil weten, is het ondoenlijk alle Nederlanders naar hun politieke voorkeur te vragen. Je moet je in zo’n geval beperken tot een kleinere groep; je neemt dus een steekproef. Op grond van het resultaat in de steekproef wil je schatten hoe groot de aanhang is in de gehele populatie.

Schatten doen we elke dag en schattingen komen we overal tegen. Meestal wordt er niet vertelt dat een bepaald getal of percentage een schatting is, terwijl voor iedereen wel duidelijk is dat schatten een riskante zaak is. Het is daarom belangrijk om te weten hoe ver een schatting er naast kan zitten. Toch wordt er vrijwel nooit iets gezegd over de (on)nauwkeurigheid van een schatting.

In het fraaie zebra-boekje Schatten, hoe doe je dat? presenteren de schrijvers de volgende, eenvoudige manier om wat te zeggen over de betrouwbaarheid van de schatting van een populatiepercentage.

Voorbeeld:

Voor de komende gemeenteraadsverkiezingen heeft de dorpskrant van Luilekkerdorp een enquête gehouden onder de inwoners van het dorp. Van $50$ willekeurig gekozen dorpelingen zeggen er $16$ op de partij Van Alles Meer te zullen stemmen. De steekproefproportie van $0,32$ leidt tot een schatting van $32 %$ voor het hele dorp.

Opmerking:

Het woord proportie betekent "verhouding" of "deel": het levert een getal op tussen $0$ en $1$ (dat kan een breuk zijn of een kommagetal).
De steekproefproportie is het gevonden aantal gedeeld door de steekproefgrootte. In dit voorbeeld dus $\frac{16}{50} = 0,32$ .
Het steekproefpercentage is dan het bijbehorende percentage, in dit geval dus $32 %$ .
Op dezelfde wijze spreken we van de populatieproportie en het populatiepercentage als we het over de uitkomst van de gehele populatie hebben, dus als de gehele populatie gevraagd of onderzocht zou zijn. Maar dat is in de praktijk meestal onmogelijk of te duur.

Vervolg voorbeeld
Nu is het natuurlijk niet verstandig om op grond van dit onderzoek te verkondigen dat $32 %$ van de inwoners van de gemeente op de partij Van Alles Meer zullen stemmen. Daarvoor is de steekproef klein en maar in één dorp afgenomen.
Bij zo’n kleine steekproef hangt de uitkomst sterk af van het toeval. Daarom is het juister om te zeggen hoe ver de schatting er naast kan zitten door de foutenmarge te vermelden. Je doet dan een uitspraak als: “Op grond van de steekproef schatten we het percentage tussen $32 - x$ en $32 + x$ ”, waarbij $x$ dan zó gekozen is dat je tamelijk zeker bent dat het echte percentage tussen beide grenzen ligt. Ben je voorzichtig, dan kies je $x$ groot. De kans op een onjuiste bewering wordt dan klein, maar vaak is de bewering dan ook weinig zeggend. Kies je daarentegen $x$ klein, dan krijg je een schatting die grote nauwkeurigheid suggereert maar die ook met een grotere kans onjuist is.
Een veel gehanteerd risico in de statistiek is $95 %$ : we willen dan een foutenmarge geven zodat het echte populatiepercentage met $95 %$ kans tussen $steekproefpercentage - x$ en $steekproefpercentage + x$ ligt.

Wat blijkt nu, zie bijvoorbeeld de stimulaties in hoofdstuk Statistiek 3: als je de steekproef meerdere keren uitvoert en je maakt een histogram van de gevonden uitkomsten van de steekproefproportie, dan krijg je (bij benadering) een normale verdeling! Het gemiddelde van deze normale verdeling is de gezochte populatieproportie. Voor de standaardafwijking kunnen we een goede schatting maken aan de hand van de gevonden steekproefproportie: $sd = \sqrt{\frac{p (1 - p)}{n}}$ .
Hierin is $p$ de gevonden steekproefproportie en $n$ de steekproefgrootte.

We passen de $95 %$ -vuistregel voor normale verdelingen toe: de gevonden steekproefproportie bevindt zich in $95 %$ van de gevallen tussen $populatieproportie - 2 \cdot sd$ en $populatieproportie + 2 \cdot sd$ .
Het geldt ook andersom: de echte populatieproportie bevindt zich in $95 %$ van de gevallen tussen $p - 2 \cdot sd$ en $p + 2 \cdot sd$ .
Het interval met deze grenzen noemen we het 95%-betrouwbaarheidsinterval voor de populatieproportie.

In dit voorbeeld geldt $p = 0,32$ en $n = 50$ , dus $sd = \sqrt{\frac{0,32 \cdot 0,68}{50}} \approx 0,0659...$ .
Dus: met een kans van $95 %$ ligt de echte populatieproportie tussen $0,32 - 2 \cdot 0,0659...$ en $0,32 + 2 \cdot 0,0659...$ , ofwel (afgerond) tussen $0,19$ en $0,45$ .
Het populatiepercentage ligt met een kans van $95 %$ tussen $19$ en $45$ .
Ofwel: we weten met $95 %$ zekerheid dat tussen $19 %$ en $45 %$ van de mensen in Luilekkerdorp op de partij Van Alles Meer zal stemmen.

Opmerking:

Eigenlijk is dit een slordige manier van spreken. Het populatiepercentage is een vast (maar onbekend) getal. Het steekproefpercentage is een variabele en hangt van de toevallige steekproef af. Bij een andere steekproef zou je (zeer waarschijnlijk) een andere waarde gevonden hebben. Dus ook het betrouwbaarheidsinterval, dat op die steekproef gebaseerd is, hangt af van het toeval. Met een kans van $95 %$ bevat dit toevallige interval het echte populatiepercentage.

Op het centraal examen krijg je een formuleblad waarop deze vuistregel staat waarmee je een uitspraak kunt doen over de populatieproportie en de betrouwbaarheid ervan. Deze vuistregel luidt:
het $95 %$ -betrouwbaarheidsinterval voor de populatieproportie is $p \pm 2 \cdot \sqrt{\frac{p (1 - p)}{n}}$ , met $p$ de steekproefproportie en $n$ de steekproefomvang.

Na klachten van kritische lezers besluit de dorpskrant een nieuwe enquête te houden. Nu worden naast inwoners van Luilekkerdorp ook andere inwoners van de gemeente geënquêteerd. Van $200$ willekeurig gekozen inwoners van de gemeente zeggen er $60$ op de partij Van Alles Meer te zullen stemmen.

Bereken aan de hand van deze uitkomst het $95 %$ -betrouwbaarheidsinterval voor het percentage VAM-stemmers in de gemeente.

De steekproefgrootte is toegenomen van $50$ naar $200$ respondenten.

Welke invloed heeft dit op het betrouwbaarheidsinterval? Leg uit hoe dit volgt uit de vuistregel bij het examen.

De Stedelijke Courant besluit ook de populariteit van de partij Van Alles Meer te peilen onder de inwoners van de gemeente. De onderzoekers willen een $95 %$ -betrouwbaarheidsinterval dat hooguit $4$ (procent) breed is, bijvoorbeeld van $30$ tot $34$ procent.

Bereken met de vuistregel hoe groot de steekproef minimaal moet zijn om aan deze eis te voldoen.

In de vorige opgave heb je gezien dat de nauwkeurigheid van een schatting afhangt van de steekproefomvang; hoe groter de steekproef, hoe nauwkeuriger de schatting.

Opmerking:

De nauwkeurigheid van een schatting hangt dus af van de grootte van de steekproef. Hoe groot de populatie is, is nauwelijks van belang. George Galop, de beroemde Amerikaanse opiniepeiler, heeft er dit over gezegd:

Whether you poll the United States or New York State or Baton Rouge (160.000 population), you need only the same number of interviews or samples. It is no mystery really: if a cook has two pots of soup on the stove, one far larger than the other, and thoroughly stirs them both, he doesn’t have to take more spoonfulls from one than the other to sample the taste accurately.
BRON: Schatten, hoe doe je dat? geschreven door Jan Smit en Wim Kremers

Voor haar profielwerkstuk heeft Ines $200$ aselect gekozen middelbare scholieren gevraagd naar het gebruik van de smartphone. $150$ van de $200$ respondenten gaven aan dat ze elke $3$ tot $6$ minuten hun smartphone checken. In haar verslag schrijft Ines: “ $75 %$ van de middelbare scholieren checkt elke $3$ tot $6$ minuten zijn telefoon”.
Om te laten zien dat het om een schatting gaat, wil Ines een $95 %$ -betrouwbaarheidsinterval geven. Ze gebruikt hiervoor de vuistregel $p \pm 2 \cdot \sqrt{\frac{p (1 - p)}{n}}$ .

Welke grenzen vindt Ines voor het interval?

Met behulp van een computersimulatie kunnen we laten zien dat de intervallen $p \pm 2 \cdot \sqrt{\frac{p (1 - p)}{n}}$ bijna altijd, op enkele procenten na, de populatieproportie bevatten. Stel dat de echte populatiefractie $0,70$ is, dus $70 %$ van de middelbare scholieren checkt elke $3$ tot $6$ minuten zijn smartphone. We laten de computer $100$ keer een steekproef trekken met een steekproefomvang van $200$ . Bij elke steekproef worden de grenzen van het $95 %$ -betrouwbaarheidsinterval berekend met de vuistregel $p \pm 2 \cdot \sqrt{\frac{p (1 - p)}{n}}$ .
De $100$ resultaten vind je hieronder. $94$ van de $100$ intervallen bevatten de ware proportie $0,70$ .
Je kunt deze simulatie ook zelf uitvoeren met behulp van VUStat.

In het hoofdstuk Statistiek 3 heb je ook steekproeven getrokken uit bekende populaties; de populatiefractie was dus bekend. Ook als we steekproeven trekken uit bekende populaties, treedt door de rol van toeval variatie op in de steekproefuitkomsten. Hoewel de precieze uitkomst van een steekproef niet te voorspellen is, heb je bij Statistiek 3 geleerd dat:

de steekproevenverdeling (van een proportie) normaal verdeeld is als de steekproefomvang voldoende groot is en
de spreiding van de steekproevenverdeling afneemt bij een toename van de steekproefomvang.

De vuistregel $p \pm 2 \cdot \sqrt{\frac{p (1 - p)}{n}}$ voor het $95 %$ -betrouwbaarheidsinterval is hierop gebaseerd. De steekproefproportie $p$ gebruik je als schatter voor de onbekende populatieproportie.

Het begrip ‘Auschwitz’ zegt een op de vijf Duitse jongeren niets. Uit een opiniepeiling van het Duitse tijdschrift STERN blijkt dat slechts $79$ procent van de jongeren weet dat Auschwitz een voormalig nazivernietigingskamp is. STERN hield de opiniepeiling in aanloop naar de Internationale Herdenkingsdag voor de Holocaust.

Wat is de populatie waarop de opiniepeiling betrekking heeft?

Veronderstel dat de opiniepeiling is gehouden onder een aselecte steekproef van $360$ personen uit de populatie.

Bereken op basis van deze gegevens een $95 %$ -betrouwbaarheidsinterval voor de populatieproportie.

Wat zouden de onderzoekers kunnen doen om ons ervan te overtuigen dat de steekproef aselect is?

Noem enkele situaties waarin er aan getwijfeld mag worden dat de steekproef aselect is.

Opmerking:

De schattingen waar we ons in dit hoofdstuk mee bezighouden, berusten steeds op een aselecte steekproef: ieder element van de populatie heeft dezelfde kans om in de steekproef terecht te komen. Als een steekproef niet aselect is, kan een onderzoek een verkeerd beeld geven. De afwijking van een steekproefproportie van de te schatten populatieproportie kan als gevolg van methodische fouten (geen aselecte steekproef, hoge non-response) veel groter zijn dan de foutenmarge die je vindt met de vuistregel. Methodische fouten worden ook niet kleiner door de steekproef te vergroten.

Ouderen nemen vaak te veel of juist te weinig medicijnen. Dat kan leiden tot vervelende bijwerkingen en zelfs onnodige ziekenhuisopnamen, zo blijkt uit een onderzoek van het RIVM (Rijksinstituut voor Volksgezondheid en Milieu).

Wat is de populatie waarop dit bericht betrekking heeft?

Uit het onderzoek blijkt dat bijna $20$ procent van de $75$ -plussers dagelijks negen of meer geneesmiddelen neemt. Veronderstel dat deze uitspraak is gebaseerd op een aselecte steekproef van $1000$ personen uit de populatie.

Bereken het $95 %$ -betrouwbaarheidsinterval voor de populatieproportie.

Wat gebeurt er met het $95 %$ -betrouwbaarheidsinterval als de steekproefomvang daalt van $1000$ naar $100$ respondenten?

We laten nu de veronderstelling dat de steekproef uit $1000$ personen bestaat los en we veronderstellen dat de onderzoekers met $95$ procent zekerheid de populatieproportie willen schatten op $2$ decimalen nauwkeurig.

Bereken hoe groot de steekproef zal moeten zijn om aan deze eis te voldoen.

Veel fruittelers houden zich niet aan de regels. Dat stelt de Nederlandse Voedsel- en Warenautoriteit (NVWA) na de jaarlijkse controle onder $100$ van de $3200$ telers. Ongeveer een derde van hen gebruikt verboden middelen om fruitgewassen te beschermen tegen insecten en ziektes. Milieudefensie noemt het ‘ongehoord’ dat een derde van de telers verboden gif gebruikt.

Wat is hier de populatie?

Veronderstel dat de $100$ onderzochte telers een aselecte steekproef vormen uit de populatie.

Bereken het $95 %$ -betrouwbaarheidsinterval.

Op welke wijze zou de NVWA kunnen garanderen dat de steekproef aselect is?

Wat zouden redenen kunnen zijn dat de steekproef niet aselect is?

Opmerking:

Het onderstaande komt niet aan bod op het centraal examen.

In het hoofdstuk Statistiek 3 heb je geleerd dat de verdeling van de steekproefproportie voor voldoende grote steekproeven benaderd kan worden door een normale verdeling. De vuistregel $p \pm 2 \cdot \sqrt{\frac{p (1 - p)}{n}}$ is hierop gebaseerd. De steekproefproportie $p$ is je schatting voor de onbekende populatieproportie.

Zoals je in het hoofdstuk Statistiek 3 hebt geleerd geldt bij een normale verdeling de volgende vuistregel: $95 %$ van alle waarnemingen bevindt zich tussen het gemiddelde plus of min twee keer de standaardafwijking. De $2$ in de formule is een afgeronde waarde van de zogenaamde $z$ -waarde die hoort bij $95 %$ . Een preciezere waarde is $1,96$ . Wiskundigen hebben een formule gevonden om de standaardafwijking $σ$ van de steekproevenverdeling uit de gevonden steekproefproportie $p$ en de steekproefomvang $n$ af te leiden: $σ = \sqrt{\frac{p (1 - p)}{n}}$ .
Zo ontstaat de vuistregel $p \pm 2 \cdot \sqrt{\frac{p (1 - p)}{n}}$ .

Wanneer er voor een andere betrouwbaarheid wordt gekozen dan $95 %$ , dan moet de $2$ in de formule vervangen worden door de $z$ -waarde die hoort bij die andere betrouwbaarheid. Als er voor meer betrouwbaarheid wordt gekozen, bijvoorbeeld $99 %$ , dan hoort daar de $z$ -waarde $2,58$ bij. Als je dus in de formule de $2$ vervangt door $2,58$ , dan krijg je het $99 %$ -betrouwbaarheidsinterval.

Ander voorbeeld: kies je voor minder betrouwbaarheid, bijvoorbeeld $90 %$ , dan hoort daar de $z$ -waarde $1,65$ bij. Als je dus in de formule de $2$ vervangt door $1,65$ , dan krijg je het $90 %$ -betrouwbaarheidsinterval.

Bij een onderzoek naar de slagingskans voor het rijexamen wordt van een aselecte steekproef van $800$ pogingen vastgesteld of het examen is gehaald of niet. Van die $800$ pogingen blijken er $683$ succesvol te zijn.

Worden de $90 %$ -, $95 %$ - en $99 %$ -betrouwbaarheidsintervallen voor de slagingskans voor het rijexamen steeds breder of smaller? Licht je antwoord toe.

Met behulp van de bovenstaande opmerking kun je die intervallen ook berekenen. Doe dat.