Tot nu toe hebben we gekeken hoe een “berg” cijfers overzichtelijk in beeld gebracht kan worden en hoe kerngegevens berekend kunnen worden. Dit noemen we beschrijvende statistiek. Er is nog een andere tak van de statistiek, namelijk de wiskundige statistiek. Deze houdt zich bezig met steekproeven.

Bij een onderzoek in de Verenigde Staten bleek dat $630$ van de $1500$ mensen, die geïnterviewd waren, zich 's avonds onveilig op straat voelden. Op grond van dit gegeven werd geconcludeerd dat $42 %$ zich 's avonds onveilig op straat voelt. Wat heeft men aan zo'n uitspraak? Niet natuurlijk dat precies $42 %$ van de totale bevolking zich 's avonds onveilig op straat voelt. Toch hopen de onderzoekers dat het percentage ongeveer rond de $42 %$ is. Als de steekproef 'goed' genomen is, kan men iets over de betrouwbaarheid van die $42 %$ zeggen. Daar houdt de wiskundige statistiek zich mee bezig. Zo kunnen onderzoekers na enig rekenen zeggen dat het vrijwel zeker is dat het echte percentage van de bevolking dat zich 's avonds onveilig op straat voelt tussen $39 %$ en $45 %$ ligt. Dan moeten ze nog wel vertellen wat zij met 'vrijwel zeker' bedoelen. 'Vrijwel zeker' moet gelezen worden als 'in $95$ van de $100$ gevallen' dat een steekproef zo gehouden wordt.

Dit houdt dus in dat het soms (naar verwachting in $5$ van de $100$ steekproeven) gebeurt dat het echte percentage meer dan $45 %$ of minder dan $39 %$ is. Onderzoekers spreken van een onbetrouwbaarheidsmarge of foutenmarge van $3 %$ .

De belangrijkste kandidaten voor de presidentsverkiezingen in Frankrijk van 2007 waren Nicolas Sarkozy, François Bayrou, Ségolène Royal, en Jean-Marie Le Pen. Een week voor de eerste ronde voorspelde een enquêtebureau $28 %$ voor Sarkozy, $25 %$ voor Royal, $21 %$ voor Bayrou en $16 %$ voor Le Pen. Zo'n voorspelling is niet zo heel nauwkeurig. Een ander bureau kan met percentages komen die behoorlijk veel kunnen afwijken.
Neem eens aan dat de onbetrouwbaarheidsmarge $3 %$ is.

Tussen welke grenzen liggen de percentages vrijwel zeker van elk van de vier kandidaten?

Welke mogelijke volgorden van de eerste drie kandidaten zijn er mogelijk?

$10 %$ van de stemgerechtigden hebben hun keuze nog niet gemaakt.

Welke rol kunnen deze $10 %$ nog spelen?

Bij al dit soort steekproeven blijf je dus met onzekerheid zitten. $100 %$ zekerheid krijg je alleen als je iedereen uit de te onderzoeken populatie zou interviewen.

Waarom doet men dat eigenlijk niet, en kiest men toch voor een steekproef?

Een onbetrouwbaarheidsmarge van $3 %$ betekent dus dat het echte percentage vrijwel zeker tussen 'het (in de steekproef) gevonden percentage min $3 %$ ' en 'het gevonden percentage plus $3 %$ ' ligt. En dat “vrijwel zeker” betekent “in $95$ van de $100$ steekproeven”.

Stel dat je meer zekerheid wilt hebben: je wilt in $99$ van de $100$ steekproeven 'goed zitten'.

Zal de onbetrouwbaarheidsmarge nu groter worden, kleiner worden of gelijk blijven?

Er zijn meerdere manieren om een steekproef te nemen maar de hele theorie over betrouwbaarheidsmarges en zekerheden geldt alleen als de mensen voor de steekproef geloot worden uit de te onderzoeken populatie. Iedere persoon in Frankrijk moet een even grote kans hebben om in de steekproef te komen. Zo’n steekproef heet aselect. Dat lijkt simpel, maar is het niet.

Als in de krant staat dat de helft van de bevolking vertrouwen heeft in de premier, wil dat dan zeggen dat ruim $8$ miljoen Nederlanders aan een enquêtebureau verteld hebben dat ze vertrouwen in de premier hebben? Nee natuurlijk. Het bureau heeft bijvoorbeeld $1200$ mensen opgebeld en ze naar hun mening gevraagd.

Stel een bureau wil weten hoeveel procent van de Nederlandse bevolking vertrouwen heeft in de premier.
Bekijk de volgende drie methodes en geef kritiek.

In een winkelstraat in Amsterdam worden op zaterdagochtend $1200$ mensen naar hun mening gevraagd.

Uit de adressenlijst van de grootste krant van Nederland worden $1200$ namen geloot en die mensen worden naar hun mening gevraagd.

Uit alle telefoonboeken van Nederland worden $1200$ mensen geloot: uit ieder van de $50$ regionale telefoonboeken wordt $24$ keer een willekeurige bladzijde opengeslagen en met een speld een naam geprikt. Deze wordt gebeld en naar de mening gevraagd.

Het met een speld prikken suggereert dat het loten eerlijk gebeurt: iedereen zou een even grote kans hebben om in de steekproef te komen.
Men kan ook gebruik kunnen maken van dobbelstenen met meer dan $6$ kanten, bijvoorbeeld een $100$ -kantige dobbelsteen. Of zo'n $100$ -kantige dobbelsteen bestaat of niet, het beeld is duidelijk: als je ermee gooit krijg je een getal (van $00$ t/m $99$ ) dat door toeval tot stand gekomen is.
Zoiets zou prima functioneren als je uit een groep van $100$ mensen een steekproef van $10$ mensen wilt nemen. Je geeft alle $100$ mensen een nummer (van $00$ t/m $99$ ); je gooit nu net zolang met de $100$ -kantige dobbelsteen totdat je $10$ verschillende getallen hebt. De mensen met deze nummers komen in de steekproef.

Kun je aangeven hoeveel keer je hoogstens hoeft te werpen om $10$ verschillende nummers te krijgen?

We gaven al aan dat zo'n $100$ -kantige dobbelsteen misschien niet bestaat; het was een gedachtenexperiment. Bovendien, als de groep te onderzoeken mensen uit $95$ personen bestaat, zou je dan een $95$ -kantige dobbelsteen maken? De computer bewijst hier zijn nut. Deze kan een lijst van zogenaamde toevalsgetallen maken. Hieronder zie je een lijst van willekeurige getallen van twee cijfers, als ware er met een $100$ -kantige dobbelsteen gegooid.

Nu is het aan de steekproefnemers om deze lijst handig te gebruiken.

Bij een autofabriek moeten de laatste $50$ auto's van de productielijn gecontroleerd worden. Men neemt een steekproef van $6$ stuks, die grondig getest worden. Welke auto's kiest men nu? Niet de eerste zes of laatste zes. Loten dus.
In het gedachtenexperiment zouden we met een $50$ -kantige dobbelsteen gooien totdat we zes verschillende nummers hadden. In plaats daarvan gaan we de lijst met toevalsgetallen gebruiken.
We kiezen een willekeurige regel, bijvoorbeeld regel zeven. Deze luidt: $29$ $31$ $09$ $15$ $98$ $59$ $12$ $23$ $93$ $17$ $15$ enz.
We nemen steeds twee cijfers naast elkaar. Zo ontstaan getallen van $00$ tot en met $99$ . Getallen boven de vijftig zijn niet bruikbaar: die slaan we over. Voor de steekproef worden de auto's gekozen met de nummers: $29$ , $31$ , $09$ , $15$ , $12$ en $23$ .

Gebruik de lijst met toevalsgetallen om een steekproef van $7$ leerlingen uit je klas te nemen. Geef duidelijk aan hoe je de lijst gebruikt.

Opmerking:

Ook met je grafische rekenmachine kun je toevalsgetallen maken. Zoek uit hoe dat precies gaat.

We weten nu dat een steekproef 'goed' moet worden genomen en dat dat inhoudt dat iedere persoon uit de te onderzoeken populatie een even grote kans heeft om in de steekproef te komen. Toch zal in de praktijk de steekproef niet altijd direct uit de hele populatie getrokken worden.
Men wil een onderzoek doen naar wiskundedocenten in het voortgezet onderwijs. Bij een 'goede' steekproef van $150$ docenten blijken er $130$ mannen en $20$ vrouwen gekozen te worden. Natuurlijk weten de onderzoekers dat er veel meer mannelijke dan vrouwelijke wiskundedocenten zijn. Als ze bovendien weten hoe de verhouding is tussen die twee groepen (bijvoorbeeld $70 %$ man en $30 %$ vrouw), dan kunnen ze ook $105$ mannelijke docenten en $45$ vrouwelijke docenten kiezen.

Wat is het voordeel van deze laatste methode?

Als de te onderzoeken populatie uit een aantal deelgroepen bestaat en de verhouding van het aantal personen in de deelgroepen is bekend, dan kun je als onderzoeker besluiten de steekproef op te delen in een aantal kleinere steekproefjes uit de verschillende groepen. De steekproef is dan qua samenstelling representatief voor de populatie.
Een laatste probleem met onderzoek door middel van steekproeven is: "Krijg je de informatie die je hebben wilt?”

Een groepje leerlingen, die een onvoldoende voor wiskunde op het rapport hebben, krijgen bijles. Iedere donderdagmiddag krijgen ze $1,5$ uur bijles. Het eerste proefwerk, enige weken later, blijkt een succes. De gemiddelde score van het groepje is $6,5$ . Dus de bijles helpt prima, is de voor de hand liggende conclusie.

Verzin argumenten om deze snelle conclusie onderuit te halen.

Om de werking van een nieuw medicijn te onderzoeken, worden er meestal twee groepen gemaakt: de experimentele groep en de controlegroep. In de experimentele groep krijgt iedereen het nieuwe medicijn toegediend. In de controlegroep krijgt iedereen een nepmiddel (placebo), dat er precies zo uitziet als het echte medicijn, toegediend. Bovendien wordt het onderzoek dubbelblind uitgevoerd, dat wil zeggen dat zowel de patiënten als doktoren niet weten wie het echte medicijn en wie het placebo krijgt.

Leg uit waarom het goed is dat het onderzoek dubbelblind wordt uitgevoerd.

Stel dat de resultaten na $3$ weken als volgt zijn:

Kun je een argument verzinnen voor de uitspraak: 'het nieuwe middel werkt nauwelijks'? Welk?

Stel dat de uitslag van de placebo groep was geweest: $0$ genezen, $0$ verbetering, $37$ geen verbetering. Dan zou je geen twijfel hebben: het nieuwe middel werkt!

Vanaf welk uitslag van de placebo groep zou jij kiezen voor de conclusie 'het medicijn werkt'?

Geef kritiek bij de volgende situaties. Kritiek kun je geven op de opzet van het onderzoek of op de conclusies die getrokken worden.
Geef waar mogelijk aanwijzingen om het onderzoek te verbeteren.

Vaccinatie levensgevaarlijk

In oktober 1976 werd in de Verenigde Staten gestart met griepvaccinatie. Allereerst werden de ouderen en zwakken ingeënt. In de eerste week werden $24.000$ mensen van $65$ jaar en ouder ingeënt. Drie ervan overleden kort hierna. Daarop stopten acht staten met de vaccinatie. Hier trok men blijkbaar de conclusie dat vaccineren gevaarlijk is.

Vitamines verlengen je leven

De laatste jaren is er een enorme stijging in het gebruik van vitaminen. Speciale 'gezondheidswinkels' rijzen als paddestoelen uit de grond. Een van die winkels wil voor reclamedoeleinden aantonen dat het gebruik van veel vitaminepillen de gezondheid bevordert. Er worden enquêteformulieren neergelegd in alle filialen van deze winkel. De enquête wordt ingevuld door $3214$ mensen. Van deze groep zegt $91 %$ baat te hebben bij extra vitaminegebruik. In de advertentie zet men: 'Onderzoek toont aan dat $91 %$ van de mensen baat heeft bij extra vitaminegebruik'.

Ontevreden vrouwen

Bij een onderzoek naar de verdeling van zorgtaken binnen het gezin werden $50.000$ vrouwen aangeschreven met het verzoek een enquête in te vullen. Slechts $3750$ vrouwen voldeden aan dat verzoek. De resultaten van het onderzoek werden vastgelegd in een rapport. Daarin wordt gesproken over het feit dat drie van de vier vrouwen ontevreden is over de verdeling van de taken.

Naar het buitenland?

Een onderzoeker wil graag weten hoeveel Nederlanders er dit jaar de zomervakantie in eigen land willen doorbrengen. Om mensen voor zijn steekproef te selecteren bezoekt hij $27$ reisbureaus in de randstad (daar wonen veel mensen) en interviewt daar iedere zevende bezoeker. Het resultaat van het onderzoek was dat een record aantal Nederlanders zijn vakantie in het buitenland wil doorbrengen.

Kijken en beslissen

De cijfers voor wiskunde gaan omhoog; dus de bijles is goed.
De benauwdheid verdwijnt; dus werkt het medicijn.
Er sterven mensen na vaccinatie; dus stoppen met de vaccinatie.

Bij deze methode moet je voorzichtig zijn met het trekken van conclusies.

Kijken en vergelijken

De cijfers gaan ook omhoog bij de leerlingen die geen bijles hebben; de bijles maakt niets uit.
De benauwdheid verdwijnt ook bij neppillen; het effect is waarschijnlijk psychologisch.
Zonder vaccinatie waren er misschien wel veel meer mensen gestorven; doorgaan met vaccineren.

Deze methode is veel beter, omdat de resultaten van de experimentele groep worden vergeleken met een controlegroep.

Bij statistisch onderzoek (bijvoorbeeld bij enquêtes) moeten de deelnemers willekeurig worden gekozen. Iedere persoon (of elk element) in de populatie moet dezelfde kans hebben om in de steekproef terecht te komen. We noemen zo’n steekproef aselect. Dus:

niet in een gezondheidswinkel vragen of mensen een positief effect ondervinden bij vitaminegebruik; de mensen die overtuigd vitaminekopers zijn, zijn oververtegenwoordigd in de steekproef; de steekproef is niet representatief;
niet een onderzoek als volwaardig presenteren als slechts een klein deel van de ondervraagden heeft geantwoord; bij een groot aantal weigeringen (non-reponse) is de steekproef wellicht niet representatief.

Twintig patiënten hebben zich aangemeld voor een medisch experiment met een nieuw geneesmiddel. Op volgorde van aanmelden volgt hier de lijst.

Beschrijf hoe jij, als onderzoeker, zo'n experiment op zou zetten.
Gebruik in ieder geval een controlegroep en verdeel de $20$ patiënten door loting met toevalsgetallen over de twee groepen.

Onderzoek hoe nieuwe geneesmiddelen worden getest alvorens ze tot de markt worden toegelaten.