11.3  Conclusies trekken >

Je meet iets: de gemiddelde temperatuur in een jaar, het aantal zelfmoorden in een land, het aantal keer kop in een serie worpen met een muntstuk, … . Als je extreme resultaten krijgt, zul je concluderen dat er iets speciaals aan de hand is. Maar wanneer is een resultaat extreem, dat wil zeggen wanneer wijkt het voldoende af van wat je zou verwachten in normale omstandigheden. Dat is het grote probleem van de statisticus.

1

In deze opgave moet je op gevoel antwoorden. Je hoeft je antwoord dus niet met argumenten te onderbouwen.

Je werpt twintig keer met een muntstuk. Het valt 15 keer op kop.

a

Is dit voor jou voldoende reden om te concluderen dat het muntstuk vals is?

Je meet in de maand mei een gemiddelde maximum dagtemperatuur van 20 °C. Normaal is 17 °C.

b

Is dit voor jou voldoende aanleiding om te concluderen dat Nederland opwarmt?

20 % van de mensen voelt zich in Amsterdam onveilig op straat. Dat is in 1999 uit een groot onderzoek gekomen. In een recent onderzoek zei 25 % van de 200 ondervraagden dat ze zich onveilig voelden op straat.

c

Is dat voor jou voldoende reden om te concluderen dat het percentage van 20 % achterhaald is?

Significant

In de statistiek wordt een resultaat significant genoemd als het onwaarschijnlijk is dat het optreedt door toeval.
Maar wat is onwaarschijnlijk?
In normale omstandigheden zal de uitkomst in de buurt van het verwachte aantal liggen. Als het veel van het verwachte aantal afwijkt, noemt men het resultaat significant.
Maar wat is veel afwijken?
Een resultaat heet niet-significant als een dergelijke afwijking in normale omstandigheden in minstens 95 % van de gevallen zou optreden. Een resultaat heet significant als een dergelijk grote afwijking in normale omstandigheden in minder dan 5 % van de gevallen zou optreden.
Als een resultaat significant is, is dat voldoende reden om aan te nemen dat de omstandigheden niet normaal zijn. Maar het is altijd mogelijk dat door toeval in normale omstandigheden toch dat resultaat optreedt.
De “ 95 %” en “ 5 %” zijn een keuze die veel gemaakt wordt. Andere percentages die wel worden gekozen zijn 90 % (en 10 %) of 99 % (en 1 %).

Het blijft tot nu toe een beetje vaag. De volgende opgaven zijn verhelderend.

2

Veronderstel dat 20 % van de bevolking zich onveilig voelt op straat. Een dagblad houdt een enquête onder 100 lezers. Waarschijnlijk ligt het aantal lezers dat zegt zich onveilig te voelen in de buurt van 20 .

a

Ga na dat de kans dat dat aantal tussen 12 en 28 ligt, inclusief 12 en 28 , groter is dan 95 %.
Ga na dat de kans dat dat aantal tussen 13 en 27 ligt, inclusief 13 en 27 kleiner is dan 95 %.

b

Als 25 % zegt zich onveilig te voelen, wijkt het resultaat dan significant af van 20 ?

Een dagblad houdt een enquête onder 400 lezers. Nu verwacht je een aantal lezers dat zegt zich onveilig te voelen rond de 80 .

c

Zoek zo scherp mogelijke grenzen, symmetrisch om 80 , waartussen dat aantal met minstens 95 % kans ligt.

d

Als 25 % zegt zich onveilig te voelen, wijkt het resultaat dan significant af van 80 ?

Als de enquête onder 100 lezers is gehouden is het resultaat “ 25 % voelt zich onveilig” onvoldoende reden om de 20 % te verwerpen. De geconstateerde afwijking is niet groot genoeg.

Als de enquête onder 400 lezers is gehouden is het resultaat “ 25 % voelt zich onveilig” daar wel voldoende reden voor. De geconstateerde afwijking is dan groot genoeg.

De gehanteerde 5 % heet het significantieniveau.

Opmerking:

In opgave 21 heb je gezien dat het van de grootte van de enquête afhangt of een resultaat significant is.

Ronald Fisher

De term significant is ingevoerd door de Britse statisticus Ronald Fisher (1890 – 1962).
Het woord significant zou het best vertaald kunnen worden met: belangrijk, veelzeggend, in het oog springend.

3

We gaan een serie van twintig worpen doen met een munt. Veronderstel dat de munt “eerlijk” is. We verwachten dat de munt circa tien keer op kop zal vallen.

a

Zoek zo scherp mogelijke grenzen, symmetrisch om 10 , waartussen het aantal keer kop met minstens 95 % kans ligt.

Het blijkt dat de munt 15 keer op kop valt.

b

Is dit resultaat significant? Wat is je conclusie?

4

Mensen maken zich zorgen over de opwarming van de aarde, anderen zeggen dat het niet zo’n vaart loopt. De jaartemperatuur in De Bilt is normaal verdeeld met een standaardafwijking van 1 °C. Veronderstel dat het gemiddelde (nog steeds) 9,8 °C is.

a

Tussen welke grenzen, symmetrisch om 9,8 °C, ligt de jaartemperatuur met een waarschijnlijkheid van 95 %?

b

Als de jaartemperatuur het komende jaar 10,4 °C blijkt te zijn, is dat dan significant hoger?

Ga naar VUstat/Analyse/Verdelingen en kies voor Normale verdeling.
Kies μ = 9,8 en σ = 1 .
Kies bij 'schuiven' voor Tweezijdig en klik "5%" aan. Je krijgt zoiets te zien als het plaatje hiernaast.

c

Lees in VUstat de grenzen die bij a gevraagd werden af.

De steekproef

Een statistische uitspraak wordt gedaan op grond van data.

  1. een enquête

  2. een steekproef

  3. het verleden

Eigenlijk is een enquête ook een steekproef. Het is helemaal niet eenvoudig een goede steekproef te nemen.

5

Een onderzoeksbureau wil weten hoeveel procent van de Nederlandse bevolking vertrouwen heeft in de regering.
Bekijk de volgende drie methodes en geef kritiek.

a

In een winkelstraat in Amsterdam worden op zaterdagochtend 1200 mensen naar hun mening gevraagd.

b

Uit de adressenlijst van de grootste krant van Nederland worden 1200 namen geloot en die mensen wordt naar hun mening gevraagd.

c

Uit alle telefoonboeken van Nederland worden als volgt 1200 mensen geloot:
uit ieder van de 50 regionale telefoonboeken wordt 24 keer een willekeurige bladzijde opengeslagen en met een speld een naam geprikt. Deze wordt gebeld en naar zijn mening gevraagd.

Opmerking:

Het met een speld prikken suggereert dat het loten eerlijk gebeurt: iedereen zou een even grote kans hebben om in de steekproef te komen.
Men zou ook gebruik kunnen maken van maken van dobbelstenen met meer zes kanten, bijvoorbeeld een 100 -kantige dobbelsteen. Of zo'n 100 -kantige dobbelsteen bestaat of niet, het idee is duidelijk: als je ermee gooit krijg je een getal (van 00 t/m 99 ) dat zuiver door toeval tot stand gekomen is. Zoiets zou prima functioneren als je uit een groep van 100 mensen een steekproef van 10 mensen wilt nemen. Je geeft alle 100 mensen een nummer (van 00 t/m 99 ); je gooit nu net zolang met de 100 10 verschillende getallen hebt. De mensen met deze nummers komen in de steekproef.

6

Hoeveel keer moet je minimaal werpen om tien verschillende nummers te krijgen? En hoeveel maximaal?

We zeiden al dat zo'n 100 -kantige dobbelsteen misschien niet bestaat; het was een gedachtenexperiment. Bovendien, als de groep te onderzoeken mensen uit 105 personen bestaat, zou je liever een 105-kantige dobbelsteen hebben. Het eind is zoek. De computer of grafische rekenmachine bewijst hier zijn nut. Deze kunnen een lijst van zogenaamde toevalsgetallen maken. Hieronder zie je een lijst van willekeurige getallen van twee cijfers, als ware er met een 100 -kantige dobbelsteen gegooid.

Nu is het aan de steekproefnemers om deze lijst handig te gebruiken.

7

Bij een autofabriek moeten de laatste 50 auto's van de productielijn gecontroleerd worden. In plaats van de auto’s een voor een te testen, neemt men een steekproef van 6 stuks, die grondig worden nagekeken. Welke auto's kiest men nu? Niet de eerste zes of laatste zes. Loten dus.
In het gedachtenexperiment zouden we met een 50 -kantige dobbelsteen gooien totdat we zes verschillende nummers hadden. In plaats daarvan gaan we de lijst met toevalsgetallen gebruiken. We kiezen een willekeurige regel, bijvoorbeeld regel zeven van de bovenstaande lijst. Deze luidt: 29 31 09 15 98 59 12 enzovoort.
We nemen steeds twee cijfers naast elkaar. Zo ontstaan getallen van 00 tot en met 99. Getallen boven de vijftig zijn niet bruikbaar: die slaan we over.

Wat zijn de nummers van de auto’s die worden getest?

8

Je kunt de toevalsgetallen ook op een andere manier gebruiken. Bijvoorbeeld als volgt. Kies weer regel zeven en neem weer twee cijfers naast elkaar. Spreek van tevoren af:
- als het getal kleiner dan 50 is, wordt dat gekozen,
- als het getal 50 of groter is, dan trek je er 50 vanaf.
- als je zodoende een getal twee keer tegenkomt, sla je het de tweede keer gewoon over.

a

Welke auto’s worden gekozen bij de rij: 29 31 09 15 98 59 12 23 93 17 15?

b

Wat is het voordeel van deze tweede methode?

Opmerking:

Een steekproef is pas 'goed' als iedere persoon (of auto, of …) uit de te onderzoeken populatie een even grote kans heeft om in de steekproef te komen. Maar daarmee ben je er nog niet. Het is bijvoorbeeld soms wenselijk dat een deelgroep (bijvoorbeeld vrouwen, allochtonen, ouderen) evenredig vertegenwoordigd is in de steekproef. We geven een voorbeeld.

9

Men wil een onderzoek doen naar docenten op de basisschool en neemt een steekproef van 150 docenten. In het primaire onderwijs zijn ongeveer 21.000 mannen werkzaam en 117.000 vrouwen (cijfers van 2008). In de steekproef zou bij voorbaat met deze werkelijke verdeling rekening kunnen worden gehouden.

a

Hoeveel mannen en hoeveel vrouwen moeten dan in de steekproef worden opgenomen?

b

Met welke andere factoren zou men in het samenstellen van de steekproef rekening moeten houden?

Simuleren
10

Om de werking van een nieuw medicijn te onderzoeken, worden er meestal twee groepen gemaakt: de experimentele groep en de controlegroep. In de experimentele groep krijgt iedereen het nieuwe medicijn toegediend. In de controlegroep krijgt iedereen een nepmiddel (placebo), dat er precies zo uitziet als het echte medicijn.
Bovendien wordt het onderzoek dubbelblind uitgevoerd, dat wil zeggen dat zowel de patiënten als doktoren niet weten wie het echte medicijn en wie de placebo krijgt.

a

Waarom is het goed dat het onderzoek dubbelblind wordt uitgevoerd?

Stel dat de tabel hieronder de resultaten na drie weken geeft.

genezing

niet

totaal

medicijn

35

22

57

placebo

28

14

42

totaal

63

36

99

b

Vind jij dat het medicijn goed werkt? Waarom?

Als de uitslag is zoals in de tabel hieronder, zul je waarschijnlijk wel vinden dat het medicijn overtuigend presteert.

genezing

niet

totaal

medicijn

35

22

57

placebo

5

37

42

totaal

40

59

99

c

Vanaf welk uitslag van de placebogroep zou jij willen concluderen dat het medicijn werkt? Het is de bedoeling dat je je eigen criterium formuleert.
Dat hoef je niet te beargumenteren.

Vaak is het resultaat niet zo duidelijk dat je vrijwel zeker kunt concluderen dat het medicijn werkt. Bijvoorbeeld in de volgende tabel.

genezing

niet

totaal

medicijn

32

27

59

placebo

16

24

40

totaal

48

51

99

Het medicijn presteert wel wat beter dan de placebo, maar deze uitslag kan misschien ook door toeval tot stand zijn gekomen. Met andere woorden: is dit resultaat afwijkend genoeg? Die vraag gaan we beantwoorden.
We nemen een populatie van 99 personen: 48 positieven en 51 negatieven. Daaruit trekken we een steekproef van 59 personen (die het medicijn krijgen toegediend). Veronderstel dat het medicijn niet beter werkt dan de placebo.

d

Hoeveel positieven verwacht je dan onder die 59 personen?

We gaan een simulatie maken in VUstat/Steekproeven/Steekproeven uit ja-nee populatie :

  1. stel het percentage paars in op 48 99 0,485 (ofwel 48,5%),

  2. neem omvang populatie 99 ,

  3. neem omvang steekproef 59 ,

  4. klik 'zonder terugleggen' aan,

  5. voer de steekproef 1000 keer uit.

Elke keer dat de steekproef getrokken wordt, wordt het aantal paars geteld.
In het histogram kun je met 'Schuiven' (linksonder in beeld) te weten komen hoe vaak er 32 of er meer paars waren.

e

Hoe vaak was dat in jouw geval?
Hoe groot schat jij de kans op 32 of meer paars?
Vind je dat het resultaat in de tabel ( 32 keer genezing) voldoende sterk om te concluderen dat het medicijn werkt?

Een simulatie is niet nodig. De kans zou ook kunnen worden berekend. We hebben een vaas met 48 blauwe en 51 rode ballen en pakken er 59 uit.
Dan kun je de kans uitrekenen op 32 of meer blauwe ballen.

f

Hoe? Zeg hoe je de berekening uit zou voeren. Het uitvoeren zelf is veel werk, en kun je maar beter achterwege laten. Met Excel heb ik gevonden dat die kans 0,058 is.

De redenering in bovenstaande opgave is als volgt.
Stel dat het medicijn niet werkt en het relatief hoge aantal genezingen geheel door toeval is gekomen. Dan verwacht je dat van de 57 mensen met medicijn er 48 99 ste-deel zal genezen. In een simulatie blijkt dat de kans op 32 of meer genezingen dan een kans van 0,058 heeft.
Dit is niet minder dan het significantieniveau van 5 %.
Dus is de conclusie niet gerechtvaardigd dat het medicijn werkt.

11

Opgave 5 ging over de test van het poliovaccin Salk. 200.000 kinderen kregen het Salk-vaccin en 200.000 kinderen kregen een placebo. Men constateerde de volgende aantallen polio in de twee groepen :

polio

Salk

56

placebo

142

De vraag was of het middel van Salk werkt tegen polio.

a

Hoe zou je met een simulatie kunnen nagaan of dit resultaat significant is?

b

Voer de simulatie uit in VuStat.

c

Was het in 1956 verantwoord te concluderen dat het middel van Salk werkt?