1
a

De boxplot is niet geschikt, daarin kun je de aantallen namelijk niet aflezen.

b

De interkwartielafstand is 70 40 = 30 .
De grenzen van het interval zijn 60 45 = 15 en 60 + 45 = 105 .
Er zijn dus twee uitschieters. Bij de waarde 0 zou het om een meetfout kunnen gaan, bijvoorbeeld omdat de apparatuur weigert.

c

De lage waarden worden hoger, daardoor wordt het totaal aantal bacteriën in de 100   monsters groter, dus wordt het gemiddelde groter.
De afstanden tot het gemiddelde worden kleiner, daardoor wordt de standaardafwijking kleiner.

d

De mediaan was 60 (zie boxplot). De mediaan in de nieuwe situatie is ook weer 60 , dus die verandert niet.

e

Het interval wordt smaller, omdat de standaardafwijking kleiner wordt. Het midden van het interval schuift naar links, omdat het gemiddelde kleiner wordt.

2
a

Profiel ; nominaal.

b

Aangezien het aantal leerlingen per profiel ongelijk is, kun je voor een goede vergelijking aantallen beter herleiden tot percentages. Omdat je per profiel wilt weten hoe de variabel huiswerk verdeeld is, stel je het aantal leerlingen voor elk profiel op 100 % . Je gaat dus verticaal percenteren.

c
d

Bepaal de cumulatieve percentages per profiel. Nu blijkt dat het verschil tussen de profielen CM, EM en NG gering is ( max   V c p 20 ), maar het verschil tussen het profiel NT en de profielen CM, EM en NG is middelmatig ( 20 < max   V c p 40 ).

3
a

De modus is 40  mm, want die komt het meeste voor (namelijk 4  keer).
De mediaan is het gemiddelde van het 50 e en het 51 e getal. Dat is 66 + 67 2 = 66,5  mm.

b

In het steelbladdiagram zijn het 50 e en het 51 e getal omcirkeld.
In het steelbladdiagram zijn het eerste en het laatste getal omcirkeld.
In het steelbladdiagram zijn het 25 e en het 26 e getal omcirkeld ( 1 e kwartiel).
In het steelbladdiagram zijn het 75 e en het 76 e getal omcirkeld ( 3 e kwartiel).

Dit geeft de volgende boxplot.

4

-

5
a

Het gemiddelde is 5,37 en de standaardafwijking is 1,93 .

b

3,3 + 2 1,1 = 5,5 . Dus volgens de vuistregels van de normale verdeling haalde 2,5 % van de niet-werkers het tentamen.

c

Het gemiddelde moet kleiner zijn dus de grafiek ligt links van A, dus grafiek B hoort niet bij de niet-werkers. De standaardafwijking moet kleiner zijn dus de grafiek is smaller (en de top ligt hoger) dan A, dus grafiek C hoort niet bij de niet-werkers.

6
a

Het betrouwbaarheidsinterval is 0,4 ± 2 0,4 0,6 135 0,4 ± 0,08 .
Het percentage ligt tussen 32 % en 48 % .

b

Er is een enquêteformulier gestuurd naar maatschappelijk actieve priesters, maar dat is slechts een deelgroep van alle priesters. Je kunt je dus afvragen of zij representatief zijn voor alle priesters. In ieder geval is het geen aselecte steekproef als je alleen priesters uit deze deelgroep een enquêteformulier stuurt.
Er hebben slechts 135 van de ruim 700  personen gereageerd (en 565  personen niet) dus de meesten hebben helemaal niet gereageerd. Dat is een behoorlijke non-respons en dan weet je niet meer of degenen die wel gereageerd hebben een aselecte steekproef zijn.

c

40 % van 135 = 54  personen zijn voor afschaffing.
39 % van 135 = 53  personen vinden dat het celibaat gehandhaafd moet blijven.
Het scheelt zo weinig dat je niet met zekerheid kunt zeggen dat er in de hele populatie minder priesters zijn die vinden dat het celibaat gehandhaafd moet blijven dan priesters die van het celibaat af willen.

7
a

De mensen in de klassen C, D en E wachten tussen de 4 en de 10  weken, dus
58 % 38 % = 20 % .

b

De klassenmiddens zijn 1,   3,   5,   7,   9,   11,   19,   39 en 78 .
De bijbehorende relatieve frequenties zijn 8,   12,   16,   24,   16,   10,   6,   4 en 4 .
De gemiddelde wachttijd is 0,08 1 + 0,12 3 + ... + 0,04 39 + 0,04 78 = 11,28 .
De gemiddelde wachttijd is ongeveer 11  weken.

c

Een argument zou kunnen zijn dat bij neurochirurgie ruim 20 % van de patiënten binnen twee weken wordt geholpen, terwijl dit bij orthopedie minder dan 10 % is.

d

Het derde kwartiel zit bij 75 % en valt in klasse H.
72 % komt overeen met 26  weken wachten, 96 % met 52  weken.
De wachttijd bij het derde kwartiel is 26 + 75 72 96 72 ( 52 26 ) = 29  weken.

e

Het percentage wachtenden per klasse neemt steeds af vanaf klasse A naar klasse F. Voor de eerste 12  weken moet het cumulatieve frequentiepolygoon dus steeds wat minder hard stijgen (afnemend stijgend). Dus IV past het best.

8
a

De uiterste populatieproporties zijn 0,092 + 2 0,092 0,908 2700 = 0,092 + 2 0,0056 .
Deze proporties met 100 vermenigvuldigen geeft 9,2 ± 1,1 .

b

Er moet gelden: 0,092 0,908 n 0,0025 .
De bijbehorende vergelijking 0,092 0,908 n = 0,0025 los je op m.b.v. je GR. Dit geeft n = 13   366 .
Het antwoord: (minstens) 13   370  (personen).

c

Alleenstaanden hebben een grotere kans om in de steekproef te zitten. Hierdoor is de steekproef niet aselect.

d

Als mensen zichzelf kunnen opgeven, ontstaat er geen representatieve groep (bepaalde groepen kunnen onder- of oververtegenwoordigd zijn).

e

Deze stap zorgt voor selectie uit zowel grote steden als kleine dorpen (draagt bij aan de representativiteit).

9
a

Bij elke cumulatieve frequentie ligt de polygoon van restaurant B rechts van die van restaurant A. Dit betekent dat de fooien in restaurant B hoger zijn dan in restaurant A.

b

In restaurant A ligt 90 % 80 % = 10 % van de fooien tussen 6 en 8  dollar.
In restaurant B ligt 35 % 20 % = 15 % van de fooien tussen 6 en 8  dollar.
Dus in restaurant B werden relatief meer fooien tussen de 6 en 8  dollar gegeven.
of
De polygoon van restaurant A is minder steil dan de polygoon van restaurant B tussen 6 en 8  dollar. Dus in restaurant B werden relatief meer fooien tussen de 6 en 8  dollar gegeven.

c

Het derde kwartiel van de fooien in restaurant A is (ongeveer) 5,5 . Het eerste kwartiel van de fooien in restaurant B is (ongeveer) 6,7 .
5,5 is kleiner dan 6,7 , dus ruim driekwart van de fooien in restaurant B is hoger dan de 75 % laagste fooien in restaurant A.
of
Het derde kwartiel van de fooien in restaurant A is (ongeveer) 5,5 . Bij 5,5 is in restaurant B het cumulatieve percentage (ongeveer) 17,5 . 100 % 17,5 % = 82,5 % , dus ruim driekwart van de fooien in restaurant B is hoger dan de 75 % laagste fooien in restaurant A.

d

Dit kan met behulp van het max   V c p : het maximale verschil in cumulatieve percentages is 60 . Dit is groter dan 40 , dus het verschil is groot.
Het kan ook met behulp van boxplots. Maak op basis van de cumulatieve relatieve frequentiepolygonen een schets van beide boxplots. Omdat de boxen elkaar niet overlappen, is het verschil ook hier groot.

10
a

De scheiding tussen kort en lang ligt ongeveer bij E = 65 . De totale frequentie van de korte tussentijden is ongeveer 67 . Er zijn dus ongeveer 222 67 = 155  lange tussentijden. De verhouding kort : lang is dan 67 : 155 ( 1 : 2 ) .

b

Het gaat om de twee laagste punten in figuur 1. De waarde van D is bij beide punten gelijk. De tijdsduur D is 1,8  minuten.

c

De punten 1, 2 en 4 zijn te controleren met figuur 1.

d

De gemiddelde tijdsduur van een uitbarsting is ongeveer 3,5  minuten (schatting op basis van figuur 1). De gemiddelde duur van een uitbarsting samen met de tussentijd tot de eerstvolgende uitbarsting is ongeveer 70 + 3,5 = 73,5  minuten.

Het gemiddeld aantal uitbarstingen per dag is dan 24 60 73,5 20 .

e

Kies twee punten op de lijn, bijvoorbeeld ( 2,5 ;   60 ) en ( 4,5 ;   80 ) .
De richtingscoëfficiënt is 80 60 4,5 2,5 = 10 .
Het getal b (het snijpunt met de verticale as) is 60 10 2,5 = 35 .
of
Kies twee punten op de lijn, bijvoorbeeld ( 2,5 ;   60 ) en ( 4,5 ;   80 ) . Vul beide punten in de formule in: 10 2,5 + 35 = 60 en 10 4,5 + 35 = 80 .
Beide punten voldoen, dus de formule is juist.

f

D = 4,3 invullen in de formule geeft E = 78 . De toerist moet 78 15 = 63  minuten later bij de Old Faithful zijn. Dat is om 12.10  uur.

11
a

De verdeling van ELK ligt ten opzichte van AZM naar links. Het eerste kwartiel (of de mediaan of het derde kwartiel) zal bij ELK lager zijn dan bij AZM. Serie I hoort bij ELK.
of
Van serie I is het eerste kwartiel (of de mediaan of het derde kwartiel) lager dan van serie II. Serie I hoort bij de verdeling die het meest naar links ligt. Serie I hoort bij ELK.

b

Rechts van de mediaan liggen de gegevens verder uit elkaar dan links van de mediaan. De mediaan is dus kleiner dan het gemiddelde.
of
Omdat de figuur rechtsscheef is, ligt het gemiddelde rechts van de mediaan. De mediaan is dus kleiner dan het gemiddelde.

c

Het steekproefgemiddelde is 11   363 996   734 100 % 1,14 % . (Je kunt dit ook aflezen uit de tabel: 24,79 23,65 = 1,14 % .) Het woordje ‘geen’ wordt dus 114  keer per 10   000  woorden gebruikt.
Het 95 % -betrouwbaarheidsinterval van de populatieproportie is
0,0114 ± 0,0114 0,9886 996   734 0,0114 ± 0,00021 .
Per 10   000  woorden is het betrouwbaarheidsinterval 114 ± 2 (of [ 112,   116 ] ).

d

In algemene teksten zijn de frequenties van de woorden met rangnummer 1, 2 en 3 respectievelijk 88   000 , 44   000 en 29   333 . De cumulatieve frequenties zijn dan 88   000 , 132   000 en 161   333 . Dit geeft de cumulatieve percentages 8,8 , 13,2 en 16,2 . Vergelijken met de tabel geeft dat max   V c p = 5,5 .
Het verschil is minder dan 20 % dus het verschil is gering.

e

De frequentie volgens Zipf is 880 . De frequentie in de medische teksten is ongeveer 2000 .
Het procentuele verschil is ongeveer 2000 880 880 100 % 130 % .

12
a

In serie A werd 29 80 100 % 36 % van de vluchten afgekeurd.
In het hele onderzoek werd 66 640 100 % 10 % van de vluchten afgekeurd.
Dus het percentage afgekeurde vluchten in serie A is ongeveer 36 10 = 3,6  keer zo hoog als het percentage afgekeurde vluchten in het gehele onderzoek.

b

Hier moet de effectgrootte worden gebruikt.
Effectgrootte E = 6541 3840 1 2 ( 1354 + 512 ) 2,9 .
Dus het verschil is groot.

c

De mediaan is kleiner dan het gemiddelde. De verdeling moet dus scheef zijn met een staart naar rechts. Dus schets A past het best.

d

De boxen overlappen elkaar, maar de mediaan van de boxplot van serie A ligt buiten de box van serie B. Het verschil is dus middelmatig.

e

Uit de boxplot lezen we af dat de kortste vluchtduur ongeveer 110  seconden is.
De gemiddelde snelheid is 2462 110 6 5 3,1  cm per seconde.

f

Voorbeelden van goede argumenten zijn:

  • Uit tabel 1: het aantal afgekeurde vluchten neemt af.

  • Uit tabel 2: het aantal keren dat de kortste route wordt gevonden, neemt toe.

  • Uit tabel 2: de gemiddelde afgelegde afstand per goedgekeurde vlucht neemt af.

  • Uit tabel 2 of uit de figuur: de mediaan van de afgelegde afstand per goedgekeurde vlucht neemt af.

13
a

De variabelen zijn geslacht en voorkeurshand. Het meetniveau van beide variabelen is nominaal want de waarden van beide variabelen kunnen niet worden geordend.

b

p h i = 5 30 2 29 ( 5 + 29 ) ( 5 + 2 ) ( 29 + 30 ) ( 2 + 30 ) 0,14 . Volgens de vuistregels op het formuleblad is het verschil gering.

c

In 95 van de 100  gevallen zal de gemiddelde lichaamslengte van de mannelijke respectievelijk vrouwelijke studenten in het betreffende interval liggen.

d

Mannen: 183,8 ± 2 5,8 34 = 183,8 ± 2,0
Vrouwen: 170,8 ± 2 8,1 32 = 170,8 ± 2,9
Het interval van de mannen is het smalst omdat 2,0 kleiner is dan 2,9 .

e

Als één of beide standaardafwijkingen groter worden, wordt in de formule van de effectgrootte de noemer groter. Omdat de teller gelijk blijft (het verschil van de gemiddeldes bleef gelijk), betekent dit dat de effectgrootte kleiner wordt. Dus bij grotere standaardafwijkingen kan het verschil minder groot worden.

f

Met de gegevens in tabel 2 bepaal je de effectgrootte.
E = 183,8 170,8 1 2 ( 5,8 + 8,1 ) 1,9
Het verschil is groot.
Verder vergelijk je de twee boxplots in figuur 1.
De boxen overlappen elkaar, maar de mediaan van de vrouwen ligt buiten de box van de mannen (of omgekeerd: de mediaan van de mannen ligt buiten de box van de vrouwen).
Het verschil is middelmatig.

g

De boxen in figuur 1 overlappen elkaar maar voor een heel klein deel, terwijl de effectgrootte veel groter is dan de grenswaarde van 0,8 .
De conclusie die het best te verdedigen is, is dat het verschil groot is.

h

Lees twee geschikte punten op de trendlijn aflezen, bijvoorbeeld ( 160,   66 ) en ( 190,   79 ) .
De richtingscoëfficiënt is 79 66 190 160 0,4 . Dus: A = 0,4 L + b .
Het getal b (het snijpunt met de verticale as) vind je bijvoorbeeld door het punt ( 160,   66 ) in te vullen: 66 = 0,4 160 + b . Dit oplossen geeft b 3 .
De formule van de trendlijn is: A = 0,4 L + 3 .

i

95 % van de waarnemingen ligt hoogstens 2  standaardafwijkingen boven of onder de trendlijn. Dit is dus 6,0  cm boven of onder de trendlijn. Boven en onder de trendlijn kun je nu een evenwijdige lijn tekenen op afstand 6,0 van de trendlijn. Arceer tot slot het gevraagde gebied.