7.8  Variatie bij steekproeven >
1

Zakken met 2,5  kg aardappelen bevatten natuurlijk zelden precies 2500  gram.
Een leverancier beweert dat in zijn zakken van 2,5  kg gemiddeld 2540  gram aardappelen zit met een standaardafwijking van 80  gram.

Dolf koopt twee zakken aardappelen (dit is dus een aselecte steekproef van 2 zakken). Beide zakken wegen minder dan 2,5  kg.

a

Heeft Dolf voldoende reden om te twijfelen aan de bewering van de fabrikant?

De medewerkers van de kwaliteitsafdeling willen controleren of het gemiddelde gewicht daadwerkelijk 2540  gram is. In verschillende winkels kopen ze in totaal 100  zakken met aardappelen (dit is een aselecte steekproef). Het gemiddelde gewicht van deze zakken (het steekproefgemiddelde) is 2518  gram.

b

Vind je dat er voldoende reden is om te twijfelen aan de bewering van de fabrikant dat er gemiddeld 2540  gram in de zakken aardappelen zit?

2

We gaan ervan uit dat de bewering van de fabrikant klopt, dus in de zakken van 2,5  kg zit gemiddeld 2540  gram aardappelen met een standaardafwijking van 80  gram.
Stel: in plaats van een enkele steekproef van 100  zakken, trekken we 1000  steekproeven met elk een steekproefgrootte van 100  zakken. Van elke steekproef berekenen we het steekproefgemiddelde. In het histogram vind je de steekproevenverdeling van deze gemiddelden.

a

Wat staat er op de horizontale as? En op de verticale as?

b

Hoeveel procent van de steekproeven heeft een gemiddelde tussen 2530 en 2550 ?

In de vorige opgave vonden de kwaliteitsmedewerkers in hun onderzoek (een enkele steekproef van omvang 100 ) een steekproefgemiddelde van 2518  gram.

c

Vind je dat er voldoende reden is om te twijfelen aan de bewering van de fabrikant dat er gemiddeld 2540  gram in de zakken aardappelen zit? Vergelijk je argumenten met je antwoord op opgave 69b.

In de praktijk schat je het populatiegemiddelde met de resultaten van een aselecte steekproef. Je bent namelijk vrijwel nooit in staat om de gehele populatie te onderzoeken. Het steekproefgemiddelde is veelal een goede schatting van het populatiegemiddelde.

Bij steekproeven treedt door de rol van het toeval altijd variatie op. Hoewel de uitkomst van een steekproef niet te voorspellen is, kun je toch iets zeggen over de waarschijnlijkheid van een steekproefgemiddelde. Dit kun je doen door steekproeven te simuleren en te kijken naar de verdeling van de steekproefgemiddelden.

Opmerking:

Met de online Steekproevenverdeling van VUstat.eu kun je eenvoudig zelf de bovenstaande simulaties uitvoeren.
Kies voor 'Normaal', stel in μ = 2540 en σ = 80 ; stel de steekproefomvang in op 100 .

3

Op het werkblad staan de afmetingen van 1000  rechthoeken. Dit moet je zien als de populatie. Er zijn grote en minder grote rechthoeken. Je wilt weten welk deel van deze rechthoeken een oppervlakte heeft van hoogstens  10 , dus een oppervlakte heeft van 10 of minder. Dit deel noemen we de populatieproportie. Je kunt de oppervlakte van alle 1000  rechthoeken berekenen en zo de populatieproportie bepalen. Maar dat kost tijd. In plaats daarvan nemen we een aselecte steekproef.

a

Neem een steekproef van 20  rechthoeken en bepaal de steekproefproportie: het deel van de 20  rechthoeken uit de steekproef dat een oppervlakte van hoogstens  10 heeft.

b

Hoe heb je bepaald welke rechthoeken in je steekproef komen?

c

Hoe hebben jouw klasgenoten bepaald welke rechthoeken in de steekproef komen? Zijn er verschillen? Welke manier(en) vind je het best?

d

Verzamel de resultaten van jouw klasgenoten en maak daarvan een histogram.

e

Tussen welke waarden zitten de gevonden proporties?

f

Geef een schatting van het percentage rechthoeken met een oppervlakte van hoogstens  10 .

4
a

Gooi 1 keer met een munt ( n = 1 ) en bepaal het percentage kop dat je gooit.

b

Gooi 5 keer met een munt ( n = 5 ) en bepaal het percentage kop dat je gooit.

c

Gooi 25 keer met een munt ( n = 25 ) en bepaal het percentage kop dat je gooit.

d

Verzamel de resultaten van jouw klasgenoten, verwerk deze in VU-Statistiek en maak histogrammen bij n = 1 , n = 5 en n = 25 .

e

Bekijk de drie histogrammen. Wat gebeurt er met ...
... het centrum als n (de steekproefomvang) toeneemt?
... de standaarddeviatie als n toeneemt?
... de vorm als n toeneemt?

f

Beschrijf in je eigen woorden waarom een toename van het aantal worpen leidt tot deze resultaten.

Het deel van een populatie met een zekere eigenschap noem je de populatieproportie. Het deel binnen de steekproef met deze eigenschap heet de steekproefproportie. De steekproefproportie is veelal een goede schatter van de populatieproportie. Deze schatting is betrouwbaarder naarmate de steekproef groter is.

John Kerrich bracht zijn tijd van gevangenschap in de Tweede Wereldoorlog door met het uitvoeren van een experiment: hij toste tienduizend keer met één geldstuk en noteerde regelmatig het aantal keren kop. Het resultaat is in de onderstaande tabel en figuur weergegeven.

De grafiek illustreert prachtig dat de schatting betrouwbaarder wordt bij toename van het aantal worpen.

5

Je bent groenteboer en gaat naar de importeur om fruit te kopen voor in je winkel. Om te bepalen welk deel van een partij sinaasappels rijp is, neem je een steekproef. Je kunt immers niet alle sinaasappels proeven.
Stel dat van een partij sinaasappels 66 % rijp is; de populatieproportie is dus 0,66 . Als je een aselecte steekproef van 50 trekt, dan krijg je vast niet precies 33  rijpe sinaasappels in de steekproef. Er zal variatie optreden.

a

We trekken meerdere malen - namelijk 1000  keer - een steekproef van 50  sinaasappels. Met de computer kunnen we willekeurige trekkingen nabootsen. Simuleer met de online-app Steekproevenverdeling 1000  keer een steekproef van 50  sinaasappels en teken het histogram van de steekproefproporties.

(hint)

Met VUStat kun je snel en eenvoudig aselecte steekproeven simuleren. Selecteer daarvoor in het menu “Steekproeven” de optie “Steekproevenverdeling”. Kies bij "Populatie" voor "proporties" en stel "Proportie Groen" in op 0,66 . Zet bij "Steekproef" de "Omvang" op 50. Start nu de simulatie.

b

Wat staat er op de horizontale as? En op de verticale as?

c

Tussen welke waarden liggen alle steekproefproporties?

d

Hoeveel procent van de steekproefproporties ligt tussen de 0,61 en 0,71 ?

e

Voer de simulatie nog enkele malen uit waarbij je steeds de populatieproportie verandert.

f

Voer de simulatie nog enkele malen uit waarbij je steeds de steekproefomvang verandert.

g

Wat kun je zeggen over de vorm van de histogrammen van de steekproevenverdelingen?

In de vorige opgave was de populatieproportie bekend ( 0,66 ). Als we één steekproef trekken uit deze bekende populatie, kunnen we niet voorspellen wat de uitkomst van deze steekproef (de steekproefproportie) is. Maar door een groot aantal keer een steekproef te simuleren en het histogram van de steekproefproporties te tekenen, wordt de variatie in steekproefproporties zichtbaar; je krijgt een steekproevenverdeling van een proportie. Als de steekproefomvang voldoende groot is, dan is het histogram (een representatie van de verdeling) van de steekproefproporties bij benadering klokvormig.

6

In het bestand WeerData vind je gegevens over het weer vanaf 1894. De variabele “d+30” geeft per jaar het aantal tropische dagen: dagen waarop de temperatuur boven de 30 ° C kwam.
Het gemiddeld aantal tropische dagen per jaar kun je schatten door een steekproef uit de populatie (alle gegeven jaren) te nemen en het steekproefgemiddelde te bepalen. Hoewel je de uitkomst van de steekproef niet precies kunt voorspellen, kun je – als je dezelfde steekproef vele keren herhaalt – toch iets zeggen over de betrouwbaarheid van het steekproefgemiddelde.

a

Neem 100  keer een steekproef met een steekproefomvang van 2 , bereken van elke steekproef het gemiddeld aantal tropische dagen per jaar en verwerk de resultaten in een histogram. Tussen welke waarden liggen alle steekproefgemiddeldes?

(hint)

Met VUStat kun je snel en eenvoudig steekproeven uit een databestand nemen. Selecteer daarvoor in het menu “Steekproeven” de optie “Veel steekproeven uit bestand”.
(Deze optie is (nog) niet beschikbaar in de online app-versie.)

b

Doe hetzelfde voor steekproefgroottes van 4 , 8 , 12 en 16 .

c

Vergelijk de histogrammen met elkaar. Wat valt je op?

d

Hoeveel tropische dagen per jaar verwacht je gemiddeld op basis van de steekproevenverdelingen?

In het onderstaande histogram is de verdeling van het aantal tropische dagen per jaar sinds 1894 weergegeven. Je ziet dat het histogram verre van klokvormig is; het is niet symmetrisch en het heeft een staart naar rechts en een uitschieter.

Het gemiddeld aantal tropische dagen is 4,2 per jaar.
In de vorige opgave heb je dit gemiddelde geschat door steekproeven van verschillende groottes te nemen. We concluderen het volgende:

  • hoewel de vorm van het histogram van hele populatie (alle gegeven jaren) verre van symmetrisch is, is het histogram van de steekproefgemiddelden - als de steekproefomvang voldoende groot is - klokvormig met het populatiegemiddelde ( 4,2  dagen) als symmetrieas;

  • hoe groter de steekproefomvang, des te smaller het histogram van de steekproefgemiddelden.

7

Kies nu een andere variabele uit het databestand WeerData. Onderzoek of ook voor deze variabele geldt dat
(a) bij een grote steekproefomvang het histogram van het steekproefgemiddelde bij benadering klokvormig is (ongeacht de verdeling van de populatie) en
(b) hoe groter de steekproef, des te kleiner de spreiding.

Als de steekproefomvang voldoende groot is, dan is de steekproevenverdeling (van het gemiddelde of de proportie) bij benadering normaal verdeeld. Bij toename van de steekproefomvang, neemt de spreiding van de steekproevenverdeling af: de ‘klok’ wordt steeds smaller.

Opmerking:

Let op het verschil tussen een steekproefverdeling en een steekproevenverdeling.
Een steekproefverdeling (de verdeling van de waarnemingen in één steekproef) hoeft niet klokvormig te zijn.

Een voorbeeld
We gooien 100  keer met een dobbelsteen en noteren voor elke worp het aantal ogen. De steekproefverdeling van het aantal ogen is niet normaal verdeeld, maar uniform (zie figuur 1).

We herhalen dit experiment ( 100  keer gooien met een dobbelsteen) nu 1000  keer. Voor elk experiment berekenen we het gemiddeld aantal ogen (of de proportie zessen) en deze steekproefgemiddelden (of - proporties) zetten we in een histogram. De steekproevenverdeling van het gemiddeld aantal ogen (of de proportie zessen) is wel normaal verdeeld (zie figuren 2 en 3).

Het volgende voorbeeld is afkomstig van de statisticus Erik van Zwet, werkzaam bij de afdeling Medische Statistiek van het Leids Universitair Centrum.

In een stad zijn twee ziekenhuizen, een grote en een kleine. In het grote ziekenhuis worden gemiddeld 45  kinderen per dag geboren, in het kleine gemiddeld 15 . Jongens en meisjes komen ongeveer even vaak voor.

Stel nu dat we over een periode van een jaar in beide ziekenhuizen de dagen tellen waarop meer dan 60 % van de nieuwe baby’s meisjes zijn.

In welk ziekenhuis denk je dat er meer van zulke ‘ongelijke’ dagen zijn?

  • In het grote ziekenhuis.

  • In het kleine ziekenhuis.

  • Dat maakt niet (veel) uit.

De meeste mensen denken dat het niet veel uitmaakt. Maar het maakt wel veel uit. De kans op een ongelijke jongen-meisje verdeling is veel groter in het kleine ziekenhuis. Dat komt omdat 1 of 2 extra meisjes een grotere impact hebben in het kleine ziekenhuis.

Dit is een ‘les van de statistiek’: hoe kleiner de aantallen (de steekproef), hoe groter de toevalsvariatie.