Zakken met kg aardappelen bevatten natuurlijk zelden precies gram.
Een leverancier beweert dat in zijn zakken van kg gemiddeld gram aardappelen zit met een standaardafwijking van gram.
Dolf koopt twee zakken aardappelen (dit is dus een aselecte steekproef van 2 zakken). Beide zakken wegen minder dan kg.
Heeft Dolf voldoende reden om te twijfelen aan de bewering van de fabrikant?
De medewerkers van de kwaliteitsafdeling willen controleren of het gemiddelde gewicht daadwerkelijk gram is. In verschillende winkels kopen ze in totaal zakken met aardappelen (dit is een aselecte steekproef). Het gemiddelde gewicht van deze zakken (het steekproefgemiddelde) is gram.
Vind je dat er voldoende reden is om te twijfelen aan de bewering van de fabrikant dat er gemiddeld gram in de zakken aardappelen zit?
We gaan ervan uit dat de bewering van de fabrikant klopt, dus in de zakken van kg zit gemiddeld gram aardappelen met een standaardafwijking van gram.
Stel: in plaats van een enkele steekproef van zakken, trekken we steekproeven met elk een steekproefgrootte van zakken. Van elke steekproef berekenen we het steekproefgemiddelde. In het histogram
vind je de steekproevenverdeling van deze gemiddelden.
Wat staat er op de horizontale as? En op de verticale as?
Hoeveel procent van de steekproeven heeft een gemiddelde tussen en ?
In de vorige opgave vonden de kwaliteitsmedewerkers in hun onderzoek (een enkele steekproef van omvang ) een steekproefgemiddelde van gram.
Vind je dat er voldoende reden is om te twijfelen aan de bewering van de fabrikant dat er gemiddeld gram in de zakken aardappelen zit? Vergelijk je argumenten met je antwoord op opgave 69b.
In de praktijk schat je het populatiegemiddelde met de resultaten van een aselecte steekproef. Je bent namelijk vrijwel nooit in staat om de gehele populatie te onderzoeken. Het steekproefgemiddelde is veelal een goede schatting van het populatiegemiddelde.
Bij steekproeven treedt door de rol van het toeval altijd variatie op. Hoewel de uitkomst van een steekproef niet te voorspellen is, kun je toch iets zeggen over de waarschijnlijkheid van een steekproefgemiddelde. Dit kun je doen door steekproeven te simuleren en te kijken naar de verdeling van de steekproefgemiddelden.
Met de online Steekproevenverdeling
van VUstat.eu kun je eenvoudig zelf de bovenstaande simulaties uitvoeren.
Kies voor 'Normaal', stel in
en ; stel de steekproefomvang in op
.
Op het werkblad staan de afmetingen van rechthoeken. Dit moet je zien als de populatie. Er zijn grote en minder grote rechthoeken. Je wilt weten welk deel van deze rechthoeken een oppervlakte heeft van hoogstens , dus een oppervlakte heeft van of minder. Dit deel noemen we de populatieproportie. Je kunt de oppervlakte van alle rechthoeken berekenen en zo de populatieproportie bepalen. Maar dat kost tijd. In plaats daarvan nemen we een aselecte steekproef.
Neem een steekproef van rechthoeken en bepaal de steekproefproportie: het deel van de rechthoeken uit de steekproef dat een oppervlakte van hoogstens heeft.
Hoe heb je bepaald welke rechthoeken in je steekproef komen?
Hoe hebben jouw klasgenoten bepaald welke rechthoeken in de steekproef komen? Zijn er verschillen? Welke manier(en) vind je het best?
Verzamel de resultaten van jouw klasgenoten en maak daarvan een histogram.
Tussen welke waarden zitten de gevonden proporties?
Geef een schatting van het percentage rechthoeken met een oppervlakte van hoogstens .
Gooi 1 keer met een munt () en bepaal het percentage kop dat je gooit.
Gooi 5 keer met een munt () en bepaal het percentage kop dat je gooit.
Gooi 25 keer met een munt () en bepaal het percentage kop dat je gooit.
Verzamel de resultaten van jouw klasgenoten, verwerk deze in VU-Statistiek en maak histogrammen bij , en .
Bekijk de drie histogrammen. Wat gebeurt er met ...
... het centrum als (de steekproefomvang) toeneemt?
... de standaarddeviatie als toeneemt?
... de vorm als toeneemt?
Beschrijf in je eigen woorden waarom een toename van het aantal worpen leidt tot deze resultaten.
Het deel van een populatie met een zekere eigenschap noem je de populatieproportie. Het deel binnen de steekproef met deze eigenschap heet de steekproefproportie. De steekproefproportie is veelal een goede schatter van de populatieproportie. Deze schatting is betrouwbaarder naarmate de steekproef groter is.
John Kerrich bracht zijn tijd van gevangenschap in de Tweede Wereldoorlog door met het uitvoeren van een experiment: hij toste tienduizend keer met één geldstuk en noteerde regelmatig het aantal keren kop. Het resultaat is in de onderstaande tabel en figuur weergegeven.
De grafiek illustreert prachtig dat de schatting betrouwbaarder wordt bij toename van het aantal worpen.
Je bent groenteboer en gaat naar de importeur om fruit te kopen voor in je winkel.
Om te bepalen welk deel van een partij sinaasappels rijp is, neem je een steekproef.
Je kunt immers niet alle sinaasappels proeven.
Stel dat van een partij sinaasappels rijp is; de populatieproportie is dus . Als je een aselecte steekproef van trekt, dan krijg je vast niet precies rijpe sinaasappels in de steekproef. Er zal variatie optreden.
We trekken meerdere malen - namelijk keer - een steekproef van sinaasappels. Met de computer kunnen we willekeurige trekkingen nabootsen. Simuleer met de online-app Steekproevenverdeling keer een steekproef van sinaasappels en teken het histogram van de steekproefproporties.
Met VUStat kun je snel en eenvoudig aselecte steekproeven simuleren. Selecteer daarvoor in het menu “Steekproeven” de optie “Steekproevenverdeling”. Kies bij "Populatie" voor "proporties" en stel "Proportie Groen" in op . Zet bij "Steekproef" de "Omvang" op 50. Start nu de simulatie.
Wat staat er op de horizontale as? En op de verticale as?
Tussen welke waarden liggen alle steekproefproporties?
Hoeveel procent van de steekproefproporties ligt tussen de en ?
Voer de simulatie nog enkele malen uit waarbij je steeds de populatieproportie verandert.
Voer de simulatie nog enkele malen uit waarbij je steeds de steekproefomvang verandert.
Wat kun je zeggen over de vorm van de histogrammen van de steekproevenverdelingen?
In de vorige opgave was de populatieproportie bekend (). Als we één steekproef trekken uit deze bekende populatie, kunnen we niet voorspellen wat de uitkomst van deze steekproef (de steekproefproportie) is. Maar door een groot aantal keer een steekproef te simuleren en het histogram van de steekproefproporties te tekenen, wordt de variatie in steekproefproporties zichtbaar; je krijgt een steekproevenverdeling van een proportie. Als de steekproefomvang voldoende groot is, dan is het histogram (een representatie van de verdeling) van de steekproefproporties bij benadering klokvormig.
In het bestand
WeerData
vind je gegevens over het weer vanaf 1894. De variabele “d+30” geeft per jaar het
aantal tropische dagen: dagen waarop de temperatuur boven de kwam.
Het gemiddeld aantal tropische dagen per jaar kun je schatten door een steekproef
uit de populatie (alle gegeven jaren) te nemen en het steekproefgemiddelde te bepalen.
Hoewel je de uitkomst van de steekproef niet precies kunt voorspellen, kun je – als
je dezelfde steekproef vele keren herhaalt – toch iets zeggen over de betrouwbaarheid
van het steekproefgemiddelde.
Neem keer een steekproef met een steekproefomvang van , bereken van elke steekproef het gemiddeld aantal tropische dagen per jaar en verwerk de resultaten in een histogram. Tussen welke waarden liggen alle steekproefgemiddeldes?
Met VUStat kun je snel en eenvoudig steekproeven uit een databestand nemen. Selecteer
daarvoor in het menu “Steekproeven” de optie “Veel steekproeven uit bestand”.
(Deze optie is (nog) niet beschikbaar in de online app-versie.)
Doe hetzelfde voor steekproefgroottes van , , en .
Vergelijk de histogrammen met elkaar. Wat valt je op?
Hoeveel tropische dagen per jaar verwacht je gemiddeld op basis van de steekproevenverdelingen?
In het onderstaande histogram is de verdeling van het aantal tropische dagen per jaar sinds 1894 weergegeven. Je ziet dat het histogram verre van klokvormig is; het is niet symmetrisch en het heeft een staart naar rechts en een uitschieter.
Het gemiddeld aantal tropische dagen is per jaar.
In de vorige opgave heb je dit gemiddelde geschat door steekproeven van verschillende
groottes te nemen. We concluderen het volgende:
hoewel de vorm van het histogram van hele populatie (alle gegeven jaren) verre van symmetrisch is, is het histogram van de steekproefgemiddelden - als de steekproefomvang voldoende groot is - klokvormig met het populatiegemiddelde ( dagen) als symmetrieas;
hoe groter de steekproefomvang, des te smaller het histogram van de steekproefgemiddelden.
Kies nu een andere variabele uit het databestand
WeerData.
Onderzoek of ook voor deze variabele geldt dat
(a) bij een grote steekproefomvang het histogram van het steekproefgemiddelde bij
benadering klokvormig is (ongeacht de verdeling van de populatie) en
(b) hoe groter de steekproef, des te kleiner de spreiding.
Als de steekproefomvang voldoende groot is, dan is de steekproevenverdeling (van het gemiddelde of de proportie) bij benadering normaal verdeeld. Bij toename van de steekproefomvang, neemt de spreiding van de steekproevenverdeling af: de ‘klok’ wordt steeds smaller.
Let op het verschil tussen een steekproefverdeling en een steekproevenverdeling.
Een steekproefverdeling (de verdeling van de waarnemingen in één steekproef) hoeft
niet klokvormig te zijn.
Een voorbeeld
We gooien keer met een dobbelsteen en noteren voor elke worp het aantal ogen. De steekproefverdeling
van het aantal ogen is niet normaal verdeeld, maar uniform (zie figuur 1).
We herhalen dit experiment ( keer gooien met een dobbelsteen) nu keer. Voor elk experiment berekenen we het gemiddeld aantal ogen (of de proportie zessen) en deze steekproefgemiddelden (of - proporties) zetten we in een histogram. De steekproevenverdeling van het gemiddeld aantal ogen (of de proportie zessen) is wel normaal verdeeld (zie figuren 2 en 3).
Het volgende voorbeeld is afkomstig van de statisticus Erik van Zwet, werkzaam bij de afdeling Medische Statistiek van het Leids Universitair Centrum.
In een stad zijn twee ziekenhuizen, een grote en een kleine. In het grote ziekenhuis worden gemiddeld kinderen per dag geboren, in het kleine gemiddeld . Jongens en meisjes komen ongeveer even vaak voor.
Stel nu dat we over een periode van een jaar in beide ziekenhuizen de dagen tellen waarop meer dan van de nieuwe baby’s meisjes zijn.
In welk ziekenhuis denk je dat er meer van zulke ‘ongelijke’ dagen zijn?
In het grote ziekenhuis.
In het kleine ziekenhuis.
Dat maakt niet (veel) uit.
De meeste mensen denken dat het niet veel uitmaakt. Maar het maakt wel veel uit. De kans op een ongelijke jongen-meisje verdeling is veel groter in het kleine ziekenhuis. Dat komt omdat of extra meisjes een grotere impact hebben in het kleine ziekenhuis.
Dit is een ‘les van de statistiek’: hoe kleiner de aantallen (de steekproef), hoe groter de toevalsvariatie.