In praktijk zijn populatie-eigenschappen onbekend en schat je populatiegemiddelden of -proporties met de resultaten van een enkele steekproef. Je bent immers vrijwel nooit in staat om de volledige populatie te onderzoeken. In deze paragraaf trekken we echter aselecte steekproeven uit bekende populaties; het populatiegemiddelde of de populatiefractie is dus bekend. Ook als we steekproeven trekken uit bekende populaties, treedt door de rol van toeval variatie op in de steekproefuitkomsten. Hoewel de precieze uitkomst van een steekproef niet te voorspellen is, heb je in de vorige paragraaf gezien dat steekproevenverdelingen normaal verdeeld zijn als de steekproefomvang voldoende groot is. In deze paragraaf combineren we dit gegeven met onze kennis over de normale verdeling en leer je hoe je kunt komen tot uitspraken als “met een waarschijnlijkheid van … procent zal de steekproefproportie tussen … en … liggen”.
De gemeente wil in de wijk “Zuilen” een buurthuis bouwen. Raadslid Reuling beweert dat procent van de bewoners van de wijk tegen het plan is. De gemeenteraad besluit een enquête te houden onder inwoners van de wijk.
Hoe zou jij de inwoners selecteren?
Veronderstel dat raadslid Reuling gelijk heeft en dat inderdaad procent van de bewoners tegen het plan is, ofwel de populatieproportie is . Om een beeld te krijgen van de mogelijke uitkomsten van de enquête, simuleren we keer een steekproef van personen (natuurlijk wordt de eigenlijke enquête maar één keer gehouden). Het histogram hieronder geeft de resultaten van deze simulaties.
Tussen welke waarden ligt van de steekproefproporties?
Tussen welke twee waarden ligt de middelste van steekproefproporties?
Hoe groot schat je de standaardafwijking ongeveer?
Maak gebruik van de vuistregels van de normale verdeling.
Stel dat niet maar van de bewoners van de wijk “Zuilen” tegen de bouwplannen is; de populatieproportie (afgekort met ) is dus . We nemen een aselecte steekproef van bewoners () en vragen of ze voor of tegen het wetsvoorstel zijn. Uit deze enquête komt dat van de bewoners tegen de bouwplannen zijn. In deze opgave gaan we na of deze uitkomst uitzonderlijk is.
Simuleer (bijvoorbeeld met de online-app Steekproevenverdeling) minstens keer een steekproef van personen en teken het histogram van de steekproefproporties.
In VUStat ga naar Steekproeven steekproevenverdeling en kies dan bij “Populatie” voor “proporties”.
Tussen welke grenzen ligt de middelste van de steekproefproporties?
In VUStat kun je intervalschuiven gebruiken om het -gebied te bepalen.
Is de uitkomst van de enquête al dan niet uitzonderlijk? Licht je antwoord toe met behulp van de uitkomsten van je simulatie.
Via de theorie weten we dat het -gebied van steekproefproporties (het gebied waar de middelste van de steekproefproporties binnen valt) berekend kan worden met de formule:
waarbij de populatieproportie en de steekproefomvang is.
We kijken nogmaals naar de bewoners van de wijk “Zuilen”. In de vorige opgave heb je door middel van een simulatie een verdeling van de steekproefproporties getekend.
Voer de simulatie nog enkele malen uit waarbij je steeds de populatieproportie () en/of de steekproefomvang () varieert, zoals aangegeven in de onderstaande tabel. Noteer je resultaten in een tabel en controleer zo de formule uit de theorie.
Vergelijk je antwoorden met die van je klasgenoten en geef een verklaring voor verschillen en overeenkomsten.
Hoe zie je aan de histogrammen dat een grotere steekproef een smaller -gebied geeft voor de steekproefproportie?
Leg uit dat dit ook volgt uit de formule voor het -gebied van de steekproefproportie.
De gemiddelde lengte van vrouwen is bij benadering normaal verdeeld. In 1995 was de gemiddelde lengte van de vrouwen in Nederland centimeter () met een standaardafwijking van centimeter (). We trekken een steekproef van vrouwen uit deze bekende populatie en kijken naar het steekproefgemiddelde.
Simuleer (bijvoorbeeld met de online-app Steekproevenverdeling) minstens keer zo’n steekproef met een omvang van en bepaal tussen welke grenzen de middelste procent van de steekproefgemiddelden ligt.
In VUStat ga naar steekproeven steekproevenverdeling. Kies voor normale verdeling, en . Kies voor omvang van de steekproef en gebruik de intervalschuiven.
Voer de simulatie nog enkele malen uit. Noteer je resultaten in de eerste drie kolommen
van de tabel. In de vierde kolom kun je een formule uit de theorie gebruiken:
Omdat de steekproevenverdeling van een gemiddelde normaal verdeeld is (als de steekproefomvang
voldoende groot is), kun je het -gebied van de steekproefgemiddelden (het gebied waar de middelste van de steekproefgemiddelden binnen valt) berekenen met behulp van de volgende formule:
We kunnen ook kijken naar andere gebieden dan procent. We moeten dan de factor aanpassen. Als je de paragraaf ‘De standaard normale verdeling’ gemaakt hebt, dan kun je zelf de factoren vinden bij bijvoorbeeld het -gebied en het -gebied ( respectievelijk ).
In deze opgave testen we de bovenstaande formule voor het -gebied van steekproefgemiddelden.
Neem het bestand
WeerData;
hierin zie je gegevens over het weer vanaf 1894. We gaan kijken hoe het steekproefgemiddelde
varieert als we een groot aantal keren een steekproef met dezelfde steekproefomvang
nemen uit een populatie. We bekijken de variabele “zonuren”.
Neem keer een steekproef met een omvang van , bepaal van elke steekproef het gemiddeld aantal zonuren en verwerk deze steekproefgemiddelden in een histogram.
In VUStat kies onder “Steekproeven” voor “Veel steekproeven uit bestand”; kies “zonuren”
als steekproefvariabele en selecteer “gemiddelde” als uitvoer. Stel de steekproefomvang
in op en laat keer een dergelijke steekproef trekken.
(Deze optie is (nog) niet beschikbaar in de online app-versie.)
Bereken het gemiddelde en de standaardafwijking bij jouw histogram (dit zijn dus het gemiddelde en de standaardafwijking van jouw steekproevenverdeling).
Ga nu naar de populatiegegevens en laat het gemiddelde aantal zonuren over alle jaren berekenen en de bijbehorende standaardafwijking. Noteer ook deze resultaten.
Test nu de formule:
In de praktijk zal de populatie niet bekend zijn. Immers, daarvoor trekken we een steekproef. Op basis van zo’n steekproef willen we dan conclusies trekken over de (onbekende) populatie. In het volgende statistiekhoofdstuk leer je hier meer over.
Bij een eindexamen is de gemiddelde score van de kandidaten punten met een standaardafwijking van punten. Er wordt een steekproef van kandidaten uit deze groep getrokken en het gemiddelde van deze groep berekend.
Bepaal het -gebied van de gemiddelde score van de kandidaten.
Wat gebeurt er met het -gebied als de steekproefomvang wordt vergroot naar kandidaten?
Bij de presidentsverkiezingen is er keuze uit kandidaten A en B. In een krant staat:
‘Uit de laatste opiniepeiling onder 1200 mensen blijkt dat 54 procent van de stemgerechtigden voor kandidaat A zal stemmen. Dus kandidaat A zal
zeker winnen’.
De krant trekt deze conclusie omdat de steekproefproportie () groter is dan . Maar is dat niet wat voorbarig?
Stel dat een minderheid – dus hooguit procent – in de populatie kandidaat A kiest. We kunnen berekenen of het -gebied van de steekproefproporties de uitkomst bevat. Indien dit niet zo is, dan zeggen we dat met procent betrouwbaarheid kandidaat A zal winnen; is dit niet het geval dan zullen we
niet de conclusie trekken dat A gaat winnen.
Onderzoek of met een betrouwbaarheid van procent gezegd kan worden dat kandidaat A een meerderheid heeft.
Uit een enquête in opdracht van de Stichting tegen Kanker van maart 2007 onder Belgen blijkt procent voorstander te zijn van het rookvrij maken van cafés. In oktober 2006 was dat nog procent van alle Belgen.
Kun je zeggen dat het aantal voorstanders in de periode van oktober 2006 tot maart 2007 is toegenomen? Of is het percentage mogelijk gelijk gebleven (en bedraagt het nog steeds ) en passen deze resultaten bij de onnauwkeurigheid van steekproefresultaten?
Het Centraal Bureau Rijvaardigheidsbewijzen (CBR) stelt dat procent van de examenkandidaten in één keer slaagt voor het rijexamen.
Een autorijschool meldt dat hun percentage geslaagden hoger is. Als dit een betrouwbare
uitspraak wil zijn (met betrouwbaarheid van procent), dan moet het aantal geslaagden van deze autorijschool zo hoog zijn dat dit
aantal buiten het -gebied van het CBR ligt.
Bereken hoeveel van de mensen bij deze autorijschool moeten slagen, als het resultaat inderdaad beter moet zijn dan procent.