Bij de keuring voor de militaire dienst werd elk jaar van duizenden jongens van of jaar de lengte gemeten. In de tabel hieronder staan lengtemetingen, het resultaat van een week bij één van de keuringsinstanties. De lengtes zijn afgerond op hele centimeters.
Hoeveel jongens waren kleiner dan cm (en werden daarom op hun lengte afgekeurd)? Hoeveel jongens waren cm of groter maar kleiner dan cm? Gebruik bij het beantwoorden van deze vragen de getallen in de kolom “cumulatief”.
Het gemiddelde van deze lengtes is, ook afgerond, cm.
Bereken de mediaan van deze lengtes.
Hoeveel jongens waren er met een lengte die meer dan cm afwijkt van het gemiddelde? Hoeveel procent is dat?
Hieronder zie je het frequentiehistogram van de lengtes van de jongens. De vloeiende, ‘klokvormige’ kromme die door het histogram getrokken is, is een normale kromme.
De uitschieters van het histogram zijn te wijten aan toeval. De lengtes vormen een toevallige steekproef uit de totale populatie van alle dienstplichtigen. Toevallig kwam de lengte wat vaker voor. De invloed van toevalsstoringen wordt minder bij een grotere steekproef, het histogram van de lichaamslengten zal beter aansluiten bij de ‘klokvormige’ kromme. We komen hier later in dit hoofdstuk op terug.
Minder last hebben we ook van de uitschieters als we de klassenbreedte vergroten, bijvoorbeeld naar cm, en de grenzen zó kiezen dat het gemiddelde midden in een klasse valt. In dit geval worden de klassenmiddens dan , , , enzovoorts en de klassengrenzen ; ; .
Neem de tabel over en vul de kolom ‘aantal’ in.
Teken op het werkblad het histogram dat hoort bij deze nieuwe klassenindeling.
Merk op dat dit histogram al heel mooi past bij de normale kromme. Deze ‘klokvormige’ kromme geeft een wiskundig model van de verdeling van de - en -jarige Nederlandse jongens naar lichaamslengte. Dit model noemen we de normale verdeling.
De naam ‘normale verdeling’ is enigszins misleidend, omdat zij suggereert dat elke verdeling die hiervan afwijkt abnormaal zou zijn, hetgeen zeker niet het geval is. Zo is de inkomensverdeling van de Amerikaanse artsen in de jaren veertig (zie opgave 7) ‘scheef naar rechts’ en dus een voorbeeld van een ‘niet-normale verdeling’.
In het geval van de lichaamslengte van de dienstplichtige jongens werd de normale kromme gevonden door het ‘glad strijken’ van de frequentiepolygoon. De oppervlakte van het gebied onder de kromme tussen en geeft de frequentie van het aantal -jarige jongens met lengte tussen cm en cm.
In opgave 26 heb je berekend dat van de dienstplichtige jongens een lengte heeft tussen cm en cm. Dat is ongeveer .
Hoe kun je zien dat die aardig klopt met de laatste grafiek?
Welk frequentiepercentage komt overeen met de oppervlakte van het gehele gebied onder de kromme?
Een normale kromme is symmetrisch en op zo’n kromme liggen twee buigpunten, dat zijn de punten waarin de grafiek van hol overgaat in bol (de punten waar de kromme het steilst is).
Geef in de grafiek van opgave 27 de symmetrieas en de buigpunten van de normale kromme aan.
De gemiddelde lengte van de dienstplichtigen is cm en de standaardafwijking is cm.
Ga na wat de symmetrieas en de buigpunten te maken hebben met het gemiddelde en de standaardafwijking.
Het nut van de standaardafwijking als spreidingsmaat berust op de vuistregel dat hoogstens
van de waarnemingen een afwijking van het gemiddelde heeft die groter is dan maal de standaardafwijking. Dit blijkt bij veel getalverzamelingen te kloppen.
We zullen deze vuistregel even controleren bij de verzameling van de lengtes. Het gemiddelde () van deze metingen is cm en de standaardafwijking (SD) is cm.
Hoeveel metingen zijn groter dan ? Hoeveel procent is dat?
Hoeveel metingen zijn kleiner dan ? Hoeveel procent is dat?
Hoeveel procent van de afwijkingen is dus groter dan ? Is dit in overeenstemming met de vuistregel?
Hoeveel metingen wijken meer dan van het gemiddelde af? Hoeveel procent is dat?
Er blijkt een zekere samenhang tussen de grootte van een afwijking, uitgedrukt in
aantal keren de standaardafwijking, en het percentage metingen dat een grotere of
kleinere afwijking heeft.
Bij klokvormige verdelingen gelden de volgende vuistregels.
Ongeveer van de waarnemingen heeft een afwijking van het gemiddelde die groter is dan maal de standaardafwijking.
Ongeveer van de waarnemingen heeft een afwijking van het gemiddelde die kleiner is dan maal de standaardafwijking.
Deze vuistregels gelden alleen bij grote databestanden die bovendien ongeveer normaal verdeeld zijn. Bij scheve verdelingen kunnen de percentages heel anders liggen!
Hieronder zie je een tabel van de lengtes van de jongens, ingedeeld in klassen met breedte cm.
Neem de tabel over en vul de kolom ‘cumulatief’ in.
Hoeveel jongens waren kleiner dan cm? Hoeveel procent is dat?
Hoeveel jongens waren, naar je mag aannemen, kleiner dan cm? Hoeveel procent is dat? (Gebruik alleen gegevens uit de tabel!)
Teken op je werkblad het bij de tabel horende cumulatieve frequentiehistogram. De eerste vijf staven zijn al getekend.
In de hoofdstukken Statistiek 1 en Statistiek 2 hebben we gezien hoe we van een frequentiehistogram een frequentiepolygoon maken: voeg links en rechts een lege klassen toe, zet in het midden van de bovenkant van elke balk een stip en verbind opvolgende stippen met een lijnstuk.
Op vergelijkbare manier (maar met één belangrijk verschil) wordt een cumulatieve frequentiepolygoon getekend: voeg links een lege klasse toe, zet in de rechterbovenhoek van elke balk een stip en verbind opvolgende stippen met een lijnstuk.
Teken in het histogram van vraag d de bijbehorende cumulatieve frequentiepolygoon.
Kun je verklaren waarom de stip nu niet in het midden maar in het rechter eindpunt van de bovenkant van een staaf geplaatst moet worden?
Lees (alleen) met behulp van de cumulatieve frequentiepolygoon af hoeveel jongens kleiner zijn dan cm en hoeveel kleiner zijn dan cm.
Vergelijk je antwoorden met die op vraag b en c. Zijn beide antwoorden gelijk?
Als langs de verticale as de absolute aantallen vervangen worden door percentages ( is ) dan wordt de polygoon wel de relatieve cumulatieve frequentiepolygoon genoemd.
Schrijf naast de verticale as op je werkblad ook de percentages.
Laat zien hoe je de relatieve cumulatieve frequentiepolygoon kunt gebruiken om een benadering van de mediaan van de lengtes van de jongens te vinden. Hoe groot is die benadering? Hoe groot is de afwijking van de precieze waarde die je vond in opgave 26?
Omdat de lengteverdeling normaal verdeeld is, kunnen we de relatieve cumulatieve frequentiepolygoon ook gebruiken om een benadering van het gemiddelde en de standaardafwijking te vinden.
Hoe groot is het gemiddelde?
Laat zien hoe je met de grafiek de standaardafwijking kunt bepalen. Hoe groot is die benadering?
Gebruik de vuistregels om de standaardafwijking te vinden. We weten dat van de waarnemingen niet meer dan keer de SD afwijkt van het gemiddelde.
Hoeveel verschilt deze benadering van de precieze waarde ( cm)?
In veel voorbeelden in de natuur en bij het menselijk handelen komt de klokvorm voor (vaak bij benadering). Dat deze verdeling vaak voorkomt, is ontdekt in de negentiende eeuw. De belangrijkste onderzoeker was de Belg Adolphe Quetelet. In 1835 publiceerde hij een boek met statistisch materiaal over allerlei grootheden betreffende een mens (bijvoorbeeld de lengte van -jarige jongens). Hij merkte op dat de grootheden klokvormig verdeeld waren rond een gemiddelde. Een individuele afwijking van dat gemiddelde kwam door toevallige oorzaken. Hij voerde het idee van de “volmaakte” mens in: dat is de mens die alle grootheden gemiddeld heeft. Heel iets anders dan wat als ideaal gezien wordt!