4.2  Frequentieverdelingen >
1

In de eredivisie voetbal worden per seizoen 306 wedstrijden gespeeld. De tabel is van het seizoen 2006/2007.

Hieronder staat het bijbehorende histogram.

a

In hoeveel procent van de wedstrijden werd niet gescoord?

Deze verdeling is niet symmetrisch, maar “scheef”.

b

Wat betekent dat, denk je?

c

Bereken het gemiddelde van het aantal doelpunten per wedstrijd in het seizoen 2006/2007.

Het gemiddelde is de "evenwichtswaarde". Daarbij hoort het volgende idee. Denk je het histogram in alsof het is uitgezaagd uit een houten plaat; plaats onder het histogram een wig op de plaats van het gemiddelde; dan balanceert het histogram netjes op deze wig.

d

Welk van de drie posities van de wig hierboven is de juiste? Denk aan het evenwicht.

De verdeling kan van jaar tot jaar verschillen. Zouden de verschillen groot zijn?
In het seizoen 1996/1997 was de verdeling als volgt:

We gaan de verdelingen in de twee jaren vergelijken.

e

Teken op het werkblad in dezelfde figuur als de verdeling van 2006/2007 het histogram van de verdeling in het seizoen 1996/1997.

Voor het grootste deel vallen de histogrammen over elkaar heen.

f

Hoeveel procent zit niet in de overlap?

g

Vind je dat de verdelingen in de twee seizoenen veel verschillen?

2

Elk uur wordt in De Bilt de temperatuur gemeten. De resultaten van 8  uur ’s ochtends in de jaren 1981 t/m 2000 geven de volgende verdeling.

a

Reken na dat er in die periode 7305  metingen zijn gedaan.

b

Hoe groot is de gemiddelde temperatuur ongeveer?

Er is iets verrassends (iets onlogisch) aan de verdeling.

c

Wat?

d

Hoe groot schat jij het percentage van de dagen dat de temperatuur om 8  uur ’s ochtends 20 ° C of hoger is.

3

De meisjes en de jongens van het Amalia College zijn als volgt verdeeld over de vier profielen: 11 leerlingen in CM, 42 in EM, 60 in NG en 41 in NT.

a

Maak een staafdiagram van de verdeling van alle leerlingen van het Amalia College over de vier profielen.

Landelijk waren in 2007 de keuzes op het vwo als volgt over de profielen verdeeld.
14 % CM, 31 % EM, 36 % NG en 19 % NT.

b

Teken ook een staafdiagram bij deze landelijke verdeling.

4

De meest extreme verdelingen zijn die waarbij 100 % van de leerlingen voor één profiel kiest (en de andere profielen dus geen klanten hebben). De meest vlakke verdeling is die waarbij alle vier de profielen evenveel leerlingen hebben. Stel dat op een school het profiel EM twee keer zo veel leerlingen heeft als CM en dat het profiel NG ook twee keer zo groot is als NT. Stel dat de M-profielen (CM en EM) anderhalf keer zoveel leerlingen hebben als de N-profielen.

Hoe is dan de frequentieverdeling?

Algemeen
In een groep letten we op een zekere eigenschap (variabele). Die eigenschap kan bijvoorbeeld vier waarden hebben. De groep is verdeeld over de vier waarden: elke waarde komt een zeker aantal keren voor. We spreken dan van een frequentieverdeling.
Als de verdeling in procenten van de totale groep is, spreken we van een relatieve frequentieverdeling.
De som van de relatieve frequenties is 100 %.

5

Als je in een Engelse tekst van elk woord telt hoe vaak het voorkomt, dan blijkt het volgende. Het woordje "the" komt het vaakste voor, het woordje "of" komt op de tweede plaats, enzovoort.
Hieronder staat de top tien:

Dit is zo voor elke (niet te korte) Engelse tekst. Georg Kingley Zipf, docent Duits aan de Harvard University heeft dit verschijnsel ontdekt en verder onderzocht. Dat was het begin van de kwantitatieve linguïstiek.
Maar er is meer aan de hand. Zipf constateerde ook dat "the" ongeveer 2  keer zo vaak voorkwam als “of” en 3  keer zo vaak als “and”, 4  keer zo vaak als “to”, enzovoort.
Dat is als volgt kort samen te vatten: in een natuurlijke taal is de frequentie waarmee een woord voorkomt ongeveer omgekeerd evenredig met de rang van het woord in de frequentietabel.

Deze wet geldt zowel voor mensen met een grote woordenschat als voor mensen met een kleinere woordenschat.
Het woordje "the" kwam in een zekere tekst 1200  keer voor.

Teken een staafdiagram bij deze frequentieverdeling voor de tien meest voorkomende woordjes.

6

Alle kinderen die op de echopoli van kindercardiologie komen, krijgen een compleet echo-onderzoek waarbij diverse dimensies en bloedstroomsnelheden van het hart worden gemeten.
Als blijkt dat het kind geen grote afwijkingen heeft aan het hart, worden deze kinderen "normaal" genoemd. Van deze normaal gescoorde kinderen wordt ook de lengte en het gewicht gemeten.
De gegevens zijn afkomstig van het Radboud Ziekenhuis te Nijmegen.
De gewichten zijn ingedeeld in klassen. Hieronder staat een histogram van de frequentieverdeling.

a

Kun je uit bovenstaand histogram aflezen om hoeveel kinderen het ongeveer gaat?
Kies uit 220 , 1120 , 2440 , 4440 .

Het frequentiehistogram is verre van symmetrisch.

b

Hoe komt dat?

Het frequentiehistogram is niet zo regelmatig; het is nogal "springerig".

c

Wat gebeurt er met die springerigheid als je de klassenbreedte twee keer zo groot neemt?

In de volgende "applet" kun je met de klassenbreedte experimenteren.

Van histogram naar polygoon
7

Hoe oud is een vrouw als ze haar eerste kind krijgt?
De gegevens voor Vlaanderen (2006) staan in de tabel hieronder.

Het betreft in totaal 29.486  vrouwen.

a

Hoeveel procent van de vrouwen is jonger dan 25  jaar als ze hun eerste kind krijgen?

Als je wilt weten hoeveel procent van de vrouwen 20 , 21 of 22  jaar oud is als ze hun eerste kind krijgen, heb je te maken met 3 van de 5 levensjaren in de klasse “ 20 24 ”. Een redelijke schatting van dat aantal vrouwen is 3 5 van 5965 = 3579 .
Dat klopt waarschijnlijk niet precies, maar het is het beste wat je op grond van de gegeven tabel kunt doen (zonder nadere informatie).

b

Bepaal op grond van de tabel hoeveel procent ouder dan 26 maar jonger dan 31  jaar is.

Bij de vorige opgave kun je een procentueel histogram maken. Zie figuur 1.

figuur 1
figuur 2

In het histogram zijn de middens van de bovenkanten van de opvolgende balken verbonden. Zodoende ontstaat er een zogenaamde frequentiepolygoon.
Om de polygoon links en rechts op 0 % te laten beginnen, is er aan weerszijden een lege klasse toegevoegd. Zie figuur 1.

In een histogram geeft de hoogte van een staaf het aantal of het percentage in de bijbehorende klasse.
In plaats van op de hoogte kun je ook op de oppervlakte letten.
De totale oppervlakte van de balken is 100 %.

Voorbeeld:

Zie figuur 2 bij opgave 8.
De oppervlakte van het histogram links van 27  jaar, inclusief 27  jaar zelf, geeft het percentage van de vrouwen van 27  jaar of jonger.
In dit geval kun je uit het histogram aflezen dat dit (ongeveer) 4 % + 20 % + 3 5 45 % = 51 % is.

8

Het besteedbaar inkomen in Nederland is verdeeld in klassen van breedte 2000  euro. Er zijn 5000 gezinnen met een inkomen tussen 6000 en 4000  euro.
Er zijn ook gezinnen met een besteedbaar inkomen boven de 100.000  euro, maar die zijn niet meer in de verdeling opgenomen.
De gegevens zijn afkomstig van het CBS (2008).

a

Hoeveel procent van de gezinnen had een besteedbaar inkomen van minder dan 20.000  euro?

Merk op dat het totale percentage (van alle balken tezamen) 100 % is.

Door de middens van de bovenkanten van de balken te verbinden, ontstaat de frequentiepolygoon.

b

Hoe kun je hieruit – in principe – aflezen hoeveel procent van de gezinnen een besteedbaar inkomen onder de 20.000  euro heeft?

Opmerking:

Het plaatje in opgave 3 is ook een frequentiepolygoon. Gevraagd werd het percentage te schatten van de dagen dat de temperatuur ’s ochtends om 8  uur 20 °C of hoger is.
Daarvoor moest je schatten welk deel van de oppervlakte rechts van 20 °C ligt.

9

Hoeveel uur slaapt een mens? Tijdens een onderzoek is met een EEG (elektro-encefalogram) de slaapduur vastgesteld bij 147  volwassenen ( 16 - 71  jaar) gedurende 399  nachten.
De gegevens zijn van werkdagen (op vrije dagen slaapt men gemiddeld 1,5  uur langer). Bron: Waken en Slapen, Paul A. M. van Dongen, isbn 90-74078-02-8.

Bekijk de onderstaande frequentiepolygoon.

a

Wat betekent de hoogste stip precies?

b

Bepaal op grond van de polygoon zo goed mogelijk hoeveel procent van de mensen meer dan 7  uur en minder dan 9  uur slaapt als hij/zij de volgende dag moet werken.

10

Hieronder zie je de relatieve (procentuele) verdelingen van de slaapduur van ouderen ( 70 79  jaar) en jongeren ( 20 29  jaar) (gebaseerd op onderzoek uit 1969).
Het betreft de subjectieve slaapduur (zoals de mensen die zelf ervaren).

a

Noem twee verschillen tussen deze verdelingen.

De mediaan (middelste) van de slaapduren is díe waarde waarboven en waaronder 50 % zit van alle slaapduren.

b

Bepaal zo goed mogelijk de mediaan van de slaapduur bij de jongeren en bij de ouderen.

De modale slaapduur is de slaapduur die het meest voorkomt.

c

Hoeveel procent ongeveer van de jongeren slaapt bovenmodaal? En hoeveel procent van de ouderen?

De twee krommen snijden elkaar bij 5,5 .
Anne zegt dat er evenveel ouderen als jongeren zijn die gemiddeld 5,5  uur slapen.

d

Is dat juist?

11

Spaanse exportsinaasappelen zijn gewogen. Hieronder staat de frequentiepolygoon van de gewichten.

a

Hoeveel procent weegt minder dan 160  gram? Schrijf ook op hoe je te werk bent gegaan.

b

Hoeveel wegen de zwaarste 10 procent (ongeveer)?

c

Hoe groot is de mediaan?

12

We bekijken het aantal uren dat een baan per dag telt in Luilekkerland. Dat varieert tussen 0 en 5  uur per dag.
Hieronder zie je hoe de banen over de verschillende groottes verdeeld zijn.

a

Hoeveel procent van de banen wordt gerepresenteerd door één hokje?

b

Hoeveel procent van de banen heeft een omvang tussen 1 en 2  uur per dag?

c

Ga door een berekening na of een baan van 1,5  uur groter of kleiner dan de mediaan is.

13

Bekijk de bevolkingspiramide van Nederland op 1 januari 2007.
Een bevolkingspiramide is een grafische weergave van een frequentieverdeling, apart voor mannen en vrouwen.

a

Op welk kenmerk zijn de mannen en de vrouwen verdeeld?

b

Verklaar de "uitschieters" van 60 -jarigen.

c

Schat de mediaan van de leeftijden van de Nederlanders.

d

Schat hoeveel procent ouder dan 80  jaar was (op 1 januari 2007).

Van een zekere leeftijd is 2 van de 3  Nederlanders vrouw.

e

Welke leeftijd is dat (ongeveer)?

Opmerking:

Langs de verticale as van de verdelingen in opgaven 10, 11, 13 en 14 staat niets. Dat kan ook niet. Je gebruikt de oppervlakte onder de grafiek, waarbij de totale oppervlakte op 100 % is gesteld.
Bij opgave 13 vertegenwoordigt één hokje 5 %, bij opgave 14 is één hokje 2 %.

14

Hieronder staat de grafiek van de verdeling van de bevolking van Luilekkerland over de verschillende lengtes.
Op de horizontale as staat de lengte in cm.

a

Noem enkele kenmerken van de verdeling van de lengtes die je uit de grafiek kunt aflezen.

b

Wat is de gemiddelde lengte? En wat is de mediaan van de lengte?

c

Hoe kun je bepalen hoeveel procent van de bevolking een lengte heeft tussen 70 en 90 cm? Hoe groot is dat percentage?