5.3  Frequentieverdeling typeren >

Kijkend naar een representatie valt meestal al snel op hoe de verdeling van frequenties over de verschillende waarden eruit ziet. Zitten de meeste scores juist bij de kleinste waarden of bij de grootste? Of zitten de meeste op een kluitje in het midden? Of nog weer anders?

In deze paragraaf leer je frequentieverdelingen typeren met behulp van kengetallen. Dat doe je al vaak onbewust, bijvoorbeeld:

  • klas A heeft gemiddeld een 5,8 , terwijl klas B gemiddeld een 7 heeft;

  • het gemiddelde inkomen in land A is veel lager dan het gemiddelde inkomen in land B;

  • speler A is veel constanter in zijn spel dan speler B.

Bij het typeren van een frequentieverdeling spelen ten minste twee aspecten een belangrijk rol: de ligging (het centrum) en de spreiding.

Herhaling centrum- en spreidingsmaten
1

Hieronder staan de dotplots bij de lengtes van de meisjes en van de jongens uit havo 4.

a

Waar zou je, op het eerste gezicht, bij beide groepen het midden van de frequentieverdeling plaatsen? Licht je antwoord toe.

b

Bereken voor zowel de meisjes als de jongens de gemiddelde lengte in centimeters nauwkeurig.

De mediaan is de lengte die op de helft van de verdeling zit, dus waar 50 % van de lengtes onder zit (en dus ook 50 % van de lengtes boven zit).

c

Bepaal de mediaan van de lengtes van de meisjes. Doe dat ook voor de jongens.

Laat bij de dotplot van de meisjes de twee grootste scores weg.

d

Maakt dat veel verschil voor de mediaan? En voor het gemiddelde?

De lengte met de grootste frequentie heet de modale lengte.

e

Bepaal de modale lengte van zowel de meisjes als de jongens.

Bij de meisjes wordt één waarneming van 165  cm verplaatst naar de waarde 168  cm.

f

Wat is nu de modale lengte?

2

In een dorp wonen 10  mensen. Daarvan verdienen 9  inwoners maandelijks 1200  euro en één rijke inwoner verdient 20.000  euro per maand.

a

Teken de dotplot van de inkomens.

b

Schat het gemiddelde op basis van de dotplot.

c

Bereken het gemiddelde en geef die met een verticale lijn in je dotplot aan. Komt het gemiddelde overeen met jouw schatting?

d

Waarom wordt wel gezegd dat het gemiddelde het evenwichtspunt van een verdeling is?

e

Bepaal het modale inkomen.

f

Hoe groot is de mediaan van de inkomens?

g

Vallen de mediaan, het modale inkomen en het gemiddelde enigszins samen?

De rijke inwoner verhuist naar de stad.

h

Ga na wat dat betekent voor het gemiddelde, de mediaan en het modale inkomen.

Het gemiddelde, de mediaan en de modus zijn kengetallen voor het midden van een groep getallen. Ze geven aan waar het centrum van een 'berg' cijfers ongeveer ligt. Ze worden daarom centrummaten genoemd.

  • Bij de mediaan is dat letterlijk zo. De mediaan is de waarde die de op volgorde gezette scores van een variabele in twee helften verdeelt: 50% van de scores heeft een waarde die kleiner is dan de mediaan en 50% een waarde die groter is dan de mediaan. Bij een oneven aantal scores is de mediaan de middelste score, bij een even aantal scores het gemiddelde van de middelste twee scores.

  • De modus is de meest voorkomende waarneming.

  • Het gemiddelde is de som van de scores gedeeld door hun aantal. Het gemiddelde is het evenwichtspunt van een verdeling.

3

Een bedrijf heeft 25  werknemers met een volledige werkweek in vaste dienst. De netto weeklonen van deze werknemers zijn verwerkt in een frequentietabel. De weeklonen zijn verdeeld in klassen met een breedte van 50 . De ruwe data zijn niet bekend.

a

Waarom kun je met deze gegevens het gemiddelde weekloon niet meer precies uitrekenen maar alleen nog schatten?

b

Bepaal de klassenmiddens en bereken hiermee dit geschatte gemiddelde.

c

Kun je met de frequentietabel de mediaan vaststellen?

4

Bekijk opnieuw de dotplots bij de lengtes van de jongens en meisjes (van opgave 17). Het verschil tussen de grootste en de kleinste lengte heet de spreidingsbreedte.

a

Bereken zowel voor de lengte van de jongens als de meisjes de spreidingsbreedte.

De beide spreidingsbreedten verschillen nauwelijks.

b

Vind je dat de spreiding van de lengten van de jongens en de meisjes vrijwel even groot is?

Je kunt een dataset in vieren verdelen met in elk deel 25 % van de scores. De waarden die geordende scores in vier opeenvolgende kwarten verdelen, noemen we de kwartielen: het eerste kwartiel (Q1), de mediaan (het tweede kwartiel) en het derde kwartiel (Q3).

Een boxplot maakt de opdeling van een geordende dataset in kwarten zichtbaar. Het gebied tussen Q1 en Q3 noemen we de box. In de box zit de helft ( 50 % ) van de scores. De afstand tussen Q1 en Q3 noem we de kwartielafstand.

In de bovenstaande boxplot bij de lengte van de 154  leerlingen uit havo 4 lees je af dat:

  • de minimale lengte 156  cm is;

  • de maximale lengte 200  cm is;

  • de mediaan 173  cm is;

  • het eerste kwartiel (Q1) 167  cm is;

  • het derde kwartiel (Q3) 180  cm is.

Uit de boxplot lezen we eenvoudig af dat Wouter - met zijn lengte van 184  cm - tot de 25 % langste leerlingen uit de dataset behoort.

5
a

Bepaal met behulp van de bovenstaande boxplot:

  • hoe lang de 25 % kleinste leerlingen zijn;

  • hoe lang de grootste leerling is;

  • de spreidingsbreedte;

  • de kwartielafstand.

b

Welk van deze gegevens kun je direct aflezen uit een dotplot?

6
a

Bepaal met behulp van de dotplot uit opgave 17 welke lengtes de 25 % kleinste jongens hebben.

b

Laat met een berekening zien dat de 25 % langste meisjes inderdaad de lengten 173 tot en met 197  cm hebben.

c

Bepaal met behulp van de dotplots voor zowel de jongens als de meisjes de vijf waarden min, Q1, mediaan, Q3 en max en teken de bijbehorende boxplots.

d

Hoeveel procent van de vrouwen is langer dan 165  cm?

e

Waaraan kun je zien dat meer dan 75 % van de vrouwen kleiner is dan de langste van de 25 % kleinste mannen?

f

Kun je aan de boxplot zien hoe de data binnen de box verspreid zijn?

g

Verschillen de kwartielafstanden van de jongens en de meisjes erg van elkaar?

Naast kengetallen voor het centrum zijn er ook kengetallen voor de spreiding van een ‘berg’ cijfer: de spreidingsmaten.

  • De meest eenvoudige spreidingsmaat is de spreidingsbreedte: het verschil tussen de grootste waarneming en de kleinste waarneming.

  • Een andere maat voor de spreiding is de kwartielafstand:
    derde kwartiel (Q3) − eerste kwartiel (Q1).

Opmerking:

In hoodstuk 3 heb je ook de standaardafwijking leren kennen. Dit is de meest gebruikte spreidingsmaat. In het volgende hoofdstuk statistiek komt de standaardafwijking weer aan bod.

7

Bekijk opnieuw de dataset Gegevens154Leerlingen.

a

Maak een relatieve somfrequentiepolygoon bij de lengte.

b

Print de relatieve somfrequentiepolygoon en schat met behulp van deze grafiek de mediaan en de kwartielen (Q1 en Q3).

c

Teken onder het relatieve somfrequentiepolygoon met de hand de boxplot.

d

Vergelijk je antwoord met de boxplot na opgave 20.

e

Is er informatie die je wel uit een (relatieve) somfrequentiepolygoon kunt halen maar niet uit een boxplot, of andersom?

8

In een bedrijf met 120  medewerkers is het modale salaris ongeveer 1600, per maand. Het gemiddelde salaris is 1800, per maand. Het hoogste salaris is dat van de algemeen directeur. De boxplot vat de verdeling van de salarissen samen.

Bereken in de volgende gevallen telkens weer het modale salaris en het gemiddelde salaris en teken de nieuwe boxplot.

a

Alle medewerkers krijgen een loonsverhoging van 3 % .

b

Alle medewerkers krijgen een maandelijkse toeslag van 200, .

c

Het salaris van de algemeen directeur wordt met 800, per maand verhoogd.

9

In boxplots is weergegeven het aantal geboorten in ziekenhuizen per dag voor de verschillende dagen van de week.

a

Op welke dag van de week is de spreidingsbreedte van het aantal geboortes in ziekenhuizen het grootst? Waarom kun je de dagen niet goed vergelijken met behulp van de spreidingsbreedten?

b

Op welke dag van de week is de kwartielafstand van het aantal geboortes in ziekenhuizen het grootst?

c

Hoeveel procent van de zondagen zijn er minder dan 400  geboortes in ziekenhuizen?

Vergelijk de maandag en de vrijdag. Van beide dagen zijn er 52 per jaar.

d

Op welk van deze dagen zijn er in één jaar de meeste bevallingen? Licht je antwoord toe.

(hint)

Bereken voor de maandag het hoogst mogelijk aantal geboorten en voor de vrijdag het laagst mogelijk aantal geboorten.

e

Leg uit waarom het mogelijk is dat het modale aantal bevallingen per dag voor elk van deze dagen hetzelfde is.

f

Is het mogelijk dat het gemiddelde aantal bevallingen per dag voor elke dag van de week gelijk is? Licht je antwoord toe.

(hint)

Vergelijk de vrijdag en de zondag met elkaar (waarom?). Bereken voor de zondag het hoogst mogelijk aantal geboorten en voor de vrijdag het laagst mogelijk aantal geboorten.

De vorm van frequentieverdelingen
10

Hieronder staan histogrammen van de lengteverdeling van topsporters. Eén ervan gaat over basketballers, één over hardlopers en één over gewichtheffers.

a

Bij welke van deze histogrammen is duidelijk sprake van een scheve verdeling?

b

Welke van deze histogrammen is het meest symmetrisch?

Het derde histogram is gelijkmatig (ook wel uniform genoemd): de frequenties zijn vrijwel gelijk. Het histogram hoort bij de hardlopers.

c

Wat zegt dit over de lengte van hardlopers?

Een van de histogrammen is duidelijk tweetoppig.

d

Welke?

e

Leg uit bij welke sport dit histogram hoort?

Bij een statistische variabele als de lengte van topsporters is de frequentieverdeling afhankelijk van de sport, zo zijn bijvoorbeeld basketballers en volleyballers vaak lang en jockeys veelal klein. De vorm van de frequentieverdeling vertelt je iets over de sport.

Bij de vorm van een frequentieverdeling let je op:

  • de symmetrie;

  • de scheefheid;

  • het aantal toppen;

  • een staart waarin een verdeling uitloopt;

  • de uitschieters;

  • de gelijkmatigheid (vrijwel gelijke frequenties).

11

Hieronder zie je dotplots behorend bij een vijftal datasets.

Beschrijf van elke dataset de vorm van de verdeling. Ga daarbij elk van de genoemde vormkenmerken na.

IQ
gemiddelde temperatuur
dagen met hagel
eruptieduur
dagen met strenge vorst
12

We bekijken van vier grote databestanden de vorm van de (gladgestreken) frequentiepolygonen.

  • 1. De lengte (in cm) van mannelijke twintigers in Nederland.

  • 2. Het aantal vakantiedagen van ambtenaren (waaronder leraren).

  • 3. Het aantal zonuren per dag in een julimaand.

  • 4. De snelheid van personenauto's op een dag bij een bepaalde plek op het baanvak Arnhem-Zwolle (men mag daar 120  km/u rijden).

Bij alle vier zijn er drie plaatjes (A, B, C) getekend.

a

Zoek bij elk van de bestanden welk van de drie plaatjes (A, B of C) het best past.

b

Zet (globaal) passende schaalverdelingen op de horizontale assen.

Kengetallen en vorm
13

Bekijk opnieuw de histogrammen bij de lengteverdeling van topsporters in opgave 26.

a

Bepaal voor de drie histogrammen het gemiddelde, de mediaan en de modus. Geef voor ieder van de frequentieverdelingen aan welke centrummaat de verdeling het beste typeert en leg uit waarom.

b

Bepaal voor de drie histogrammen de spreidingsbreedte en de kwartielafstand. Geef voor ieder van de frequentieverdelingen aan welke spreidingsmaat de verdeling het beste typeert en leg uit waarom.

Verwijder in het tweede histogram (dat scheef maar ook tweetoppig is) de tweede, lagere top door de frequentie te wijzigen van 11 in 3 . De scheve verdeling heeft nu een staart die langzaam afloopt.

c

Bepaal opnieuw het gemiddelde, de mediaan en de modus en vergelijk ze met de tweetoppige situatie. Verandert je idee over de beste centrummaat voor deze scheve frequentieverdeling?

Verander nogmaals dezelfde staaf in het tweede histogram: verander de frequentie nu in 30 .

d

Bepaal wederom het gemiddelde, de mediaan en de modus en vergelijk ze met de vorige twee situaties. Verandert je idee over de beste centrummaat voor deze scheve frequentieverdeling?

14

Hieronder staat nogmaals de dotplot bij de lengte van de jongens uit havo 4. De jongen van 2  meter is een stuk groter dan zijn leeftijdsgenoten. Maar is hij uitzonderlijk lang?

Onder een uitschieter versta je een waarde die meer dan 1,5  keer de kwartielafstand onder het eerste kwartiel of boven het derde kwartiel zit.

a

Laat zien dat een lengte van 2  meter een uitschieter is.

b

Zijn er nog meer uitschieters?

Hieronder staan de drie centrum- en twee spreidingsmaten die horen bij de dotplot.
Centrummaten:
mediaan = 180 , gemiddelde = 180,4 en modus = 180 .
Spreidingsmaten:
spreidingsbreedte = 39 en kwartielafstand = 9 .

Je gaat onderzoeken in hoeverre uitschieters deze kengetallen beïnvloeden.

c

Laat de uitschieters weg en maak een nieuw overzicht van de drie centrummaten en de twee spreidingsmaten.

d

Welke spreidingsmaat wordt door deze uitschieters sterk beïnvloed en welke niet?

Geen van de drie centrummaten is door de uitschieters beïnvloed.

e

Had je dat verwacht?

f

Vind je het verantwoord om uitschieters weg te laten bij het samenvatten van een frequentieverdeling?
Geef argumenten voor en tegen.

Het nut van een centrum- of spreidingsmaat is afhankelijk van de vorm van een frequentieverdeling. Als de scores redelijk bij elkaar liggen, wordt vaak voor het gemiddelde als centrummaat gekozen. Maar het gemiddelde en ook de spreidingsbreedte zijn gevoelig voor uitschieters en (lange) staarten. In zulke gevallen kun je beter de mediaan en kwartielafstand kiezen om je frequentieverdeling mee te typeren. De modus - een centrummaat die eenvoudig te berekenen is - geeft over het algemeen een goed beeld van het centrum bij symmetrische en meertoppige verdelingen. Echter, als bij een meertoppige verdeling de hoogste top - de modus dus - in de staart zit, dan is de modus weer geen zinvolle centrummaat om de frequentieverdeling mee te typeren.

In onderstaand overzicht vind je de voor- en nadelen van de in dit hoofdstuk behandelde centrum- en spreidingsmaten.

centrummaten

voordelen

nadelen

modus

  • eenvoudig te berekenen

  • geeft vaak bij symmetrische en meertoppige verdelingen een goede karakterisering

  • klassenindeling is van invloed

  • erg onstabiel

  • niet altijd aanwezig

mediaan

  • vrij eenvoudig te berekenen

  • weinig gevoelig voor extreme scores

  • slechts gebaseerd op volgorde, niet op de grootte van de onderlinge verschillen

gemiddelde

  • meest gebruikte centrummaat

  • alle scores worden gebruikt

  • minder eenvoudig te berekenen

  • vrij gevoelig voor extreme scores

spreidingsmaten

voordelen

nadelen

spreidingsbreedte

  • zeer eenvoudig te berekenen

  • slechts twee waarnemingen worden gebruikt

  • erg gevoelig voor uitschieters

  • neemt in het algemeen toe bij een groter aantal scores

kwartielafstand

  • vrij eenvoudig te berekenen

  • weinig gevoelig voor extreme scores

  • slechts gebaseerd op volgorde, niet op de grootte van de onderlinge verschillen

15

Hiernaast staat het staafdiagram bij de profielkeuzes van de groep van 154  leerlingen in havo 4.

a

Waarom kun je nu geen spreidingsmaten vaststellen?

b

Je kunt wel vaststellen welk profiel het meest wordt gekozen door jongens en meisjes. Waarom kun je dat toch geen centrummaat noemen?

c

Vergelijk nu de profielkeuzes van de meisjes en de jongens. Wat valt je op?

Ad beweert: “Het staafdiagram bij de profielkeuzes van de jongens is veel schever dan dat van de meisjes.”

d

Waarom kun je in dit geval zo’n uitspraak niet doen?

16

Hieronder zie je een boxplot en een drietal dotplots die erg van vorm verschillen.

a

Verplaats in elke dotplot één waarneming zó, dat de boxplot de verdeling goed weergeeft.

b

Verzin zelf een dotplot die past bij de boxplot.

17

Hieronder staan drie afbeeldingen die afkomstig zijn van het CBS. Het zijn histogrammen die de inkomensverdeling in Nederland in 2007 in kaart brengen.

a

Beschrijf de vormen van al deze verdelingen.

b

Bepaal voor elke verdeling de spreidingsbreedte.

18

Op het werkblad staan acht frequentiepolygonen (A t/m H) en acht boxplots (1 t/m 8): voor elk van de frequentiepolygonen is er een bijbehorende boxplot.

a

Knip de frequentiepolygonen en boxplots uit en leg de bij elkaar horende figuren in duo’s bij elkaar.

b

Check: zijn dit dezelfde duo’s als je buurman/buurvrouw heeft samengesteld?

c

Leg aan je buurman/buurvrouw uit waarom je vindt dat de frequentiepolygoon en de boxplot in elk duo bij elkaar horen en maak samen een definitieve indeling.