1.5  Gemiddelde en standaarddeviatie >

Naast het maximale cumulatieve percentageverschil max. Vcp en de odds-ratio zijn er nog andere methodes om naar verschillen te kijken. In deze paragraaf leer je zo'n methode aan de hand van het verschil tussen de A/C- en de B-groep in de variabele huiswerk: dat is de tijd die de leerlingen wekelijks besteden aan het maken van huiswerk.

1

Je ziet hier het eerste stukje van de datamatrix van het Amalia College.

Kijk naar de drie leerlingen met wiskunde B.

a

Bereken voor deze drie het gemiddeld aantal uren dat ze wekelijks aan huiswerk besteden.

b

Doe dat ook voor de vier leerlingen met wiskunde A/C.

Hieronder zijn de scores 7 , 10 en 16 van de drie B-leerlingen op een getallenlijn door balletjes weergegeven en de plaats van het gemiddelde met een wigje. De drie scores wijken respectievelijk 4 , 1 en + 5 af van het gemiddelde. Dat is in het plaatje met pijlen aangegeven. De afwijkingen noemt men deviaties; daarvoor gebruikt men de letter d (van deviatie = afwijking). De drie d -waarden zijn hier respectievelijk 4 , 1 en + 5 .

Met Σ d wordt de som (optelling) van de drie deviaties bedoeld.

2
a

Hoe groot is Σ d van de drie deviaties hierboven?

Het gemiddelde wordt wel de evenwichtswaarde van de drie scores genoemd.

b

Waarom is dat een toepasselijke naam?

3

Hieronder zie je een stuk getallenlijn.

a

Neem de figuur over en geef met balletjes de plaatsen aan van de vier scores voor huiswerk uit de A/C-groep.

b

Geef vervolgens de plaats van hun gemiddelde aan met een wigje.

c

Geef de vier deviaties aan met pijlen en zet de d-waarde erbij.

d

Hoe groot is Σ d ?

Met de getallenlijn als een wip (balans) kun je het gemiddelde beschouwen als het evenwichtspunt. De scores zijn even zware poppetjes op de wip. De deviaties links wegen op tegen de deviaties rechts: de som van de deviaties is 0.

Het gemiddelde is, net als de mediaan, een centrummaat; dat is een maat voor het centrum van de verdeling van de scores.

Het gemiddelde wordt aangegeven met een liggend streepje boven de gebruikte letter. Als je de letter h gebruikt voor het aantal huiswerkuren, is h ¯ hun gemiddelde.

Het gemiddelde bereken je door alle scores bij elkaar op te tellen en te delen door het totale aantal scores, in formule: h ¯ = Σ s n .
Soms komt een score vaker dan één keer voor. De score 5 kan bijvoorbeeld 10 keer voorkomen. De score 5 heeft dan dus frequentie 10 en telt 10 keer mee in de berekening van het gemiddelde. In de som van de scores krijg je dus … + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + … . In plaats daarvan schrijf je liever 10 × 5, dus de frequentie maal de score.

Als s alle verschillende scores zijn met bijbehorende frequentie f , dan kun je het gemiddelde berekenen met de formule: h ¯ = Σ f s n , waarbij n de som van alle frequenties is, dus het totale aantal scores, in formule: Σ f = n .

Dit is vooral handig als veel scores met hoge frequenties voorkomen.

4

In de volgende frequentietabel staan de gegevens over de wiskundecijfers in klas 3 van het Amalia College.

a

Vul op het werkblad de lege kolommen in en bereken daarmee voor de beide groepen het gemiddelde van cijfwis.

b

Vind jij dat de gemiddeldes bij de B- en de A/C-groep veel verschillen?

Naast een centrummaat is ook de spreiding van belang. In de figuur hieronder zie je drie frequentieverdelingen met hetzelfde gemiddelde en verschillende spreidingen.

Het betreft bijvoorbeeld drie even grote bevolkingsgroepen met hetzelfde gemiddelde jaarinkomen, maar met sterk verschillende verdelingen. In die drie groepen zijn de spreidingen van de jaarinkomens zeer verschillend.

5
a

Hoe zie je in de figuur dat de bevolkingsgroepen even groot zijn?

b

Hoe zie je in de figuur dat het gemiddelde inkomen in de drie groepen hetzelfde is?

c

Hoe zie je in de figuur dat de spreiding van de inkomens in de drie groepen verschillend is?

We willen de grootte van de spreiding in een getal uitdrukken. Dat wil zeggen dat we een spreidingsmaat willen hebben. Daarvoor zijn er verschillende mogelijkheden. In paragraaf 3 werd de spreiding vastgelegd door de kwartielafstand en gevisualiseerd in een boxplot.

Je kunt de spreiding ook goed uitdrukken met behulp van de deviaties (van het gemiddelde). Als er veel kleine deviaties zijn en weinig grote, is de spreiding gering. Maar de spreiding is groot als er grote positieve en negatieve deviaties voorkomen.

Een goede spreidingsmaat is de gemiddelde absolute deviatie of kortweg gad. Bij het aantal uren huiswerk van het het B-groepje (zie opgave 43) zijn de deviaties 4 , 1 en + 5 ; dus zijn de absolute deviaties 4 , 1 en 5 , en is de spreidingsmaat gad gelijk aan 4 + 1 + 5 3 = 3,3 .

6
a

Bereken de gad van de huiswerkuren voor het A/C-groepje (zie opgave 43).

b

Welke van de twee groepen heeft de grootste spreiding met de gad als maatstaf?

7

Waarom kun je niet de gemiddelde deviatie als spreidingsmaat kiezen (dus zonder de absolute waarde te nemen)?

Een andere maat voor spreiding, de variantie, gebruikt de kwadraten van de deviaties. Door de kwadraten te nemen, heb je ook alleen met positieve getallen of nul te maken. Dit lijkt nodeloos ingewikkeld, maar het blijkt dat allerlei formules veel beter uitkomen als je met de kwadraten van de deviaties werkt in plaats van met de absolute waarden.

De variantie (afgekort: var) is het gemiddelde van de d 2 -waarden in de laatste kolom, dus 1 + 16 + 25 3 = 42 3 = 14 .

Voor n scores luidt de formule voor de variantie: var = Σ d 2 n .

8
a

Bereken de variantie van de huiswerkuren in het A/C-groepje (zie opgave 43).

b

Welke van de twee groepen heeft de grootste spreiding met de variantie als maatstaf?

9

Druk de huiswerktijd in kwartieren uit in plaats van uren.

a

Hoe groot worden dan de drie deviaties in het B-groepje?

b

Bereken de variantie van de scores in kwartieren.

c

Hoeveel keer zo groot is deze variantie (vergeleken met de variantie van de scores in uren)?

Als je het huiswerk in uren rekent, is het gemiddelde ook in uren. De variantie is echter het gemiddelde van een kwadraat en daarmee zou die uur 2 als eenheid krijgen. Maar het ligt voor de hand om de spreiding van de huiswerkuren ook in uren te berekenen. Dat kan door de wortel van de variantie te nemen. Dat blijkt voor het latere formulewerk ook handig te zijn. De wortel uit de variantie is de standaarddeviatie of standaardafwijking, aangeduid met sd of met de enkele Griekse letter σ .

Voor het groepje met wiskunde B is de standaardafwijking van de huiswerktijd in uren 14 3,74 uur.

σ = Σ d 2 n

10

Bereken de sd van de huiswerktijd in uren van de vier A/C-leerlingen.

In de praktijk bereken je de standaardafwijking (evenals het gemiddelde) met de Grafische Rekenmachine of met een computerprogramma. Het (laten) berekenen van gemiddelde en standaardafwijking is dus niet echt een probleem. Belangrijker is dat je een juiste voorstelling hebt van het begrip spreiding. Bekijk daarom eens het histogram van de huiswerkinspanningen van de hele A/C-groep.

Het gemiddelde 8,74 is met een pijltje aangegeven en de standaarddeviatie 5,099 is met pijlen langs de urenschaal afgepast, vanaf het gemiddelde. Eén pijl is één standaardafwijking naar links of naar rechts, twee pijlen zijn twee standaardafwijkingen naar links of naar rechts. In dit geval reiken de pijlen tot
8,74 − 2×5,099 = -1,458 , tot 8,74 − 5,099 = 3,641 , tot 8,74 + 5,099 = 13,839 en tot
8,74 + 2×5,099 ≈ 18,938.

    Voor veel verdelingen gelden de volgende vuistregels:

  • Tussen het gemiddelde-min-sd en het gemiddelde-plus-sd ligt ongeveer 68% van de gehele verdeling.

  • Tussen het gemiddelde-min-2-keer-sd en het gemiddelde-plus-2-keer-sd ligt ongeveer 95% van de gehele verdeling.

Hoe nauwkeurig die 68% en die 95% kloppen hangt erg af van de verdeling zelf. Komen in het midden (dicht bij het gemiddelde) veel scores voor en neemt hun aantal af naar de uiteinden, dan kloppen deze percentages heel aardig.

11

We controleren de eerste vuistregel voor de huiswerkuren van de A/C-groep. Daarvoor moeten we bepalen hoeveel A/C-leerlingen minstens 3,641 uur en hoogstens 13,839 uur aan huiswerk besteden. Dat zijn bijna alle leerlingen die 4 uur huiswerk maken, alle leerlingen die 5, 6, 7, 8, 9, 10, 11, 12 of 13 uur besteden en nog een deel van de leerlingen die 14 uur aan huiswerk besteden. Hoeveel precies is niet onmiddellijk duidelijk.
Voor de berekening gaan we als volgt te werk:
0,86 · 2 + 3 + 3 + 6 + 1 + 1 + 7 + 0 + 2 + 0,34 · 2 = 25,40.

a

Ga na wat het idee achter deze berekening is.

b

Klopt de eerste vuistregel ongeveer?

c

Bereken hoeveel procent van de aantallen uren huiswerk in de A/C-groep ligt tussen
gemiddelde 2 sd en gemiddelde + 2 sd .

d

Klopt de tweede vuistregel ongeveer?

12

Hier staat een ‘horizontaal’ histogram van het aantal uren huiswerk in de B-groep.

a

Bereken aan de hand daarvan het gemiddelde en de standaarddeviatie.

b

Bereken het percentage tussen
gemiddelde sd en gemiddelde + sd .
Bereken ook het percentage tussen
gemiddelde 2 sd en gemiddelde + 2 sd .

(hint)

Voer de aantallen uren en de frequenties in op de GR in twee lijsten. Laat de GR het gemiddelde en de sd berekenen.

Voorbeeld: het IQ

Oorspronkelijk definieerde Henry Goddard het intelligentiequotiënt als volgt: IQ = verstandelijke leeftijd werkelijke leeftijd × 100 . Voor kinderen was dit aanvankelijk een bruikbare definitie, maar voor volwassenen niet. David Wechsler ontwikkelde een IQ-meting door de prestatie van de proefpersoon te vergelijken met de scores van grote normgroepen, een principe dat sindsdien algemeen verspreid werd.

Intelligentietests worden zó ontworpen dat de verdeling van IQ-scores ongeveer 'normaal' is, met als gemiddelde 100 en als standaardafwijking 15. Normaal betekent ”klokvormig” zoals in de figuur van opgave 55: met de meeste waarnemingen in het midden van de verdeling, en naar links en rechts duidelijk afnemende aantallen. Het gemeten IQ wordt gezien als een schatting van het ware, maar onbekende, IQ. Herhaalde proeven bij een zelfde persoon wijzen uit dat diens testuitslag soms tot twintig punten kan verschillen met een eerdere test, door allerlei oorzaken zoals gezondheid, vermoeidheid, stress en gewenning aan materiaal en situatie.

De indeling van IQ-waarden is als volgt:

  • 146-160 Zeer hoogbegaafd

  • 131-145 Hoogbegaafd

  • 116-130 Bovengemiddeld begaafd

  • 101-115 Begaafd

  • 100 Gemiddeld

  • 85-99 Beneden gemiddeld

  • 70-84 Moeilijk lerend

  • 55-69 Lichte verstandelijke beperking

  • 40-54 Matige verstandelijke beperking

  • 25-39 Ernstige verstandelijke beperking

  • < 25 Zeer ernstige verstandelijke beperking

13

In de volgende figuur zie je een verdeling van de IQ-scores van volwassenen.
(De percentages in de figuur zijn afgeronde waarden.)

a

Wat is de mediaan?

b

Geef een schatting van het eerste en het derde kwartiel. (Dat hoeft niet zo precies.)

De standaardafwijking is 15.

c

Hoeveel procent ligt tussen
gemiddelde sd en gemiddelde + sd ,
hoeveel tussen gemiddelde 2 sd en gemiddelde + 2 sd
en hoeveel tussen gemiddelde 3 sd en gemiddelde + 3 sd ?