Statistiek begint met het stellen van een vraag, bijvoorbeeld naar de verschillen tussen twee groepen leerlingen. Om die vraag te kunnen beantwoorden worden gegevens verzameld, bijvoorbeeld door middel van een enquête. De verzamelde gegevens worden gerangschikt in een datamatrix. In de verticale kolommen van de matrix staan de scores van de gemeten variabelen, in de horizontale rijen staan de objecten van het onderzoek.
Vaak is de datamatrix zo uitgebreid, dat je daaruit niet rechtstreeks conclusies kunt
trekken. Daarom worden de data gerepresenteerd in getallen, kleinere tabellen of in
diagrammen.
In getallen: mediaan, kwartielen.
In kleinere tabellen: frequentietabel, kruistabel.
In diagrammen: cirkeldiagram, staafdiagram, histogram, frequentiepolygoon, boxplot.
De mediaan is de waarde die de op volgorde gezette scores van een variabele in twee helften verdeelt: van de scores heeft een waarde die kleiner is dan de mediaan en een waarde die groter is dan de mediaan. De kwartielen zijn de waarden die de geordende scores in vier opeenvolgende kwarten verdelen. Bij een oneven aantal is de mediaan de middelste waarneming, bij een even aantal het gemiddelde van de middelste twee waarnemingen.
In een frequentietabel staat hoe vaak de verschillende scores op een variabele voorkomen.
De relatieve frequentie van een score is het percentage van het totaal waarin de score
voorkomt.
In formule:
Een cumulatieve (relatieve) frequentie van een score is de (relatieve) frequentie
van die score plus die van alle lagere waarden (in procenten).
In een kruistabel worden twee variabelen tegen elkaar uitgezet. Er staan de frequenties
of de relatieve frequenties in waarin de combinaties van scores voorkomen.
Voorbeeld
In een staafdiagram worden de (relatieve) frequenties van de scores uitgezet als losse staven. Een histogram is een staafdiagram bij een continue variabele (de scores kunnen in principe alle getallen in een domein aannemen). De scores zijn ingedeeld in klassen. De staven staan aan elkaar vast.
Hieronder staat van elk een voorbeeld.
We vergelijken twee groepen wat een bepaalde variabele betreft. Het maximale cumulatieve percentageverschil max. Vcp tussen twee groepen bereken je als volgt:
Bepaal apart voor de groepen de cumulatieve frequenties;
Zet apart voor de groepen de cumulatieve frequenties om in cumulatieve percentages;
Bepaal per waarde van de variabele het (absolute) verschil Vcp van de cumulatieve percentages van de twee groepen.
max. Vcp is van al die verschillen het grootste.
Als waardering van max. Vcp is gangbaar:
als max. Vcp kleiner dan is, dan is het verschil gering,
als max. Vcp tussen en ligt, dan is het verschil middelmatig,
als max. Vcp groter dan is, dan is het verschil groot.
Een frequentiepolygoon is een lijndiagram bij een continue variabele die de (relatieve)
frequenties met elkaar verbindt. Bij een cumulatieve frequentiepolygoon zijn de (relatieve)
cumulatieve frequenties in een lijngrafiek gezet. Daaruit kun je bij een waarde aflezen
hoeveel procent van de data een kleinere of gelijke waarde heeft. Als je de uiterste
waarden, de mediaan en het eerste en derde kwartiel kent, kun je de boxplot maken.
Voorbeeld
We vergelijken twee groepen (bijvoorbeeld A/C en B) wat een bepaalde variabele betreft. De variabele heeft twee waarden (bijvoorbeeld jongen (j) en meisje (m)).
De odds van j tegen m in de B-groep is .
De odds van j tegen m in de A/C-groep is .
De odds-ratio van j tegen m in de twee groepen is .
Als dit quotiënt kleiner dan is, nemen we het omgekeerde.
Als waardering van de odds-ratio is gangbaar:
als de odds-ratio kleiner dan of gelijk aan is, dan is het verschil gering,
als de odds-ratio tussen en ligt, dan is het verschil middelmatig,
als de odds-ratio groter dan is, dan is het verschil groot.
Het gemiddelde van een verdeling is op te vatten als de ‘evenwichtswaarde’. Dat wil zeggen dat de som van alle afwijkingen ten opzichte van die waarde is.
In formule: , waarin de scores zijn en het totaal aantal scores is,
of: , waarin de verschillende scores zijn met bijbehorende frequenties en de som van de frequenties is.
De standaardafwijking of standaarddeviatie (notatie sd of σ) is een maat voor de spreiding van de scores rond het gemiddelde.
In formule: σ waarin de deviaties (= afwijkingen) van het gemiddelde zijn; .
Voor veel verdelingen gelden de volgende vuistregels:
tussen σ en σ ligt ongeveer % van alle scores,
tussen σ en σ ligt ongeveer % van alle scores.
We vergelijken twee even grote groepen wat een variabele betreft. Van de variabelen is de verdeling bij beide groepen bekend. is een maat voor het verschil tussen de groepen aan de hand van de overlap.
Δ wordt als volgt bepaald:
leg de verdelingen over elkaar,
bepaal de overlap,
bepaal hoeveel procent van een groep niet in de overlap zit,
dat percentage is Δ.
We vergelijken twee groepen wat een variabele betreft. Van de variabelen is de verdeling bij beide groepen bekend. De groepen hoeven niet even groot te zijn. De effectgrootte is een maat voor het verschil tussen de groepen aan de hand van de gemiddeldes en de standaarddeviaties van de verdelingen.
Als waardering van de effectgrootte D is vrij gangbaar:
als , dan is er sprake van een gering effect
als , dan is er sprake van een middelmatig effect
als , dan is er sprake van een groot effect
als , dan is er sprake van een erg groot effect