De boxplot is niet geschikt, daarin kun je de aantallen namelijk niet aflezen.
De interkwartielafstand is .
De grenzen van het interval zijn en .
Er zijn dus twee uitschieters. Bij de waarde zou het om een meetfout kunnen gaan, bijvoorbeeld omdat de apparatuur weigert.
De lage waarden worden hoger, daardoor wordt het totaal aantal bacteriën in de monsters groter, dus wordt het gemiddelde groter.
De afstanden tot het gemiddelde worden kleiner, daardoor wordt de standaardafwijking
kleiner.
De mediaan was (zie boxplot). De mediaan in de nieuwe situatie is ook weer , dus die verandert niet.
Het interval wordt smaller, omdat de standaardafwijking kleiner wordt. Het midden van het interval schuift naar links, omdat het gemiddelde kleiner wordt.
Profiel ; nominaal.
Aangezien het aantal leerlingen per profiel ongelijk is, kun je voor een goede vergelijking aantallen beter herleiden tot percentages. Omdat je per profiel wilt weten hoe de variabel huiswerk verdeeld is, stel je het aantal leerlingen voor elk profiel op . Je gaat dus verticaal percenteren.
Bepaal de cumulatieve percentages per profiel. Nu blijkt dat het verschil tussen de profielen CM, EM en NG gering is (), maar het verschil tussen het profiel NT en de profielen CM, EM en NG is middelmatig ().
De modus is mm, want die komt het meeste voor (namelijk keer).
De mediaan is het gemiddelde van het en het getal. Dat is mm.
In het steelbladdiagram zijn het en het getal omcirkeld.
In het steelbladdiagram zijn het eerste en het laatste getal omcirkeld.
In het steelbladdiagram zijn het en het getal omcirkeld ( kwartiel).
In het steelbladdiagram zijn het en het getal omcirkeld ( kwartiel).
Dit geeft de volgende boxplot.
-
Het gemiddelde is en de standaardafwijking is .
. Dus volgens de vuistregels van de normale verdeling haalde van de niet-werkers het tentamen.
Het gemiddelde moet kleiner zijn dus de grafiek ligt links van A, dus grafiek B hoort niet bij de niet-werkers. De standaardafwijking moet kleiner zijn dus de grafiek is smaller (en de top ligt hoger) dan A, dus grafiek C hoort niet bij de niet-werkers.
Het betrouwbaarheidsinterval is .
Het percentage ligt tussen en .
Er is een enquêteformulier gestuurd naar maatschappelijk actieve priesters, maar dat
is slechts een deelgroep van alle priesters. Je kunt je dus afvragen of zij representatief
zijn voor alle priesters. In ieder geval is het geen aselecte steekproef als je alleen
priesters uit deze deelgroep een enquêteformulier stuurt.
Er hebben slechts van de ruim personen gereageerd (en personen niet) dus de meesten hebben helemaal niet gereageerd. Dat is een behoorlijke
non-respons en dan weet je niet meer of degenen die wel gereageerd hebben een aselecte
steekproef zijn.
van personen zijn voor afschaffing.
van personen vinden dat het celibaat gehandhaafd moet blijven.
Het scheelt zo weinig dat je niet met zekerheid kunt zeggen dat er in de hele populatie
minder priesters zijn die vinden dat het celibaat gehandhaafd moet blijven dan priesters
die van het celibaat af willen.
De mensen in de klassen C, D en E wachten tussen de en de weken, dus
.
De klassenmiddens zijn en .
De bijbehorende relatieve frequenties zijn en .
De gemiddelde wachttijd is .
De gemiddelde wachttijd is ongeveer weken.
Een argument zou kunnen zijn dat bij neurochirurgie ruim van de patiënten binnen twee weken wordt geholpen, terwijl dit bij orthopedie minder dan is.
Het derde kwartiel zit bij en valt in klasse H.
komt overeen met weken wachten, met weken.
De wachttijd bij het derde kwartiel is weken.
Het percentage wachtenden per klasse neemt steeds af vanaf klasse A naar klasse F. Voor de eerste weken moet het cumulatieve frequentiepolygoon dus steeds wat minder hard stijgen (afnemend stijgend). Dus IV past het best.
De uiterste populatieproporties zijn .
Deze proporties met vermenigvuldigen geeft .
Er moet gelden: .
De bijbehorende vergelijking los je op m.b.v. je GR. Dit geeft .
Het antwoord: (minstens) (personen).
Alleenstaanden hebben een grotere kans om in de steekproef te zitten. Hierdoor is de steekproef niet aselect.
Als mensen zichzelf kunnen opgeven, ontstaat er geen representatieve groep (bepaalde groepen kunnen onder- of oververtegenwoordigd zijn).
Deze stap zorgt voor selectie uit zowel grote steden als kleine dorpen (draagt bij aan de representativiteit).
Bij elke cumulatieve frequentie ligt de polygoon van restaurant B rechts van die van restaurant A. Dit betekent dat de fooien in restaurant B hoger zijn dan in restaurant A.
In restaurant A ligt van de fooien tussen en dollar.
In restaurant B ligt van de fooien tussen en dollar.
Dus in restaurant B werden relatief meer fooien tussen de en dollar gegeven.
of
De polygoon van restaurant A is minder steil dan de polygoon van restaurant B tussen
en dollar. Dus in restaurant B werden relatief meer fooien tussen de en dollar gegeven.
Het derde kwartiel van de fooien in restaurant A is (ongeveer) . Het eerste kwartiel van de fooien in restaurant B is (ongeveer) .
is kleiner dan , dus ruim driekwart van de fooien in restaurant B is hoger dan de laagste fooien in restaurant A.
of
Het derde kwartiel van de fooien in restaurant A is (ongeveer) . Bij is in restaurant B het cumulatieve percentage (ongeveer) . , dus ruim driekwart van de fooien in restaurant B is hoger dan de laagste fooien in restaurant A.
Dit kan met behulp van het : het maximale verschil in cumulatieve percentages is . Dit is groter dan , dus het verschil is groot.
Het kan ook met behulp van boxplots. Maak op basis van de cumulatieve relatieve frequentiepolygonen
een schets van beide boxplots. Omdat de boxen elkaar niet overlappen, is het verschil
ook hier groot.
De scheiding tussen kort en lang ligt ongeveer bij . De totale frequentie van de korte tussentijden is ongeveer . Er zijn dus ongeveer lange tussentijden. De verhouding kort : lang is dan .
Het gaat om de twee laagste punten in figuur 1. De waarde van is bij beide punten gelijk. De tijdsduur is minuten.
De punten 1, 2 en 4 zijn te controleren met figuur 1.
De gemiddelde tijdsduur van een uitbarsting is ongeveer minuten (schatting op basis van figuur 1). De gemiddelde duur van een uitbarsting
samen met de tussentijd tot de eerstvolgende uitbarsting is ongeveer minuten.
Het gemiddeld aantal uitbarstingen per dag is dan .
Kies twee punten op de lijn, bijvoorbeeld en .
De richtingscoëfficiënt is .
Het getal (het snijpunt met de verticale as) is .
of
Kies twee punten op de lijn, bijvoorbeeld en .
Vul beide punten in de formule in: en .
Beide punten voldoen, dus de formule is juist.
invullen in de formule geeft . De toerist moet minuten later bij de Old Faithful zijn. Dat is om uur.
De verdeling van ELK ligt ten opzichte van AZM naar links. Het eerste kwartiel (of
de mediaan of het derde kwartiel) zal bij ELK lager zijn dan bij AZM. Serie I hoort
bij ELK.
of
Van serie I is het eerste kwartiel (of de mediaan of het derde kwartiel) lager dan
van serie II. Serie I hoort bij de verdeling die het meest naar links ligt. Serie
I hoort bij ELK.
Rechts van de mediaan liggen de gegevens verder uit elkaar dan links van de mediaan.
De mediaan is dus kleiner dan het gemiddelde.
of
Omdat de figuur rechtsscheef is, ligt het gemiddelde rechts van de mediaan. De mediaan
is dus kleiner dan het gemiddelde.
Het steekproefgemiddelde is . (Je kunt dit ook aflezen uit de tabel: .) Het woordje ‘geen’ wordt dus keer per woorden gebruikt.
Het -betrouwbaarheidsinterval van de populatieproportie is
.
Per woorden is het betrouwbaarheidsinterval (of ).
In algemene teksten zijn de frequenties van de woorden met rangnummer 1, 2 en 3 respectievelijk
, en . De cumulatieve frequenties zijn dan , en . Dit geeft de cumulatieve percentages , en . Vergelijken met de tabel geeft dat .
Het verschil is minder dan dus het verschil is gering.
De frequentie volgens Zipf is . De frequentie in de medische teksten is ongeveer .
Het procentuele verschil is ongeveer .
In serie A werd van de vluchten afgekeurd.
In het hele onderzoek werd van de vluchten afgekeurd.
Dus het percentage afgekeurde vluchten in serie A is ongeveer keer zo hoog als het percentage afgekeurde vluchten in het gehele onderzoek.
Hier moet de effectgrootte worden gebruikt.
Effectgrootte .
Dus het verschil is groot.
De mediaan is kleiner dan het gemiddelde. De verdeling moet dus scheef zijn met een staart naar rechts. Dus schets A past het best.
De boxen overlappen elkaar, maar de mediaan van de boxplot van serie A ligt buiten de box van serie B. Het verschil is dus middelmatig.
Uit de boxplot lezen we af dat de kortste vluchtduur ongeveer seconden is.
De gemiddelde snelheid is cm per seconde.
Voorbeelden van goede argumenten zijn:
Uit tabel 1: het aantal afgekeurde vluchten neemt af.
Uit tabel 2: het aantal keren dat de kortste route wordt gevonden, neemt toe.
Uit tabel 2: de gemiddelde afgelegde afstand per goedgekeurde vlucht neemt af.
Uit tabel 2 of uit de figuur: de mediaan van de afgelegde afstand per goedgekeurde vlucht neemt af.
De variabelen zijn geslacht en voorkeurshand. Het meetniveau van beide variabelen is nominaal want de waarden van beide variabelen kunnen niet worden geordend.
. Volgens de vuistregels op het formuleblad is het verschil gering.
In van de gevallen zal de gemiddelde lichaamslengte van de mannelijke respectievelijk vrouwelijke studenten in het betreffende interval liggen.
Mannen:
Vrouwen:
Het interval van de mannen is het smalst omdat kleiner is dan .
Als één of beide standaardafwijkingen groter worden, wordt in de formule van de effectgrootte de noemer groter. Omdat de teller gelijk blijft (het verschil van de gemiddeldes bleef gelijk), betekent dit dat de effectgrootte kleiner wordt. Dus bij grotere standaardafwijkingen kan het verschil minder groot worden.
Met de gegevens in tabel 2 bepaal je de effectgrootte.
Het verschil is groot.
Verder vergelijk je de twee boxplots in figuur 1.
De boxen overlappen elkaar, maar de mediaan van de vrouwen ligt buiten de box van
de mannen (of omgekeerd: de mediaan van de mannen ligt buiten de box van de vrouwen).
Het verschil is middelmatig.
De boxen in figuur 1 overlappen elkaar maar voor een heel klein deel, terwijl de effectgrootte
veel groter is dan de grenswaarde van .
De conclusie die het best te verdedigen is, is dat het verschil groot is.
Lees twee geschikte punten op de trendlijn aflezen, bijvoorbeeld en .
De richtingscoëfficiënt is . Dus: .
Het getal (het snijpunt met de verticale as) vind je bijvoorbeeld door het punt in te vullen: . Dit oplossen geeft .
De formule van de trendlijn is: .
van de waarnemingen ligt hoogstens standaardafwijkingen boven of onder de trendlijn. Dit is dus cm boven of onder de trendlijn. Boven en onder de trendlijn kun je nu een evenwijdige lijn tekenen op afstand van de trendlijn. Arceer tot slot het gevraagde gebied.