Antwoord

Antwoord bij rekenopgave 3.7e

Stap 1: stel de hypothesen op.
H₀ : μ_{mannelijke personages} ≥ μ_{vrouwelijke personages}
H₁ : μ_{mannelijke personages} < μ_{vrouwelijke personages}
Het is een eenzijdige toets.

Stap 2: Kies de kansverdeling en de toets.
We mogen de toetsingsgrootheid t gebruiken omdat we ervan mogen uitgaan dat de variabele 'lachfrequentie' in de populatie normaal verdeeld is, ook al zijn de steekproeven kleiner dan 30.

Stap 3: Bepaal de kritieke waarde en het kritieke gebied. Zoek de kritieke waarde van t op, d.w.z. de waarde waarboven de nulhypothese verworpen wordt.
We hebben hier onafhankelijke scores: een personage is mannelijk of vrouwelijk. We hadden een aparte steekproef van mannelijke personages kunnen trekken en een aparte steekproef van vrouwelijke personages.
Om de vrijheidsgraden te bepalen moeten we weten of we mogen uitgaan van gelijke varianties in de populatie. Hiervoor moeten we eerst een F-toets uitvoeren, die hier toegestaan is aangezien gegeven is dat de variabele normaal verdeeld is in de populatie. Dit is een toetsprocedure op zichzelf met de 5 vaste stappen:

Stel de hypothesen op.
Bij de F-toets is de nulhypothese dat de varianties van de numerieke variabele in de ene populatie (de populatie waaruit de mannelijke personages zijn getrokken) gelijk is aan de variantie van deze variabele in de andere populatie (de populatie waaruit de vrouwelijke personages zijn getrokken).
H₀: σ²_{mannelijke personages} = σ²_{vrouwelijke personages}
H₁: σ²_{mannelijke personages} ≠ σ²_{vrouwelijke personages}
Kies de kansverdeling en de toets.
Varianties toetsen we met de F-verdeling als kansverdeling. We voeren een F-toets uit.
Bepaal de kritieke waarde en het kritieke gebied.
De F-toets heeft twee aantallen vrijheidsgraden: df₁ = n₁ - 1 en df₂ = n₂ - 1 waarbij s₁² > s₂²
Beide groepen zijn hier even groot dus maakt het niet uit welke groep we in de teller en welke we in de noemer zetten, althans voor de berekening van de vrijheidsgraden: df₁ = 5 - 1 = 4 en df₂ = 5 - 1 = 4 .
In de F-tabel kunnen we nu de kritieke waarde voor een tweezijdige toets (let op: de eenzijdige verwachting t.a.v. het verschil tussen de gemiddelden betekent niet dat we een eenzijdige verwachting hebben t.a.v. de varianties) met α = 0,05 opzoeken: de kritieke waarde is 9,6.

Bereken nu de F-waarde voor deze steekproef.
Hiervoor moeten we eerst de geschatte populatievarianties van beide groepen (steekproeven) uitrekenen.
Hulptabel:

Personages	Aantal keer lachen (x_i)	x_i²
Mannelijk	8	64
	11	121
	13	169
	4	16
	2	4
Som	38	374
Gemiddelde	7,6
Som²	1444
Vrouwelijk	15	225
	9	81
	13	169
	11	121
	18	324
Som	66	920
Gemiddelde	13,2
Som²	4356

De berekende varianties:

Dan is de F-waarde voor de steekproef eenvoudig te berekenen (de mannelijke personages komen in de teller omdat zij de grootste variantie hebben in het aantal keren dat zij lachen):

Trek een conclusie.
De F-waarde in de steekproef is lager dan 9,6 dus trekken we de conclusie dat het resultaat niet significant is, F (4, 4) = 1,75, niet significant. We mogen ervan uitgaan dat de varianties van de twee groepen in de populatie gelijk zijn.

Nu kunnen we de 3e stap uit de oorspronkelijke toets afmaken. Bij gelijke populatievarianties is het aantal vrijheidsgraden van een t-toets op twee gemiddelden: df = n₁ + n₂ - 2 = 5 + 5 - 2 = 8 .
Als we het significantieniveau (eenzijdig) α = 5% kiezen (dit wordt aan ons overgelaten), is de kritieke waarde van t in de tabel 1,86. Het kritieke gebied is dus t ≥ 1,86 wanneer we de vrouwen als groep 1 gebruiken en de mannen als groep 2. In de datamatrix staan de mannen eerst, dus ligt het voor de hand dat we hen gebruiken als eerste groep en de gemiddelde score van de vrouwen als tweede groep daarvan aftrekken. Dan krijgen we een negatieve waarde van t en is de toets linkseenzijdig. Het kritieke gebied moet dan dus t ≤ -1,86 zijn!

Stap 4: Bereken nu de t-waarde voor deze steekproef.
De varianties in de twee steekproeven die we nodig hebben om de gepoolde variantie te schatten, hebben we al voor de F-toets uitgerekend. We kunnen de geppolde variantie dus uitrekenen:

en dit invullen in de formule voor de standaardfout (SE):

om tenslotte de formule voor t in te vullen:

Stap 5: Trek een conclusie: De gevonden t-waarde (-2,16) is kleiner dan de kritieke waarde (-1,86) dus ligt de gevonden t-waarde in het kritieke gebied. Het resultaat is statistisch significant en we verwerpen de nulhypothese.
Conclusie: "Vooralsnog gaan we ervan uit dat er wel een verschil is tussen de mannelijke en vrouwelijke personages in de populatie van al deze personages. Het gemiddeld aantal keren lachen ligt bij de vrouwelijke personages (M = 13,2, SD = 3,49) hoger dan bij mannelijke personages (M = 7,6, SD = 4,62) in de steekproef. Dit verschil is statistisch significant en relevant - t (8) = -2,16, p < 0,05, eenzijdige toets, d = 1,37 - en mag daarom gegeneraliseerd worden naar alle personages in de soap opera's." De berekening voor de effectgrootte vind je hieronder (met voor de volledigheid nogmaals de berekening voor de gepoolde variantie):

en

NB de standaarddeviaties zijn verkregen door de wortel te nemen van de varianties.