Antwoord bij oefening 3.4

a. Toets de hypothese dat mannen een grotere kans hebben om een landelijk dagblad te lezen (lkldg) dan vrouwen.

We kunnen deze hypothese toetsen door de gemiddelde leeskans van een dagblad voor mannen te vergelijken met het gemiddelde voor vrouwen. De toets die hier bij hoort is de t-toets. Omdat we ons kunnen voorstellen dat we apart een steekproef van mannen kunnen trekken en apart een steekproef van vrouwen kunnen trekken, gaat het om onafhankelijke scores. We moeten dus de t-toets voor het verschil tussen twee gemiddelden (independent samples) gebruiken.

Eerst moeten we de variabelen beschrijven en beoordelen: zijn er fouten in de gegevens die we moeten corrigeren en voldoen de gegevens aan de voorwaarden voor een t-toets?
Er zijn geen onmogelijke waarden bij de leeskans. De steekproef is verder groot genoeg (N ≥ 100) om de t-toets uit te voeren, ook al lijkt de variabele in de populatie enigszins scheef verdeeld te zijn (in de steekproef is de skewness 0,47).

Group Statistics

Geslacht N Mean Std. Deviation Std. Error Mean
Leeskans Alle landelijke dagbladen Man 5050 ,4324 ,37710 ,00531
Vrouw 6756 ,3201 ,35571 ,00433
Independent Samples Test


Levene's Test for Equality of Variances t-test for Equality of Means
F Sig. t df Sig. (2-tailed) Mean Difference Std. Error Difference 95% Confidence Interval of the Difference
              Lower Upper
Leeskans Alle landelijke dagbladen Equal variances assumed 127,311 ,000 16,539 11804 ,000 ,11230 ,00679 ,09899 ,12561
Equal variances not assumed

16,400 10520,219 ,000 ,11230 ,00685 ,09887 ,12572

We zien dat mannen gemiddeld een grotere kans hebben om een landelijk dagblad te lezen (M = 0,43; SD = 0,38) dan vrouwen (M = 0,32; SD = 0,36). Dit verschil is statistisch significant, t (10.520,22) = 16,40; p < 0,001 eenzijdig; 95% CI [0,10, 0,13]; d = 0,31. De effectgrootte bij dit verschil is klein tot middelmatig; zie de onderstaande berekening, waarbij eerst de gepoolde variantie is uitgerekend:


en

De nulhypothese dat mannen geen grotere kans hebben om een landelijk dagblad te lezen (H0: μmannen ≤ μvrouwen) kan dus verworpen worden en de onderzoekshypothese wordt (vooralsnog) aangenomen.
Let op: de variantie in de leeskans is bij de mannen significant hoger dan bij de vrouwen, dus moeten we de resultaten gebruiken van de t-toets die geen gelijke varianties veronderstelt.

b. Toets de hypothese dat Nederlanders evenveel kans hebben om een landelijk dagblad te lezen als een regionaal dagblad (lkrdg).

Hier kunnen we niet voorstellen dat we een aparte steekproef trekken van mensen waaraan we vragen wat hun leeskans is voor landelijke dagbladen en apart een steekproef van mensen van wie we de leeskans op een regionaal dagblad vaststellen. We moeten namelijk van iedere respondent weten wat beide leeskansen zijn. Dus moeten we een t-toets voor afhankelijke scores (paired samples) uitvoeren.

Beschrijf en beoordeel eerst de variabele lkrdg. Alles lijkt OK: een vrijwel symmetrische verdeling (skewness = -0,08; SE = 0,02), maar wanneer je goed kijkt naar de boxplot en naar het maximum, zie je dat er minstens één leeskans voorkomt boven de 1,00. Een kans van meer dan 100% is onmogelijk, dus hier moet een invoerfout gemaakt zijn. Zet waarden boven 1 eerst op missing, bijvoorbeeld met het hercodeer commando.

De resultaten van de t-toets laten zien dat de kans om een regionaal dagblad te lezen (M = 0,49; SD = 0,38) significant hoger ligt dan de kans om een landelijk dagblad te lezen (M = 0,37; SD = 0,37), t (11804) = -22,53; p < 0,001; 95% CI [-0,13, -0,11]; d = 0,21. De hypothese dat de kans even groot is, moeten we dus verwerpen. De effectgrootte van het verschil in de kans om een landelijk dagblad of een regionaal dagblad te lezen is klein tot middelmatig.

c. Kies enkele achtergrondkenmerken van de respondenten waarvan je verwacht dat ze effect hebben op de kans om een regionaal dagblad te lezen. Ga met een t-toets na of je verwachting uitkomt. NB verdeel het achtergrondkenmerk indien nodig steeds in twee categorieën of klassen en motiveer deze indeling met argumenten.

Welke achtergrondkenmerken hebben mensen die een regionaal dagblad lezen, denk je?
Wanneer je bijvoorbeeld een verschil tussen jongeren en ouderen verwacht, moet je aangeven waarom je de grens tussen jonger en ouder bij een bepaalde leeftijd legt. Dit kan een technisch argument zijn, bijvoorbeeld dat je ongeveer even grote groepen wilt hebben, of een inhoudelijk argument dat je bij een bepaalde leeftijd een andere houding ten opzichte van dagbladen verwacht.

d. Volgens CBS-gegevens bestond de Nederlandse bevolking rond 2000 voor 49,5% uit mannen en 50,5% vrouwen. Is de SummoScanner op dit punt representatief voor de Nederlandse bevolking?

Om deze vraag te kunnen beantwoorden, moeten we een toets op een proportie uitvoeren. Het maakt niet uit of we de proportie van mannen toetsen of de proportie van vrouwen want het een is niets anders dan 1 min het ander.
Het is belangrijk om te controleren of er geen rare codes voorkomen bij de sekse variabele, die er overigens niet blijken te zijn. Nu kunnen we een binomiaaltoets op proporties uitvoeren, waarbij de mannen de laagste code (1) hebben, die hier als testgroep gekozen is.

Hypothesis Test Summary
  Null Hypothesis Test Sig. Decision
1 The categories defined by Geslacht = (Man) and (Vrouw) occur with probabilities 0,495 and 0,505 One-Sample Binomial Test ,000 Reject the null hypothesis.
Asymptotic significances are displayed. The significance level is .05.

Er blijkt een significant verschil te zijn tussen de proportie mannen in de populatie waaruit de steekproef is getrokken en de proportie in de Nederlandse bevolking volgens het CBS, binomiaaltoets p < 0,001. Onder de respondenten van de SummoScanner in dit jaar zitten significant minder mannen (43,2%) dan in de Nederlandse bevolking (49,5%). Het panel van de SummoScanner is op dit punt niet representatief voor de Nederlandse bevolking rond het jaar 2000.

Syntax

*Syntax bij oefening 3_4.

*Opgave a.
*Beschrijven variabelen.
FREQUENCIES
  VARIABLES=gesl
  /ORDER= ANALYSIS .
EXAMINE
  VARIABLES=lkldg
  /PLOT BOXPLOT
  /COMPARE GROUP
  /STATISTICS DESCRIPTIVES
  /CINTERVAL 95
  /MISSING LISTWISE
  /NOTOTAL.
*T-toets op onafhankelijke scores.
T-TEST
  GROUPS = gesl(1 2)
  /MISSING = ANALYSIS
  /VARIABLES = lkldg
  /CRITERIA = CI(.95) .

*Opgave b.
*Beschrijven van lkrdg.
EXAMINE
  VARIABLES=lkrdg
  /PLOT BOXPLOT
  /COMPARE GROUP
  /STATISTICS DESCRIPTIVES
  /CINTERVAL 95
  /MISSING LISTWISE
  /NOTOTAL.
*Bewerken van lkrdg: kans boven 1 op missing zetten.
RECODE
  lkrdg (1.01 thru Highest=SYSMIS) .
EXECUTE .
T-TEST
  PAIRS = lkldg WITH lkrdg (PAIRED)
  /CRITERIA = CI(.95)
  /MISSING = ANALYSIS.

*Opgave d.
*Controleren sekse variabele.
FREQUENCIES VARIABLES=gesl
  /ORDER=ANALYSIS.
*Binomiaaltoets op geslacht.
*Nonparametric Tests: One Sample.
NPTESTS
  /ONESAMPLE TEST (gesl) BINOMIAL(TESTVALUE=0.495 SUCCESSCATEGORICAL=LIST(1)
    SUCCESSCONTINUOUS=CUTPOINT(MIDPOINT))
  /MISSING SCOPE=ANALYSIS USERMISSING=EXCLUDE
  /CRITERIA ALPHA=0.05 CILEVEL=95.