Antwoord bij oefening 7.1

a. Construeer een schaal voor politieke interesse van Nederlanders met behulp van de variabelen dem56, dem59, dem60, dem65, dem66, dem67 en dem83 uit het Continu KijkOnderzoek van 1998. Welke kanttekening kun je plaatsen bij de schaalconstructie?

Selecteer eerst de respondenten die minstens 18 jaar oud zijn (variabele dem50).

Controleer dan de items die je in de schaal wilt gebruiken. Er blijkt een categorie 'geen opgave' (8) te zijn, die je als missing moet definiëren. Ook is er een code 9 'niet van toepassing' maar die komt in de data (respondenten die minstens 18 jaar oud zijn) niet voor.

Schaalconstructie: de items blijken netjes op 1 factor (component) te liggen met 68% verklaarde variantie (de eigenwaarde is 4,79).

Component Matrixa
  Component
1
Interesse in politiek ,870
Interesse in verkiezingsuitslagen ,832
Interesse in achtergrond politiek ,843
Interesse in landelijke politiek ,902
Interesse in buitenlandse politiek ,808
Interesse in plaatselijke politiek ,683
Politiek bijblijven ,837
Extraction Method: Principal Component Analysis.
a. 1 components extracted.

Controleer de betrouwbaarheid nadat je de factoranalyse hebt uitgevoerd. Die blijkt marginaal te verhogen (van 0,922 tot 0,925) door dem67 te verwijderen. De verbetering is erg klein en de betrouwbaarheid is al erg hoog, dus in dit antwoord laten we dem67 in de schaal zitten. Het is echter niet fout wanneer je dem67 uit de schaal verwijdert. Je krijgt dan wel iets andere uitkomsten.

In het model wordt politieke interesse voorspeld. De oorspronkelijke items meten echter politieke desinteresse: hoe hoger de score, des te minder interesse heeft de respondent in de politiek.
Het is daarom verstandig om de score op de oorspronkelijke items om te keren: hoog (3) wordt laag (1) en omgekeerd. Bereken daarna pas de schaalvariabele voor politieke interesse als de gemiddelde score op de (gehercodeerde) items.

Kanttekening: de oorspronkelijke items heben een 3-puntsschaal. Je zou het bezwaarlijk kunnen vinden om deze in een factoranalyse te gebruiken en er een gemiddelde schaalscore mee te berekenen.

b. Toets hypothesen 1 tot en met 3 van de onderzoeker in één analyse (model); definieer mensen die geen kans hebben om opiniebladen te lezen (variabele 'dem122', waarde 0) als mensen die geen opiniebladen lezen. Vermeld de statistische nulhypothesen en interpreteer de resultaten zoals voorgeschreven bij het vak IS (APA6). Bespreek of er aan de voorwaarden voor de toets voldaan is.

Een model met een afhankelijke variabele op interval meetniveau (de schaalvariabele), waarbij minstens één onafhankelijke variabele ook interval of ratio meetniveau heeft (hier: leeftijd), kunnen we alleen met meervoudige regressieanalyse toetsen.

Voor regressieanalyse moeten de variabelen wel aan de voorwaarden voldoen: geen duidelijk krom verband in een spreidingsdiagram (met een interval of ratio onafhankelijke variabel) en normaal verdeelde en homoscedastische residuen.
Het spreidingsdiagram van leeftijd met politieke interesse toont geen duidelijk krom verband. De verdeling van de residuen bespreken we na het uitvoeren van de analyse.

De leeskans van opiniebladen moet omgezet worden in een dichotomie, met mensen zonder leeskans (waarde 0 op variabele 'dem122') als categorie 0 en mensen met leeskans als categorie 1. Inspectie van de variabele laat zien dat dit de waarden 1 tot en met 3 zijn. Codes 8 en 9 moeten buiten als missing worden aangemerkt omdat we hier niet weten wat de leeskans is.

Voor sociale klasse moeten we dummyvariabelen maken. In de hypothese worden de sociale klassen in drie groepen ingedeeld: hoog (A), midden (B) en laag (C en D). We moeten dus twee dummyvariabelen maken. Omdat de hypothesen stellen dat de politieke interesse van de middencategorie kleiner is dan de hoogste en groter dan de laagste categorie, is het het handigst om de middengroep als referentiecategorie te gebruiken. Wanneer we significante verschillen vinden in de verwachte richting tussen de middengroep en de twee andere groepen, weten we ook dat er een significant verschil is qua politieke interesse tussen de hoogste sociale klasse en de laagste sociale klasse.
We maken dus een dummyvariabele (dichotomie met 1 = wel, 0 = niet) voor sociale klasse A en een dummyvariabele voor sociale klasse C en D. De regressiecoëfficiënten voor deze dummyvariabelen geven aan hoeveel respectievelijk klasse A en klasse C/D afwijken van sociale klasse B wat betreft hun score op de afhankelijke variabele.

Let op: de hypothesen van een onderzoeker zijn hier de alternatieve hypothesen omdat er wel verschillen en verbanden verwacht worden in de populatie waaruit de steekproef getrokken is. Je toetst statistisch eigenlijk de bijbehorende nulhypothesen dat er geen verband of verschil is.
De keuze tussen een eenzijdige en een tweezijdige toets is hier een kwestie van interpretatie. Wanneer je uitsluit dat mensen die geen opiniebladen lezen of die jonger zijn meer interesse hebben in politiek, kun je de hypothesen eenzijdig formuleren. Sluit je dit niet uit, dan formuleer je ze tweezijdig. Hetzelfde geldt voor de verschillen tussen de sociale klassen.
De tweezijdige nulhypothesen voor deze regressieanalyse zijn:

De eenzijdige nulhypothesen voor deze regressieanalyse zijn: Bij eenzijdige (nul)hypothesen moeten we de tweezijdige p-waarden die SPSS geeft, steeds delen door twee.

NB bij een meervoudige regressieanalyse kunnen twee soorten nulhypothesen geformuleerd worden: met de multipele correlatiecoëfficiënt in de populatie (ρY.1..k) en met de regressiecoëfficiënten in de populatie (β) voor de afzonderlijke onafhankelijke variabelen. De multipele correlatiecoëfficiënt toetst of het complete regressiemodel helpt om de afhankelijke variabele in de populatie te voorspellen. Dit kunnen we hier niet gebruiken aangezien de drie hypothesen over steeds andere onafhankelijke variabele gaan. Daarom zijn de hypothesen met behulp van β geformuleerd.
Onderzoekshypothese 3 bevat eigenlijk twee statistische nulhypothesen omdat er twee vergelijkingen gemaakt worden (hoog versus midden en midden versus laag).

Nu kunnen we het model toetsen met een regressieanalyse.

Model Summaryb
Model R R Square Adjusted R Square Std. Error of the Estimate
1 ,383a ,147 ,144 ,54901
a. Predictors: (Constant), Opiniebladen lezen, leeftijd respondent in jaren, Sociale klasse A, Sociale klassen C en D
b. Dependent Variable: Politieke interesse

ANOVAb
Model Sum of Squares df Mean Square F Sig.
1 Regression 70,694 4 17,673 58,635 ,000a
Residual 411,128 1364 ,301    
Total 481,822 1368      
a. Predictors: (Constant), Opiniebladen lezen, leeftijd respondent in jaren, Sociale klasse A, Sociale klassen C en D
b. Dependent Variable: Politieke interesse

Coefficientsa
Model Unstandardized Coefficients Standardized Coefficients t Sig. 95,0% Confidence Interval for B
B Std. Error Beta Lower Bound Upper Bound
1 (Constant) 1,347 ,052   25,799 ,000 1,244 1,449
Sociale klasse A ,122 ,045 ,073 2,733 ,006 ,035 ,210
Sociale klassen C en D -,252 ,032 -,209 -7,762 ,000 -,316 -,188
leeftijd respondent in jaren ,007 ,001 ,182 7,190 ,000 ,005 ,009
Opiniebladen lezen ,286 ,030 ,240 9,560 ,000 ,228 ,345
a. Dependent Variable: Politieke interesse

De residuen zijn redelijk normaal verdeeld maar hebben wel een opvallende 'dip' rond de waarde 0. De residuen lijken homoscedastisch, al nemen de residuen over het algemeen wel af wanneer de voorspelde waarde hoger wordt: hogere scores worden enigszins overschat en lagere scores worden te laag ingeschat. Met name dit laatste kan twijfel opwekken over de vraag of aan de voorwaarden voor deze toets voldaan is.

Conclusie: "Met het meervoudige regressiemodel kunnen we de politieke interesse van Nederlanders in beperkte mate voorspellen, R2 = 0,15, F (4, 1364) = 58,64, p < 0,001. We zien inderdaad de verwachte effecten op politieke interesse wanneer we controleren voor de andere onafhankelijke variabelen. Leden van de hoogste sociale klasse (A) scoren gemiddeld 0,12 hoger (95% CI [0,04, 0,21]) dan de middelste klassen (B) op de schaal voor politieke interesse, die loopt van 1 tot 3, b* = 0,07, t = 2,73, p = 0,006. Leden van de laagste sociale klassen (C en D) scoren daarentegen gemiddeld 0,25 lager (95% CI [-0,32, -0,19]) dan de middelste klasse, b* = -0,21, t = -7,76, p < 0,001. Leeftijd heeft een positief effect op politieke interesse, b* = 0,18, t = 7,19, p < 0,001, en de leeskans van opiniebladen heeft het sterkste positieve effect (b* = 0,24): opiniebladlezers hebben gemiddekd 0,29 extra interesse in de politiek, b = 0,29, t = 9,56, p < 0,001, 95% CI [0,23, 0,35]. Al deze effecten zijn zwak tot middelmatig."

c. De onderzoeker vermoedt dat er ook samenhang bestaat tussen het lezen van opiniebladen en de achtergrondvariabele sociale klasse. De hypothese is:
H4 : Leden van de hoogste sociale klasse (A) zijn vaker lezers van opiniebladen dan leden van de middenklassen (B-bovenlaag en B-onderlaag), die weer vaker lezers zijn dan mensen in de laagste klassen (C en D).
Toets deze hypothese. Interpreteer de resultaten zoals voorgeschreven bij het vak IS en bespreek of er aan de voorwaarden voor de toets voldaan is.

De variabele opiniebladen lezen is een dichotomie en de variabele sociale klasse is een ordinale variabele met meer dan twee categorieën. Een verband tussen dit soort variabelen toetsen we in een kruistabel met de chikwadraattoets.

We gebruiken geen nieuwe variabelen die we nog moeten controleren, maar we kunnen de oorspronkelijke variabele sociale klasse (dem29) hercoderen om de drie klassen te krijgen die in de hypothese genoemd zijn.
Opiniebladen lezen * Sociale klasse in 3 lagen Crosstabulation
  Sociale klasse in 3 lagen Total
1.00 A 2.00 B 3.00 C-D
Opiniebladen lezen .00 niet lezen Count 75 260 284 619
Std. Residual -1.7 -.7 1.7  
1.00 wel lezen Count 126 340 284 750
Std. Residual 1.5 .6 -1.5  
Total Count 201 600 568 1369

Chi-Square Tests
  Value df Asymp. Sig. (2-sided)
Pearson Chi-Square 11.174a 2 .004
Likelihood Ratio 11.227 2 .004
Linear-by-Linear Association 11.153 1 .001
N of Valid Cases 1369    
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 90.88.

Directional Measures
  Value Asymp. Std. Errora Approx. Tb Approx. Sig.
Nominal by Nominal Lambda Symmetric .017 .029 .586 .558
Opiniebladen lezen Dependent .000 .039 .000 1.000
Sociale klasse in 3 lagen Dependent .031 .030 1.029 .303
Goodman and Kruskal tau Opiniebladen lezen Dependent .008 .005   .004c
Sociale klasse in 3 lagen Dependent .004 .003   .005c
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.
c. Based on chi-square approximation

Er is een significant verband tussen de beide variabelen. De gestandaardiseerde celresiduen zijn qua teken in de verwachte richting: de combinatie hoge sociale klasse (A) met wel lezen van opiniebladen komt vaker voor dan verwacht aangezien het celresidu hier positief is, en de combinatie lage sociale klasse (C en D) met het niet lezen van opiniebladen komt relatief vaak voor. Maar geen van de celresiduen is significant, d.w.z. absoluut groter dan 1,96. We kunnen dus niet aangeven waar de verschillen in de populatie zitten.
De samenhang is ook zeer zwak: Goodman en Kruskal's tau = 0,008 wanneer we het lezen van opiniebladen willen voorspellen op grond van sociale klasse en Lambda is zelfs 0.

Interpretatie: "Het verband tussen lezen van opiniebladen en sociale klasse is significant, chi-kwadraat (2) = 11,17, p = 0,004. Het verband is echter zeer zwak (tau = 0,008) en het is niet duidelijk waar de verschillen zich in de populatie precies bevinden."

Aan de voorwaarden voor de chikwadraattoets is voldaan: alle verwachte waarden zijn minstens 5.

Syntax

*Syntax oefening 7_1.
*Opgave a.
*Selecteren van volwassenen (18 jaar en ouder).
USE ALL.
COMPUTE filter_$=(dem50 > 17).
VARIABLE LABEL filter_$ 'dem50 > 17 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .

*Schaalconstructie.
*Univariate beschrijving en bewerking.
FREQUENCIES
  VARIABLES=dem56 dem59 dem60 dem65 dem66 dem67 dem83
  /ORDER= ANALYSIS .
*Univariaat bewerken: scores 8 (geen opgave) en 9 (niet van toepassing) moeten als missing values worden aangemerkt.
*Define Variable Properties.
*dem56.
MISSING VALUES dem56 ( 8, 9 ).
*dem59.
MISSING VALUES dem59 ( 8, 9 ).
*dem60.
MISSING VALUES dem60 ( 8, 9 ).
*dem65.
MISSING VALUES dem65 ( 8, 9 ).
*dem66.
MISSING VALUES dem66 ( 8, 9 ).
*dem67.
MISSING VALUES dem67 ( 8, 9 ).
*dem83.
MISSING VALUES dem83 ( 8, 9 ).
EXECUTE.
*Controle.
FREQUENCIES
  VARIABLES=dem56 dem59 dem60 dem65 dem66 dem67 dem83
  /ORDER= ANALYSIS .
*PCA.
FACTOR
  /VARIABLES dem56 dem59 dem60 dem65 dem66 dem67 dem83 /MISSING
  LISTWISE /ANALYSIS dem56 dem59 dem60 dem65 dem66 dem67 dem83
  /PRINT INITIAL EXTRACTION ROTATION
  /PLOT EIGEN
  /CRITERIA MINEIGEN(1) ITERATE(25)
  /EXTRACTION PC
  /CRITERIA ITERATE(25)
  /ROTATION VARIMAX
  /METHOD=CORRELATION .
*Betrouwbaarheid van schaal bepalen.
RELIABILITY
  /VARIABLES=dem56 dem59 dem60 dem65 dem66 dem67 dem83
  /SCALE('Politieke desinteresse') ALL/MODEL=ALPHA
  /SUMMARY=TOTAL .
*Betrouwbaarheid zonder dem67.
RELIABILITY
  /VARIABLES=dem56 dem59 dem60 dem65 dem66 dem83
  /SCALE('Politieke desinteresse') ALL/MODEL=ALPHA
  /SUMMARY=TOTAL .
*(Items hercoderen (omkeren).
RECODE
  dem56 dem59 dem60 dem65 dem66 dem67 dem83 (1=3) (2=2) (3=1) .
EXECUTE .
*Schaalscore berekenen.
COMPUTE PolInt = MEAN(dem56, dem59, dem60, dem65, dem66, dem67, dem83) .
EXECUTE .
*Schaalvariabele een naam geven.
*Define Variable Properties.
*PolInt.
VARIABLE LABELS PolInt 'Politieke interesse'.
EXECUTE.

*Vraag b.
*Controleren schaal politieke interesse.
FREQUENCIES
  VARIABLES=PolInt
  /ORDER= ANALYSIS .
*Hercoderen leeskans opiniebladen in wel/niet lezen.
* Define Variable Properties.
*dem111.
MISSING VALUES dem122(8, 9).
EXECUTE.
RECODE dem122 (0=0) (1 thru 3=1) INTO Opinie.
VARIABLE LABELS Opinie 'Opiniebladen lezen'.
EXECUTE.
* Define Variable Properties.
*Opinie.
VALUE LABELS Opinie
  .00 'niet lezen'
  1.00 'wel lezen'.
EXECUTE.
*Beschrijving leeftijd.
FREQUENCIES VARIABLES=dem50
  /ORDER= ANALYSIS .
*Spreidingsdiagram leeftijd met politieke interesse.
GRAPH
  /SCATTERPLOT(BIVAR)=dem50 WITH PolInt
  /MISSING=LISTWISE .
*Dummyvariabelen maken voor sociale klasse (dem29).
*Neem de middelste klassen (B-bovenlaag en B-onderlaag) als referentiecategorie.
*Hoogste sociale klasse (A).
RECODE
  dem29
  (1=1) (2 thru Highest=0) INTO KlasseA .
VARIABLE LABELS KlasseA 'Sociale klasse A'.
EXECUTE .
*Laagste sociale klasse (C en D).
RECODE
  dem29
  (4=1) (5 = 1) (1 thru 3=0) INTO KlasseCD .
VARIABLE LABELS KlasseCD 'Sociale klassen C en D'.
EXECUTE .
*Regressieanalyse met politieke interesse als afhankelijke variabele.
REGRESSION
  /MISSING LISTWISE
  /STATISTICS COEFF CI(95) OUTS R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN
  /DEPENDENT PolInt
  /METHOD=ENTER KlasseA KlasseCD dem50 Opinie
  /SCATTERPLOT=(*ZRESID ,*ZPRED)
  /RESIDUALS HIST(ZRESID) .

*Opgave c.
*Hercoderen sociale klasse.
RECODE dem29 (1=1) (2 thru 3=2) (4 thru 5=3) INTO socklas3.
VARIABLE LABELS socklas3 'Sociale klasse in 3 lagen'.
EXECUTE.
* Define Variable Properties.
*socklas3.
VALUE LABELS socklas3
  1.00 'A'
  2.00 'B'
  3.00 'C-D'.
EXECUTE.
*Toets op een kruistabel.
CROSSTABS
  /TABLES=Opinie BY socklas3
  /FORMAT=AVALUE TABLES
  /STATISTICS=CHISQ LAMBDA
  /CELLS=COUNT SRESID
  /COUNT ROUND CELL.