a. Construeer een schaal voor politieke interesse van Nederlanders met behulp van de variabelen dem56, dem59, dem60, dem65, dem66, dem67 en dem83 uit het Continu KijkOnderzoek van 1998. Welke kanttekening kun je plaatsen bij de schaalconstructie?
Selecteer eerst de respondenten die minstens 18 jaar oud zijn (variabele dem50).
Controleer dan de items die je in de schaal wilt gebruiken. Er blijkt een categorie 'geen opgave' (8) te zijn, die je als missing moet definiëren. Ook is er een code 9 'niet van toepassing' maar die komt in de data (respondenten die minstens 18 jaar oud zijn) niet voor.
Schaalconstructie: de items blijken netjes op 1 factor (component) te liggen met 68% verklaarde variantie (de eigenwaarde is 4,79).
Component Matrixa | |
  | Component |
1 | |
Interesse in politiek | ,870 |
Interesse in verkiezingsuitslagen | ,832 |
Interesse in achtergrond politiek | ,843 |
Interesse in landelijke politiek | ,902 |
Interesse in buitenlandse politiek | ,808 |
Interesse in plaatselijke politiek | ,683 |
Politiek bijblijven | ,837 |
Extraction Method: Principal Component Analysis. | |
a. 1 components extracted. |
Controleer de betrouwbaarheid nadat je de factoranalyse hebt uitgevoerd. Die blijkt marginaal te verhogen (van 0,922 tot 0,925) door dem67 te verwijderen. De verbetering is erg klein en de betrouwbaarheid is al erg hoog, dus in dit antwoord laten we dem67 in de schaal zitten. Het is echter niet fout wanneer je dem67 uit de schaal verwijdert. Je krijgt dan wel iets andere uitkomsten.
In het model wordt politieke interesse voorspeld. De oorspronkelijke items meten echter politieke desinteresse: hoe hoger de score, des te minder interesse heeft de respondent in de politiek.
Het is daarom verstandig om de score op de oorspronkelijke items om te keren: hoog (3) wordt laag (1) en omgekeerd. Bereken daarna pas de schaalvariabele voor politieke interesse als de gemiddelde score op de (gehercodeerde) items.
Kanttekening: de oorspronkelijke items heben een 3-puntsschaal. Je zou het bezwaarlijk kunnen vinden om deze in een factoranalyse te gebruiken en er een gemiddelde schaalscore mee te berekenen.
b. Toets hypothesen 1 tot en met 3 van de onderzoeker in één analyse (model); definieer mensen die geen kans hebben om opiniebladen te lezen (variabele 'dem122', waarde 0) als mensen die geen opiniebladen lezen. Vermeld de statistische nulhypothesen en interpreteer de resultaten zoals voorgeschreven bij het vak IS (APA6). Bespreek of er aan de voorwaarden voor de toets voldaan is.
Een model met een afhankelijke variabele op interval meetniveau (de schaalvariabele), waarbij minstens één onafhankelijke variabele ook interval of ratio meetniveau heeft (hier: leeftijd), kunnen we alleen met meervoudige regressieanalyse toetsen.
Voor regressieanalyse moeten de variabelen wel aan de voorwaarden voldoen: geen duidelijk krom verband in een spreidingsdiagram (met een interval of ratio onafhankelijke variabel) en normaal verdeelde en homoscedastische residuen.
Het spreidingsdiagram van leeftijd met politieke interesse toont geen duidelijk krom verband. De verdeling van de residuen bespreken we na het uitvoeren van de analyse.
De leeskans van opiniebladen moet omgezet worden in een dichotomie, met mensen zonder leeskans (waarde 0 op variabele 'dem122') als categorie 0 en mensen met leeskans als categorie 1. Inspectie van de variabele laat zien dat dit de waarden 1 tot en met 3 zijn. Codes 8 en 9 moeten buiten als missing worden aangemerkt omdat we hier niet weten wat de leeskans is.
Voor sociale klasse moeten we dummyvariabelen maken. In de hypothese worden de sociale klassen in drie groepen ingedeeld: hoog (A), midden (B) en laag (C en D). We moeten dus twee dummyvariabelen maken. Omdat de hypothesen stellen dat de politieke interesse van de middencategorie kleiner is dan de hoogste en groter dan de laagste categorie, is het het handigst om de middengroep als referentiecategorie te gebruiken. Wanneer we significante verschillen vinden in de verwachte richting tussen de middengroep en de twee andere groepen, weten we ook dat er een significant verschil is qua politieke interesse tussen de hoogste sociale klasse en de laagste sociale klasse.
We maken dus een dummyvariabele (dichotomie met 1 = wel, 0 = niet) voor sociale klasse A en een dummyvariabele voor sociale klasse C en D. De regressiecoëfficiënten voor deze dummyvariabelen geven aan hoeveel respectievelijk klasse A en klasse C/D afwijken van sociale klasse B wat betreft hun score op de afhankelijke variabele.
Let op: de hypothesen van een onderzoeker zijn hier de alternatieve hypothesen omdat er wel verschillen en verbanden verwacht worden in de populatie waaruit de steekproef getrokken is. Je toetst statistisch eigenlijk de bijbehorende nulhypothesen dat er geen verband of verschil is.
De keuze tussen een eenzijdige en een tweezijdige toets is hier een kwestie van interpretatie. Wanneer je uitsluit dat mensen die geen opiniebladen lezen of die jonger zijn meer interesse hebben in politiek, kun je de hypothesen eenzijdig formuleren. Sluit je dit niet uit, dan formuleer je ze tweezijdig. Hetzelfde geldt voor de verschillen tussen de sociale klassen.
De tweezijdige nulhypothesen voor deze regressieanalyse zijn:
NB bij een meervoudige regressieanalyse kunnen twee soorten nulhypothesen geformuleerd worden: met de multipele correlatiecoëfficiënt in de populatie (ρY.1..k) en met de regressiecoëfficiënten in de populatie (β) voor de afzonderlijke onafhankelijke variabelen. De multipele correlatiecoëfficiënt toetst of het complete regressiemodel helpt om de afhankelijke variabele in de populatie te voorspellen. Dit kunnen we hier niet gebruiken aangezien de drie hypothesen over steeds andere onafhankelijke variabele gaan. Daarom zijn de hypothesen met behulp van β geformuleerd.
Onderzoekshypothese 3 bevat eigenlijk twee statistische nulhypothesen omdat er twee vergelijkingen gemaakt worden (hoog versus midden en midden versus laag).
Nu kunnen we het model toetsen met een regressieanalyse.
Model Summaryb | ||||
Model | R | R Square | Adjusted R Square | Std. Error of the Estimate |
1 | ,383a | ,147 | ,144 | ,54901 |
a. Predictors: (Constant), Opiniebladen lezen, leeftijd respondent in jaren, Sociale klasse A, Sociale klassen C en D | ||||
b. Dependent Variable: Politieke interesse |
ANOVAb | ||||||
Model | Sum of Squares | df | Mean Square | F | Sig. | |
1 | Regression | 70,694 | 4 | 17,673 | 58,635 | ,000a |
Residual | 411,128 | 1364 | ,301 |   |   | |
Total | 481,822 | 1368 |   |   |   | |
a. Predictors: (Constant), Opiniebladen lezen, leeftijd respondent in jaren, Sociale klasse A, Sociale klassen C en D | ||||||
b. Dependent Variable: Politieke interesse |
Coefficientsa | ||||||||
Model | Unstandardized Coefficients | Standardized Coefficients | t | Sig. | 95,0% Confidence Interval for B | |||
B | Std. Error | Beta | Lower Bound | Upper Bound | ||||
1 | (Constant) | 1,347 | ,052 |   | 25,799 | ,000 | 1,244 | 1,449 |
Sociale klasse A | ,122 | ,045 | ,073 | 2,733 | ,006 | ,035 | ,210 | |
Sociale klassen C en D | -,252 | ,032 | -,209 | -7,762 | ,000 | -,316 | -,188 | |
leeftijd respondent in jaren | ,007 | ,001 | ,182 | 7,190 | ,000 | ,005 | ,009 | |
Opiniebladen lezen | ,286 | ,030 | ,240 | 9,560 | ,000 | ,228 | ,345 | |
a. Dependent Variable: Politieke interesse |
De residuen zijn redelijk normaal verdeeld maar hebben wel een opvallende 'dip' rond de waarde 0. De residuen lijken homoscedastisch, al nemen de residuen over het algemeen wel af wanneer de voorspelde waarde hoger wordt: hogere scores worden enigszins overschat en lagere scores worden te laag ingeschat. Met name dit laatste kan twijfel opwekken over de vraag of aan de voorwaarden voor deze toets voldaan is.
Conclusie: "Met het meervoudige regressiemodel kunnen we de politieke interesse van Nederlanders in beperkte mate voorspellen, R2 = 0,15, F (4, 1364) = 58,64, p < 0,001. We zien inderdaad de verwachte effecten op politieke interesse wanneer we controleren voor de andere onafhankelijke variabelen. Leden van de hoogste sociale klasse (A) scoren gemiddeld 0,12 hoger (95% CI [0,04, 0,21]) dan de middelste klassen (B) op de schaal voor politieke interesse, die loopt van 1 tot 3, b* = 0,07, t = 2,73, p = 0,006. Leden van de laagste sociale klassen (C en D) scoren daarentegen gemiddeld 0,25 lager (95% CI [-0,32, -0,19]) dan de middelste klasse, b* = -0,21, t = -7,76, p < 0,001. Leeftijd heeft een positief effect op politieke interesse, b* = 0,18, t = 7,19, p < 0,001, en de leeskans van opiniebladen heeft het sterkste positieve effect (b* = 0,24): opiniebladlezers hebben gemiddekd 0,29 extra interesse in de politiek, b = 0,29, t = 9,56, p < 0,001, 95% CI [0,23, 0,35]. Al deze effecten zijn zwak tot middelmatig."
c. De onderzoeker vermoedt dat er ook samenhang bestaat tussen het lezen van opiniebladen en de achtergrondvariabele sociale klasse. De hypothese is:
H4 : Leden van de hoogste sociale klasse (A) zijn vaker lezers van opiniebladen dan leden van de middenklassen (B-bovenlaag en B-onderlaag), die weer vaker lezers zijn dan mensen in de laagste klassen (C en D).
Toets deze hypothese. Interpreteer de resultaten zoals voorgeschreven bij het vak IS en bespreek of er aan de voorwaarden voor de toets voldaan is.
De variabele opiniebladen lezen is een dichotomie en de variabele sociale klasse is een ordinale variabele met meer dan twee categorieën. Een verband tussen dit soort variabelen toetsen we in een kruistabel met de chikwadraattoets.
We gebruiken geen nieuwe variabelen die we nog moeten controleren, maar we kunnen de oorspronkelijke variabele sociale klasse (dem29) hercoderen om de drie klassen te krijgen die in de hypothese genoemd zijn.
|
|
|
Er is een significant verband tussen de beide variabelen. De gestandaardiseerde celresiduen zijn qua teken in de verwachte richting: de combinatie hoge sociale klasse (A) met wel lezen van opiniebladen komt vaker voor dan verwacht aangezien het celresidu hier positief is, en de combinatie lage sociale klasse (C en D) met het niet lezen van opiniebladen komt relatief vaak voor. Maar geen van de celresiduen is significant, d.w.z. absoluut groter dan 1,96. We kunnen dus niet aangeven waar de verschillen in de populatie zitten.
De samenhang is ook zeer zwak: Goodman en Kruskal's tau = 0,008 wanneer we het lezen van opiniebladen willen voorspellen op grond van sociale klasse en Lambda is zelfs 0.
Interpretatie: "Het verband tussen lezen van opiniebladen en sociale klasse is significant, chi-kwadraat (2) = 11,17, p = 0,004. Het verband is echter zeer zwak (tau = 0,008) en het is niet duidelijk waar de verschillen zich in de populatie precies bevinden."
Aan de voorwaarden voor de chikwadraattoets is voldaan: alle verwachte waarden zijn minstens 5.
*Syntax oefening 7_1.
*Opgave a.
*Selecteren van volwassenen (18 jaar en ouder).
USE ALL.
COMPUTE filter_$=(dem50 > 17).
VARIABLE LABEL filter_$ 'dem50 > 17 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
*Schaalconstructie.
*Univariate beschrijving en bewerking.
FREQUENCIES
VARIABLES=dem56 dem59 dem60 dem65 dem66 dem67 dem83
/ORDER= ANALYSIS .
*Univariaat bewerken: scores 8 (geen opgave) en 9 (niet van toepassing) moeten als missing values worden aangemerkt.
*Define Variable Properties.
*dem56.
MISSING VALUES dem56 ( 8, 9 ).
*dem59.
MISSING VALUES dem59 ( 8, 9 ).
*dem60.
MISSING VALUES dem60 ( 8, 9 ).
*dem65.
MISSING VALUES dem65 ( 8, 9 ).
*dem66.
MISSING VALUES dem66 ( 8, 9 ).
*dem67.
MISSING VALUES dem67 ( 8, 9 ).
*dem83.
MISSING VALUES dem83 ( 8, 9 ).
EXECUTE.
*Controle.
FREQUENCIES
VARIABLES=dem56 dem59 dem60 dem65 dem66 dem67 dem83
/ORDER= ANALYSIS .
*PCA.
FACTOR
/VARIABLES dem56 dem59 dem60 dem65 dem66 dem67 dem83 /MISSING
LISTWISE /ANALYSIS dem56 dem59 dem60 dem65 dem66 dem67 dem83
/PRINT INITIAL EXTRACTION ROTATION
/PLOT EIGEN
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC
/CRITERIA ITERATE(25)
/ROTATION VARIMAX
/METHOD=CORRELATION .
*Betrouwbaarheid van schaal bepalen.
RELIABILITY
/VARIABLES=dem56 dem59 dem60 dem65 dem66 dem67 dem83
/SCALE('Politieke desinteresse') ALL/MODEL=ALPHA
/SUMMARY=TOTAL .
*Betrouwbaarheid zonder dem67.
RELIABILITY
/VARIABLES=dem56 dem59 dem60 dem65 dem66 dem83
/SCALE('Politieke desinteresse') ALL/MODEL=ALPHA
/SUMMARY=TOTAL .
*(Items hercoderen (omkeren).
RECODE
dem56 dem59 dem60 dem65 dem66 dem67 dem83 (1=3) (2=2) (3=1) .
EXECUTE .
*Schaalscore berekenen.
COMPUTE PolInt = MEAN(dem56, dem59, dem60, dem65, dem66, dem67, dem83) .
EXECUTE .
*Schaalvariabele een naam geven.
*Define Variable Properties.
*PolInt.
VARIABLE LABELS PolInt 'Politieke interesse'.
EXECUTE.
*Vraag b.
*Controleren schaal politieke interesse.
FREQUENCIES
VARIABLES=PolInt
/ORDER= ANALYSIS .
*Hercoderen leeskans opiniebladen in wel/niet lezen.
* Define Variable Properties.
*dem111.
MISSING VALUES dem122(8, 9).
EXECUTE.
RECODE dem122 (0=0) (1 thru 3=1) INTO Opinie.
VARIABLE LABELS Opinie 'Opiniebladen lezen'.
EXECUTE.
* Define Variable Properties.
*Opinie.
VALUE LABELS Opinie
.00 'niet lezen'
1.00 'wel lezen'.
EXECUTE.
*Beschrijving leeftijd.
FREQUENCIES VARIABLES=dem50
/ORDER= ANALYSIS .
*Spreidingsdiagram leeftijd met politieke interesse.
GRAPH
/SCATTERPLOT(BIVAR)=dem50 WITH PolInt
/MISSING=LISTWISE .
*Dummyvariabelen maken voor sociale klasse (dem29).
*Neem de middelste klassen (B-bovenlaag en B-onderlaag) als referentiecategorie.
*Hoogste sociale klasse (A).
RECODE
dem29
(1=1) (2 thru Highest=0) INTO KlasseA .
VARIABLE LABELS KlasseA 'Sociale klasse A'.
EXECUTE .
*Laagste sociale klasse (C en D).
RECODE
dem29
(4=1) (5 = 1) (1 thru 3=0) INTO KlasseCD .
VARIABLE LABELS KlasseCD 'Sociale klassen C en D'.
EXECUTE .
*Regressieanalyse met politieke interesse als afhankelijke variabele.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF CI(95) OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT PolInt
/METHOD=ENTER KlasseA KlasseCD dem50 Opinie
/SCATTERPLOT=(*ZRESID ,*ZPRED)
/RESIDUALS HIST(ZRESID) .
*Opgave c.
*Hercoderen sociale klasse.
RECODE dem29 (1=1) (2 thru 3=2) (4 thru 5=3) INTO socklas3.
VARIABLE LABELS socklas3 'Sociale klasse in 3 lagen'.
EXECUTE.
* Define Variable Properties.
*socklas3.
VALUE LABELS socklas3
1.00 'A'
2.00 'B'
3.00 'C-D'.
EXECUTE.
*Toets op een kruistabel.
CROSSTABS
/TABLES=Opinie BY socklas3
/FORMAT=AVALUE TABLES
/STATISTICS=CHISQ LAMBDA
/CELLS=COUNT SRESID
/COUNT ROUND CELL.