Antwoord bij Oefening 6.2

a. Een onderzoeker verwacht dat naarmate televisie kijken meer in de behoeften voorziet (v13 t/m v19), men meer televisie kijkt (v5uur, v5min, v6uur, v6min). Ga na of de verwachting van de onderzoeker klopt.

Eerste moet je een schaal construeren voor de mate waarin televisie de behoeften bevredigt (gratificaties van het tv kijken, o.a. oefening 1.7).
Bekijk vervolgens het spreidingsdiagram om uit te sluiten dat er een duidelijk krom verband is tussen televisiegratificaties en kijktijd.
Om de onderzoeksvraag te beantwoorden kun je kiezen uit een correlatiecoëfficiënt (wanneer je denkt dat het verband symmetrisch is) en een regressieanalyse (wanneer je een asymmetrisch verband wilt onderzoeken). Uit de inleidende tekst van de oefening wordt duidelijk dat het de bedoeling is om oorzaken van televisiekijktijd te zoeken. Dan is de asymmetrische regressieanalyse de betere techniek.

De resultaten:
Model Summary
Model R R Square Adjusted R Square Std. Error of the Estimate
1 ,250a ,063 ,062 10,16007
a. Predictors: (Constant), tvgratif

ANOVAb
Model Sum of Squares df Mean Square F Sig.
1 Regression 10664,840 1 10664,840 103,314 ,000a
Residual 159485,699 1545 103,227    
Total 170150,539 1546      
a. Predictors: (Constant), tvgratif
b. Dependent Variable: Aantal uren tv kijken per week

Coefficientsa
Model Unstandardized Coefficients Standardized Coefficients t Sig. 95,0% Confidence Interval for B
B Std. Error Beta Lower Bound Upper Bound
1 (Constant) 7,817 ,960   8,140 ,000 5,934 9,701
tvgratif 2,026 ,199 ,250 10,164 ,000 1,635 2,417
a. Dependent Variable: Aantal uren tv kijken per week

De residuen zijn aardig normaal verdeeld al is de linker staart erg kort in vergelijking met de rechter staart. De spreiding in de residuen lijkt iets groter bij de hogere voorspelde waarden dan de laagste voospelde waarden: de puntenwolk lijkt iets 'dikker' te worden naar rechts toe. Beide afwijkingen van de voorwaarden zijn erg gering en staan een toepassing van regressieanalyse niet in de weg.

Conclusie: "Er is een significant zwak positief effect van de gratificaties van het televisiekijken op het aantal uren dat Nederlanders gemiddeld televisiekijken, b* = 0,25, t = 10,16, p < 0,001. De onderzoeker heeft gelijk: naarmate televisiekijken meer de behoeften vervult, kijkt men meer televisie. Om preciezer te zijn: een extra punt op de schaal voor gratificaties van televisiekijken, die loopt van 1 tot 9, levert gemiddeld ongeveer 2 uur extra televisiekijken per week op, 95% CI [1,64, 2,42]."

b. Verandert het verband tussen behoeftevervulling en de tijd dat men televisie kijkt wanneer je controleert voor het hebben van betaald werk (v4baan), het aantal jaren onderwijs dat men heeft genoten (v73) en leeftijd (v3)? Voeg deze onafhankelijke variabelen stapsgewijs toe aan het regressiemodel.

Beschrijf eerst de variabelen. Kinderen onder de 18 jaar oud moeten we weglaten omdat de enquête niet voor hen bedoeld was. Verder zijn er geen eigenaardigheden.
De scheefheid van de twee numerieke variabelen (leeftijd en onderwijsverleden) zijn nu in orde. Hun verband met televisiekijktijd is niet duidelijk krom en er zijn geen duidelijke uitbijters in de spreidingsdiagrammen.
De categorische variabele v4baan is een dichotomie met de waarden 0 (niet) en 1 (wel). Deze kan dus als dummyvariabele toegevoegd worden in de regressieanalyse.
Bekijk ook in spreidingsdiagrammen of er een lineair verband kan zijn met de hoeveelheid tijd die men televisie kijkt. De puntenwolken zijn niet duidelijk krom, dus een rechte lijn kan passen. Overigens zijn sommige puntenwoken erg vormloos, zodat we niet altijd een duidelijk verband tussen de onafhankelijke en de afhankelijke variabele hoeven te verwachten.
De regressieanalyse kan nu uitgevoerd worden met de optie STEPWISE achter METHOD:.
In feite worden er nu vier regressieanalyses direct achter elkaar uitgevoerd. De eerste keer wordt alleen gratificaties van het televisiekijken als onafhankelijke variabele gebruikt. Daar wordt in de tweede analyse het onderwijsverleden aan toegevoegd, enzovoorts. Deze stappen (modellen) worden weergegeven in de eerste tabel van de SPSS output.

Model Summarye
Model R R Square Adjusted R Square Std. Error of the Estimate Change Statistics
R Square Change F Change df1 df2 Sig. F Change
1 ,251a ,063 ,063 10,00788 ,063 102,787 1 1524 ,000
2 ,318b ,101 ,100 9,80699 ,038 64,077 1 1523 ,000
3 ,334c ,111 ,110 9,75337 ,010 17,793 1 1522 ,000
4 ,339d ,115 ,112 9,73803 ,003 5,799 1 1521 ,016
a. Predictors: (Constant), tvgratif
b. Predictors: (Constant), tvgratif, Hoeveel jaar heeft u fulltime onderwijs gevolgd?
c. Predictors: (Constant), tvgratif, Hoeveel jaar heeft u fulltime onderwijs gevolgd?, Hoe oud bent u?
d. Predictors: (Constant), tvgratif, Hoeveel jaar heeft u fulltime onderwijs gevolgd?, Hoe oud bent u?, Heeft u een betaalde baan buitenshuis?
e. Dependent Variable: Aantal uren tv kijken per week

ANOVAe
Model Sum of Squares df Mean Square F Sig.
1 Regression 10294,926 1 10294,926 102,787 ,000a
Residual 152640,403 1524 100,158    
Total 162935,329 1525      
2 Regression 16457,646 2 8228,823 85,559 ,000b
Residual 146477,684 1523 96,177    
Total 162935,329 1525      
3 Regression 18150,223 3 6050,074 63,599 ,000c
Residual 144785,107 1522 95,128    
Total 162935,329 1525      
4 Regression 18700,145 4 4675,036 49,300 ,000d
Residual 144235,185 1521 94,829    
Total 162935,329 1525      
a. Predictors: (Constant), tvgratif
b. Predictors: (Constant), tvgratif, Hoeveel jaar heeft u fulltime onderwijs gevolgd?
c. Predictors: (Constant), tvgratif, Hoeveel jaar heeft u fulltime onderwijs gevolgd?, Hoe oud bent u?
d. Predictors: (Constant), tvgratif, Hoeveel jaar heeft u fulltime onderwijs gevolgd?, Hoe oud bent u?, Heeft u een betaalde baan buitenshuis?
e. Dependent Variable: Aantal uren tv kijken per week

Coefficientsa
Model Unstandardized Coefficients Standardized Coefficients t Sig. 95,0% Confidence Interval for B
B Std. Error Beta Lower Bound Upper Bound
1 (Constant) 7,849 ,951   8,253 ,000 5,984 9,715
tvgratif 2,005 ,198 ,251 10,138 ,000 1,617 2,393
2 (Constant) 18,031 1,577   11,435 ,000 14,938 21,125
tvgratif 1,889 ,194 ,237 9,718 ,000 1,507 2,270
Hoeveel jaar heeft u fulltime onderwijs gevolgd? -,589 ,074 -,195 -8,005 ,000 -,733 -,444
3 (Constant) 13,992 1,838   7,614 ,000 10,387 17,596
tvgratif 2,043 ,197 ,256 10,384 ,000 1,657 2,428
Hoeveel jaar heeft u fulltime onderwijs gevolgd? -,535 ,074 -,177 -7,211 ,000 -,681 -,390
Hoe oud bent u? ,068 ,016 ,105 4,218 ,000 ,036 ,099
4 (Constant) 14,976 1,880   7,968 ,000 11,289 18,663
tvgratif 2,012 ,197 ,252 10,221 ,000 1,626 2,398
Hoeveel jaar heeft u fulltime onderwijs gevolgd? -,512 ,075 -,170 -6,857 ,000 -,659 -,366
Hoe oud bent u? ,064 ,016 ,099 3,965 ,000 ,032 ,096
Heeft u een betaalde baan buitenshuis? -1,424 ,591 -,059 -2,408 ,016 -2,584 -,264
a. Dependent Variable: Aantal uren tv kijken per week

De residuen zien er nog ongeveer uit zoals bij het antwoord op vraag a.

Waar het ons om gaat bij deze vraag, is de tabel met de regressiecoëfficiënten. De vraag was of het effect van televisiegratificaties op kijktijd verandert wanneer we de andere onafhankelijke variabelen toevoegen. Dit effect wordt weergegeven door de ongestandaardiseerde b en de gestandaardiseerde b*. Deze worden iets lager wanneer het onderwijsverleden en de betaalde baan worden toegevoegd, maar ze gaan iets omhoog wanneer leeftijd wordt toegevoegd. Deze veranderingen zijn echter erg klein: het televisiekijken neemt steeds ongeveer met 1,9 0f 2,0 uur toe wanneer de televisiegratificatie 1 hoger wordt en dit is een zwak tot matig positief effect (b* = 0,24 to 0,26) in alle modellen.

c. Leg uit wat het verschil is tussen de F-toets en de F Change-toets.

De F-toets is een toets op het hele regressiemodel. De nulhypothese is hier dat alle regressiecoëfficiënten (b) in de populatie nul zijn. Wanneer we er al één hebben die geen nul is in de populatie, is de toets significant en blijft ook significant zolang die onafhankelijke variabele in het regressiemodel zit. Aangezien de als eerste toegevoegde predictor (tv gratificaties) al een significant effect heeft op het aantal uren dat men wekelijks tv kijkt, zijn alle modellen als geheel significant.
De F Change-toets toetst de nulhypothese dat de predictor die als laatste toegevoegd is geen extra variantie van de afhankelijke variabele voorspellen in de populatie. Anders gezegd, dat de toename van R2 in de populatie nul is. Bij een stepwise toevoeging van predictoren aan het regressiemodel wordt de verklarende kracht van de onafhankelijke variabele steeds lager. Het kan dus zijn dat je op een gegeven moment predictoren hebt die niet meer significant bijdragen aan de voorspelling van de afhankelijke variabele. In dit voorbeeld is dit overigens niet het geval: alle vier de onafhankelijke variabelen dragen significant bij aan de voorspelling en worden dus in het model opgenomen.

d. Wat is het aantal respondenten met antwoorden (N) in de verschillende analyses? Waarom zijn er verschillen in dit aantal tussen de analyses?

Bij de regressieanalyse van onderdeel a is het totaal aantal vrijheidsgraden N – 1 = 1546. Het aantal waarnemingen (N) is dus 1547.
Bij onderdeel b is het totaal aantal vrijheidsgraden N – 1 = 1525. Het aantal waarnemingen (N) is dus 1526.
Kortom, bij b hebben we minder waarnemingen dan bij a. De reden is dat bij b respondenten buiten beschouwing worden gelaten die jonger dan 18 jaar zijn of een missing value hebben op een (of meer) van de drie onafhankelijke variabelen die dan toegevoegd worden aan de analyse. Overigens hadden we de kinderen jonger dan 18 jaar bij vraag a ook beter kunnen weglaten. Dit zal trouwens niet veel veranderen aan de resultaten omdat er maar weinig waarnemingen verdwijnen in verhouding tot het totaal aantal waarnemingen.

Syntax

*Syntax bij oefening 6_2.

*Opgave a.
*Schaalconstructie v13 - v19.
*Univariate beschrijving: Frequentieverdelingen voor elke variabele.
FREQUENCIES
  VARIABLES=v13 v14 v15 v16 v17 v18 v19
  /ORDER= ANALYSIS .
*Univariate bewerking: missings (99) definiëren.
*Define Variable Properties.
*v14.
MISSING VALUES v14 ( 99 ).
*v16.
MISSING VALUES v16 ( 99 ).
EXECUTE.
*Factoranalyse (PCA).
FACTOR
  /VARIABLES v13 v14 v15 v16 v17 v18 v19 /MISSING LISTWISE /ANALYSIS v13 v14
  v15 v16 v17 v18 v19
  /PRINT INITIAL EXTRACTION ROTATION
  /PLOT EIGEN
  /CRITERIA MINEIGEN(1) ITERATE(25)
  /EXTRACTION PC
  /CRITERIA ITERATE(25)
  /ROTATION VARIMAX
  /METHOD=CORRELATION .
*NB de factorscores worden nu niet bewaard.
*Betrouwbaarheidsanalyse.
RELIABILITY
  /VARIABLES=v13 v14 v15 v16 v17 v18 v19
  /SCALE('gratificaties van televisie kijken') ALL
  /MODEL=ALPHA
  /STATISTICS=DESCRIPTIVE SCALE
  /SUMMARY=TOTAL.
*Schaalscore berekenen en beschrijven.
COMPUTE tvgratif = MEAN(v13,v14,v15,v16,v17,v18,v19) .
EXECUTE .
*Spreidingsdiagram om de vorm van het verband te bepalen.
GRAPH
  /SCATTERPLOT(BIVAR)=v5 WITH tvgratif
  /MISSING=LISTWISE .
*Regressieanalyse met 1 onafhankelijke variabele.
REGRESSION
  /DESCRIPTIVES MEAN STDDEV CORR SIG N
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS CI(95) R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN
  /DEPENDENT v5
  /METHOD=ENTER tvgratif
  /SCATTERPLOT=(*ZRESID ,*ZPRED)
  /RESIDUALS HIST(ZRESID).

*Opgave b.
*Beschrijven onafhankelijke variabelen.
FREQUENCIES
  VARIABLES=v4baan v3 v73
  /ORDER= ANALYSIS .
*Weglaten kinderen onder 18 jaar.
USE ALL.
COMPUTE filter_$=(v3 > 17).
VARIABLE LABEL filter_$ 'v3 > 17 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
*Spreidingsdiagrammen.
GRAPH
  /SCATTERPLOT(BIVAR)=v3 WITH v5
  /MISSING=LISTWISE .
GRAPH
  /SCATTERPLOT(BIVAR)=v73 WITH v5
  /MISSING=LISTWISE .
REGRESSION
  /DESCRIPTIVES MEAN STDDEV CORR SIG N
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS CI(95) R ANOVA CHANGE
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN
  /DEPENDENT v5
  /METHOD=STEPWISE tvgratif v3 v4baan v73
  /SCATTERPLOT=(*ZRESID ,*ZPRED)
  /RESIDUALS HIST(ZRESID) .