a. Een onderzoeker verwacht dat naarmate televisie kijken meer in de behoeften voorziet (v13 t/m v19), men meer televisie kijkt (v5uur, v5min, v6uur, v6min). Ga na of de verwachting van de onderzoeker klopt.
Eerste moet je een schaal construeren voor de mate waarin televisie de behoeften bevredigt (gratificaties van het tv kijken, o.a. oefening 1.7).
Bekijk vervolgens het spreidingsdiagram om uit te sluiten dat er een duidelijk krom verband is tussen televisiegratificaties en kijktijd.
Om de onderzoeksvraag te beantwoorden kun je kiezen uit een correlatiecoëfficiënt (wanneer je denkt dat het verband symmetrisch is) en een regressieanalyse (wanneer je een asymmetrisch verband wilt onderzoeken). Uit de inleidende tekst van de oefening wordt duidelijk dat het de bedoeling is om oorzaken van televisiekijktijd te zoeken. Dan is de asymmetrische regressieanalyse de betere techniek.
De resultaten:
Model Summary | ||||
Model | R | R Square | Adjusted R Square | Std. Error of the Estimate |
1 | ,250a | ,063 | ,062 | 10,16007 |
a. Predictors: (Constant), tvgratif |
ANOVAb | ||||||
Model | Sum of Squares | df | Mean Square | F | Sig. | |
1 | Regression | 10664,840 | 1 | 10664,840 | 103,314 | ,000a |
Residual | 159485,699 | 1545 | 103,227 |   |   | |
Total | 170150,539 | 1546 |   |   |   | |
a. Predictors: (Constant), tvgratif | ||||||
b. Dependent Variable: Aantal uren tv kijken per week |
Coefficientsa | ||||||||
Model | Unstandardized Coefficients | Standardized Coefficients | t | Sig. | 95,0% Confidence Interval for B | |||
B | Std. Error | Beta | Lower Bound | Upper Bound | ||||
1 | (Constant) | 7,817 | ,960 |   | 8,140 | ,000 | 5,934 | 9,701 |
tvgratif | 2,026 | ,199 | ,250 | 10,164 | ,000 | 1,635 | 2,417 | |
a. Dependent Variable: Aantal uren tv kijken per week |
De residuen zijn aardig normaal verdeeld al is de linker staart erg kort in vergelijking met de rechter staart. De spreiding in de residuen lijkt iets groter bij de hogere voorspelde waarden dan de laagste voospelde waarden: de puntenwolk lijkt iets 'dikker' te worden naar rechts toe. Beide afwijkingen van de voorwaarden zijn erg gering en staan een toepassing van regressieanalyse niet in de weg.
Conclusie: "Er is een significant zwak positief effect van de gratificaties van het televisiekijken op het aantal uren dat Nederlanders gemiddeld televisiekijken, b* = 0,25, t = 10,16, p < 0,001. De onderzoeker heeft gelijk: naarmate televisiekijken meer de behoeften vervult, kijkt men meer televisie. Om preciezer te zijn: een extra punt op de schaal voor gratificaties van televisiekijken, die loopt van 1 tot 9, levert gemiddeld ongeveer 2 uur extra televisiekijken per week op, 95% CI [1,64, 2,42]."
b. Verandert het verband tussen behoeftevervulling en de tijd dat men televisie kijkt wanneer je controleert voor het hebben van betaald werk (v4baan), het aantal jaren onderwijs dat men heeft genoten (v73) en leeftijd (v3)? Voeg deze onafhankelijke variabelen stapsgewijs toe aan het regressiemodel.
Beschrijf eerst de variabelen. Kinderen onder de 18 jaar oud moeten we weglaten omdat de enquête niet voor hen bedoeld was. Verder zijn er geen eigenaardigheden.
De scheefheid van de twee numerieke variabelen (leeftijd en onderwijsverleden) zijn nu in orde. Hun verband met televisiekijktijd is niet duidelijk krom en er zijn geen duidelijke uitbijters in de spreidingsdiagrammen.
De categorische variabele v4baan is een dichotomie met de waarden 0 (niet) en 1 (wel). Deze kan dus als dummyvariabele toegevoegd worden in de regressieanalyse.
Bekijk ook in spreidingsdiagrammen of er een lineair verband kan zijn met de hoeveelheid tijd die men televisie kijkt. De puntenwolken zijn niet duidelijk krom, dus een rechte lijn kan passen. Overigens zijn sommige puntenwoken erg vormloos, zodat we niet altijd een duidelijk verband tussen de onafhankelijke en de afhankelijke variabele hoeven te verwachten.
De regressieanalyse kan nu uitgevoerd worden met de optie STEPWISE achter METHOD:.
In feite worden er nu vier regressieanalyses direct achter elkaar uitgevoerd. De eerste keer wordt alleen gratificaties van het televisiekijken als onafhankelijke variabele gebruikt. Daar wordt in de tweede analyse het onderwijsverleden aan toegevoegd, enzovoorts. Deze stappen (modellen) worden weergegeven in de eerste tabel van de SPSS output.
Model Summarye | |||||||||
Model | R | R Square | Adjusted R Square | Std. Error of the Estimate | Change Statistics | ||||
R Square Change | F Change | df1 | df2 | Sig. F Change | |||||
1 | ,251a | ,063 | ,063 | 10,00788 | ,063 | 102,787 | 1 | 1524 | ,000 |
2 | ,318b | ,101 | ,100 | 9,80699 | ,038 | 64,077 | 1 | 1523 | ,000 |
3 | ,334c | ,111 | ,110 | 9,75337 | ,010 | 17,793 | 1 | 1522 | ,000 |
4 | ,339d | ,115 | ,112 | 9,73803 | ,003 | 5,799 | 1 | 1521 | ,016 |
a. Predictors: (Constant), tvgratif | |||||||||
b. Predictors: (Constant), tvgratif, Hoeveel jaar heeft u fulltime onderwijs gevolgd? | |||||||||
c. Predictors: (Constant), tvgratif, Hoeveel jaar heeft u fulltime onderwijs gevolgd?, Hoe oud bent u? | |||||||||
d. Predictors: (Constant), tvgratif, Hoeveel jaar heeft u fulltime onderwijs gevolgd?, Hoe oud bent u?, Heeft u een betaalde baan buitenshuis? | |||||||||
e. Dependent Variable: Aantal uren tv kijken per week |
ANOVAe | ||||||
Model | Sum of Squares | df | Mean Square | F | Sig. | |
1 | Regression | 10294,926 | 1 | 10294,926 | 102,787 | ,000a |
Residual | 152640,403 | 1524 | 100,158 |   |   | |
Total | 162935,329 | 1525 |   |   |   | |
2 | Regression | 16457,646 | 2 | 8228,823 | 85,559 | ,000b |
Residual | 146477,684 | 1523 | 96,177 |   |   | |
Total | 162935,329 | 1525 |   |   |   | |
3 | Regression | 18150,223 | 3 | 6050,074 | 63,599 | ,000c |
Residual | 144785,107 | 1522 | 95,128 |   |   | |
Total | 162935,329 | 1525 |   |   |   | |
4 | Regression | 18700,145 | 4 | 4675,036 | 49,300 | ,000d |
Residual | 144235,185 | 1521 | 94,829 |   |   | |
Total | 162935,329 | 1525 |   |   |   | |
a. Predictors: (Constant), tvgratif | ||||||
b. Predictors: (Constant), tvgratif, Hoeveel jaar heeft u fulltime onderwijs gevolgd? | ||||||
c. Predictors: (Constant), tvgratif, Hoeveel jaar heeft u fulltime onderwijs gevolgd?, Hoe oud bent u? | ||||||
d. Predictors: (Constant), tvgratif, Hoeveel jaar heeft u fulltime onderwijs gevolgd?, Hoe oud bent u?, Heeft u een betaalde baan buitenshuis? | ||||||
e. Dependent Variable: Aantal uren tv kijken per week |
Coefficientsa | ||||||||
Model | Unstandardized Coefficients | Standardized Coefficients | t | Sig. | 95,0% Confidence Interval for B | |||
B | Std. Error | Beta | Lower Bound | Upper Bound | ||||
1 | (Constant) | 7,849 | ,951 |   | 8,253 | ,000 | 5,984 | 9,715 |
tvgratif | 2,005 | ,198 | ,251 | 10,138 | ,000 | 1,617 | 2,393 | |
2 | (Constant) | 18,031 | 1,577 |   | 11,435 | ,000 | 14,938 | 21,125 |
tvgratif | 1,889 | ,194 | ,237 | 9,718 | ,000 | 1,507 | 2,270 | |
Hoeveel jaar heeft u fulltime onderwijs gevolgd? | -,589 | ,074 | -,195 | -8,005 | ,000 | -,733 | -,444 | |
3 | (Constant) | 13,992 | 1,838 |   | 7,614 | ,000 | 10,387 | 17,596 |
tvgratif | 2,043 | ,197 | ,256 | 10,384 | ,000 | 1,657 | 2,428 | |
Hoeveel jaar heeft u fulltime onderwijs gevolgd? | -,535 | ,074 | -,177 | -7,211 | ,000 | -,681 | -,390 | |
Hoe oud bent u? | ,068 | ,016 | ,105 | 4,218 | ,000 | ,036 | ,099 | |
4 | (Constant) | 14,976 | 1,880 |   | 7,968 | ,000 | 11,289 | 18,663 |
tvgratif | 2,012 | ,197 | ,252 | 10,221 | ,000 | 1,626 | 2,398 | |
Hoeveel jaar heeft u fulltime onderwijs gevolgd? | -,512 | ,075 | -,170 | -6,857 | ,000 | -,659 | -,366 | |
Hoe oud bent u? | ,064 | ,016 | ,099 | 3,965 | ,000 | ,032 | ,096 | |
Heeft u een betaalde baan buitenshuis? | -1,424 | ,591 | -,059 | -2,408 | ,016 | -2,584 | -,264 | |
a. Dependent Variable: Aantal uren tv kijken per week |
De residuen zien er nog ongeveer uit zoals bij het antwoord op vraag a.
Waar het ons om gaat bij deze vraag, is de tabel met de regressiecoëfficiënten. De vraag was of het effect van televisiegratificaties op kijktijd verandert wanneer we de andere onafhankelijke variabelen toevoegen. Dit effect wordt weergegeven door de ongestandaardiseerde b en de gestandaardiseerde b*. Deze worden iets lager wanneer het onderwijsverleden en de betaalde baan worden toegevoegd, maar ze gaan iets omhoog wanneer leeftijd wordt toegevoegd. Deze veranderingen zijn echter erg klein: het televisiekijken neemt steeds ongeveer met 1,9 0f 2,0 uur toe wanneer de televisiegratificatie 1 hoger wordt en dit is een zwak tot matig positief effect (b* = 0,24 to 0,26) in alle modellen.
c. Leg uit wat het verschil is tussen de F-toets en de F Change-toets.
De F-toets is een toets op het hele regressiemodel. De nulhypothese is hier dat alle regressiecoëfficiënten (b) in de populatie nul zijn. Wanneer we er al één hebben die geen nul is in de populatie, is de toets significant en blijft ook significant zolang die onafhankelijke variabele in het regressiemodel zit. Aangezien de als eerste toegevoegde predictor (tv gratificaties) al een significant effect heeft op het aantal uren dat men wekelijks tv kijkt, zijn alle modellen als geheel significant.
De F Change-toets toetst de nulhypothese dat de predictor die als laatste toegevoegd is geen extra variantie van de afhankelijke variabele voorspellen in de populatie. Anders gezegd, dat de toename van R2 in de populatie nul is. Bij een stepwise toevoeging van predictoren aan het regressiemodel wordt de verklarende kracht van de onafhankelijke variabele steeds lager. Het kan dus zijn dat je op een gegeven moment predictoren hebt die niet meer significant bijdragen aan de voorspelling van de afhankelijke variabele. In dit voorbeeld is dit overigens niet het geval: alle vier de onafhankelijke variabelen dragen significant bij aan de voorspelling en worden dus in het model opgenomen.
d. Wat is het aantal respondenten met antwoorden (N) in de verschillende analyses? Waarom zijn er verschillen in dit aantal tussen de analyses?
Bij de regressieanalyse van onderdeel a is het totaal aantal vrijheidsgraden N – 1 = 1546. Het aantal waarnemingen (N) is dus 1547.
Bij onderdeel b is het totaal aantal vrijheidsgraden N – 1 = 1525. Het aantal waarnemingen (N) is dus 1526.
Kortom, bij b hebben we minder waarnemingen dan bij a. De reden is dat bij b respondenten buiten beschouwing worden gelaten die jonger dan 18 jaar zijn of een missing value hebben op een (of meer) van de drie onafhankelijke variabelen die dan toegevoegd worden aan de analyse. Overigens hadden we de kinderen jonger dan 18 jaar bij vraag a ook beter kunnen weglaten. Dit zal trouwens niet veel veranderen aan de resultaten omdat er maar weinig waarnemingen verdwijnen in verhouding tot het totaal aantal waarnemingen.
*Syntax bij oefening 6_2.
*Opgave a.
*Schaalconstructie v13 - v19.
*Univariate beschrijving: Frequentieverdelingen voor elke variabele.
FREQUENCIES
VARIABLES=v13 v14 v15 v16 v17 v18 v19
/ORDER= ANALYSIS .
*Univariate bewerking: missings (99) definiëren.
*Define Variable Properties.
*v14.
MISSING VALUES v14 ( 99 ).
*v16.
MISSING VALUES v16 ( 99 ).
EXECUTE.
*Factoranalyse (PCA).
FACTOR
/VARIABLES v13 v14 v15 v16 v17 v18 v19 /MISSING LISTWISE /ANALYSIS v13 v14
v15 v16 v17 v18 v19
/PRINT INITIAL EXTRACTION ROTATION
/PLOT EIGEN
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC
/CRITERIA ITERATE(25)
/ROTATION VARIMAX
/METHOD=CORRELATION .
*NB de factorscores worden nu niet bewaard.
*Betrouwbaarheidsanalyse.
RELIABILITY
/VARIABLES=v13 v14 v15 v16 v17 v18 v19
/SCALE('gratificaties van televisie kijken') ALL
/MODEL=ALPHA
/STATISTICS=DESCRIPTIVE SCALE
/SUMMARY=TOTAL.
*Schaalscore berekenen en beschrijven.
COMPUTE tvgratif = MEAN(v13,v14,v15,v16,v17,v18,v19) .
EXECUTE .
*Spreidingsdiagram om de vorm van het verband te bepalen.
GRAPH
/SCATTERPLOT(BIVAR)=v5 WITH tvgratif
/MISSING=LISTWISE .
*Regressieanalyse met 1 onafhankelijke variabele.
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT v5
/METHOD=ENTER tvgratif
/SCATTERPLOT=(*ZRESID ,*ZPRED)
/RESIDUALS HIST(ZRESID).
*Opgave b.
*Beschrijven onafhankelijke variabelen.
FREQUENCIES
VARIABLES=v4baan v3 v73
/ORDER= ANALYSIS .
*Weglaten kinderen onder 18 jaar.
USE ALL.
COMPUTE filter_$=(v3 > 17).
VARIABLE LABEL filter_$ 'v3 > 17 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
*Spreidingsdiagrammen.
GRAPH
/SCATTERPLOT(BIVAR)=v3 WITH v5
/MISSING=LISTWISE .
GRAPH
/SCATTERPLOT(BIVAR)=v73 WITH v5
/MISSING=LISTWISE .
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA CHANGE
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT v5
/METHOD=STEPWISE tvgratif v3 v4baan v73
/SCATTERPLOT=(*ZRESID ,*ZPRED)
/RESIDUALS HIST(ZRESID) .