Antwoord bij Oefening 6.6

De afhankelijke en minstens een van de onafhankelijke variabelen (exposure) is numeriek dus moeten we een regressieanalyse uitvoeren.

Eerst controleren we de variabelen op rare waarden en (bij de numerieke variabelen) de vorm van de verdeling (scheefheid en extreme waarden) met behulp van frequentietabellen en grafieken.
Er blijkt een onmogelijke score '16' te zijn bij de variabele waardering. Die markeren we eerst als missing.

Nu controleren we het spreidingsdiagram van waardering met exposure op de vorm van het verband.
Er blijkt een duidelijk krom verband te zijn tussen exposure en waardering: aanvankelijk stijgt de waardering wanneer de exposure stijgt (hoe meer je de song hoort, des te meer ga je de song waarderen), maar vanaf een exposure van ongeveer 12 keer gaat de waardering dalen (je krijgt genoeg van de song).

Het is niet verstandig om hier een lineaire regressie toe te passen. Het enige alternatief dat we in deze cursus hebben voor een analyse waarin we twee onafhankelijke variabelen hebben (exposure en fan) en een numerieke afhankelijke variabele, is 2-factoren variantieanalyse.
Om deze techniek toe te kunnen passen moeten we de numerieke variebele exposure omzetten in een categorische variabelen. We moeten exposure dus in klassen groeperen.
Dit kan op verschillende manieren. We laten twee mogelijkehden zien: exposure verdelen in 2 gelijke groepen en in 3 gelijke groepen.

Exposure in 2 groepen van gelijke omvang

Uit de frequentietabel van exposure kunnen we aflezen dat nagenoeg 50% van de respondenten een score heeft van 1 tot en met 12 en de resterende respondenten een score van 13 tot en met 25. Met RECODE kunnen we een nieuwe variabele maken met deze twee groepen, die we vervolgens in een 2-factoren variantieanalyse kunnen stoppen om waardering te verklaren.
De variantieanalyse levert onderstaande resultaten op. Alleen het fan-zijn heeft een significant, klein tot middelmatig hoofdeffect, F (1, 94) = 54,17, p < 0,001. η2 = 236,881 / 3203 = 0,07. Fans hebben gemiddeld meer waardering (M = 7,39, SD = 1,28) dan niet-fans (M = 4,03, SD = 2,38).
Het hoofdeffect van exposure, F (1, 94) = 1,68, p = 0,537, en het interactie-effect van exposure met fan-zijn, F (1, 94) = 6,37, p = 0,231, zijn niet significant.
We moeten dus concluderen dat beide vermoedens niet uitkomen: over het geheel genomen neemt de waardering niet toe met exposure en dit verband is ook niet sterker aanwezig bij de fans.

Overigens zijn de groepen niet ongeveer even groot (er zijn relatief weinig fans) en mogen we niet uitgaan van gelijke varianties van de groepen in de populatie, F (3, 94) = 4,16, p = 0,008. De voorwaarden voor een variantieanalyse zijn dus geschonden.

Descriptive Statistics
Dependent Variable:Waardering voor de popsong
Respondent is fan van deze muziekstijl Exposure in 2 groepen Mean Std. Deviation N
Geen fan ,00 4,4054 2,43196 37
1,00 3,5667 2,26949 30
Total 4,0299 2,38029 67
Fan ,00 7,2308 ,92681 13
1,00 7,5000 1,50489 18
Total 7,3871 1,28264 31
Total ,00 5,1400 2,47444 50
1,00 5,0417 2,77495 48
Total 5,0918 2,61276 98

Levene's Test of Equality of Error Variancesa
Dependent Variable:Waardering voor de popsong
F df1 df2 Sig.
4,162 3 94 ,008
Tests the null hypothesis that the error variance of the dependent variable is equal across groups.
a. Design: Intercept + fan + expo2 + fan * expo2

Tests of Between-Subjects Effects
Dependent Variable:Waardering voor de popsong
Source Type III Sum of Squares df Mean Square F Sig.
Corrected Model 251,080a 3 83,693 19,137 ,000
Intercept 2672,795 1 2672,795 611,157 ,000
fan 236,881 1 236,881 54,165 ,000
expo2 1,682 1 1,682 ,385 ,537
fan * expo2 6,366 1 6,366 1,456 ,231
Error 411,093 94 4,373    
Total 3203,000 98      
Corrected Total 662,173 97      
a. R Squared = ,379 (Adjusted R Squared = ,359)

Exposure in 3 groepen van gelijke omvang

Uit de frequentietabel van exposure kunnen we aflezen dat we de grenzen moeten leggen tussen 7 en 8 alsmede tussen 15 en 16 om drie groepen te krijgen met ieder eenderde van de waarnemingen. Met RECODE kunnen we een nieuwe variabele maken met deze drie groepen, die we vervolgens in een 2-factoren variantieanalyse kunnen stoppen om waardering te verklaren. Het is nu verstandig om een post-hoc (Bonferroni) toets aan te vragen voor de factor exposure omdat die meer dan twee groepen heeft.
De variantieanalyse levert onderstaande resultaten op. Alle drie de effecten zijn nu significant.
Er is een significant hoofdeffect van het fan-zijn dat klein tot middelmatig is, F (1, 92) = 54,17, p < 0,001, η2 = 79,604 / 3203 = 0,02. Fans hebben gemiddeld meer waardering (M = 7,39, SD = 1,28) dan niet-fans (M = 4,03, SD = 2,38). NB dit is precies hetzelfde resultaat als in de analyse met twee exposuregroepen aangezien er niets veranderd is aan de indeling van de fans tegenover de niet fans. Wel is de sterke van het verband wat afgenomen omdat exposure nu een groter effect heeft.
Het hoofdeffect van exposure is significant en wederom klein tot middelmatig, F (2, 92) = 31,26, p < 0,001, η2 = 133,352 / 3203 = 0,04. Uit de post-hoc toets blijkt dat de respondenten die de song 8 tot 15 keer hebben gehoord (groep 2) gemiddeld meer waardering hebben (M = 7,76, SD = 1,09) dan de respondenten die de song minder dan 8 keer (M = 3,94, SD = 2,14) of vaker dan 15 keer (M = 3,53, SD = 1,98) hoorden. Tussen de laatste twee groepen is er geen significant verschil.
Het interactie-effect van exposure met fan-zijn, F (2, 92) = 15,65, p < 0,001, η2 = 66,739 / 3203 = 0,02, is nu ook significant maar zwak tot middelmatig. Alleen voor de niet-fans geldt dat groep 2 gemiddeld duidelijk hoger (M = 8,00, SD = 0,89) scoort dan de andere twee groepen (groep 1: M = 3,50, SD = 1,68) en (groep 3: M = 2,96, SD = 1,71). Om dit verschil te toetsen, moet je de meervoudige vergelijking met Bonferroni correctie voor de subgroepen van het interactie-effect opvragen door met de hand het commando /EMMEANS=TABLES(fan BY expo3) COMPARE(expo3) ADJ(BONFERRONI) toe te voegen aan de syntax van de variantieanalyse. NB dit is geen verplichte stof.
De vermoedens komen niet echt uit; de werkelijkheid lijkt iets ingewikkelder dan verwacht. De waardering neemt toe met de exposure tot een bepaald maximum (ongeveer 8 tot 15 jeer de song horen), waarna de waardering afneemt. Dit verband tussen exposure en waardering geldt niet sterker voor de fans. In tegendeel, het lijkt alleen voor de niet-fans te gelden. Bij de fans lijkt exposure er niet toe te doen.

Hier blijkt dat het nogal kan uitmaken hoe je de onafhankelijke variabele (hier: exposure) in groepen indeelt. Effecten die bij een indeling in twee groepen niet significant zijn, zijn dat wel bij een indeling in drie groepen.

NB weer blijken de groepen bepaald niet even groot en is de toets op gelijke varianmties in de populatie significant. De voorwaarden voor variantieanalyse worden geschonden.

Descriptive Statistics
Dependent Variable:Waardering voor de popsong
Respondent is fan van deze muziekstijl Exposure in 3 groepen Mean Std. Deviation N
Geen fan 1,00 3,5000 1,67641 30
2,00 8,0000 ,89443 11
3,00 2,9615 1,70835 26
Total 4,0299 2,38029 67
Fan 1,00 8,3333 ,57735 3
2,00 7,6364 1,17698 22
3,00 6,0000 ,89443 6
Total 7,3871 1,28264 31
Total 1,00 3,9394 2,13511 33
2,00 7,7576 1,09059 33
3,00 3,5312 1,98355 32
Total 5,0918 2,61276 98

Levene's Test of Equality of Error Variancesa
Dependent Variable:Waardering voor de popsong
F df1 df2 Sig.
3,206 5 92 ,010
Tests the null hypothesis that the error variance of the dependent variable is equal across groups.
a. Design: Intercept + fan + expo3 + fan * expo3

Tests of Between-Subjects Effects
Dependent Variable:Waardering voor de popsong
Source Type III Sum of Squares df Mean Square F Sig.
Corrected Model 465,954a 5 93,191 43,694 ,000
Intercept 1874,206 1 1874,206 878,747 ,000
fan 79,604 1 79,604 37,324 ,000
expo3 133,352 2 66,676 31,262 ,000
fan * expo3 66,739 2 33,369 15,646 ,000
Error 196,219 92 2,133    
Total 3203,000 98      
Corrected Total 662,173 97      
a. R Squared = ,704 (Adjusted R Squared = ,688)

Multiple Comparisons
Waardering voor de popsong
Bonferroni
(I) Exposure in 3 groepen (J) Exposure in 3 groepen Mean Difference (I-J) Std. Error Sig. 95% Confidence Interval
Lower Bound Upper Bound
1,00 2,00 -3,8182* ,35953 ,000 -4,6949 -2,9415
3,00 ,4081 ,36233 ,789 -,4754 1,2917
2,00 1,00 3,8182* ,35953 ,000 2,9415 4,6949
3,00 4,2263* ,36233 ,000 3,3428 5,1099
3,00 1,00 -,4081 ,36233 ,789 -1,2917 ,4754
2,00 -4,2263* ,36233 ,000 -5,1099 -3,3428
Based on observed means.
The error term is Mean Square(Error) = 2,133.
*. The mean difference is significant at the ,05 level.

Wanneer je met de hand de syntax hebt toegevoegd voor meervoudige vergelijkingen bij het interactie-effect, krijg je ook onderstaande tabel in de output van SPSS.

Pairwise Comparisons
Dependent Variable:Waardering voor de popsong
Respondent is fan van deze muziekstijl (I) Exposure in 3 groepen (J) Exposure in 3 groepen Mean Difference (I-J) Std. Error Sig.a 95% Confidence Interval for Differencea
Lower Bound Upper Bound
Geen fan 1,00 2,00 -4,500* ,515 ,000 -5,755 -3,245
3,00 ,538 ,391 ,516 -,416 1,493
2,00 1,00 4,500* ,515 ,000 3,245 5,755
3,00 5,038* ,525 ,000 3,758 6,319
3,00 1,00 -,538 ,391 ,516 -1,493 ,416
2,00 -5,038* ,525 ,000 -6,319 -3,758
Fan 1,00 2,00 ,697 ,899 1,000 -1,495 2,889
3,00 2,333 1,033 ,079 -,185 4,852
2,00 1,00 -,697 ,899 1,000 -2,889 1,495
3,00 1,636 ,673 ,051 -,004 3,277
3,00 1,00 -2,333 1,033 ,079 -4,852 ,185
2,00 -1,636 ,673 ,051 -3,277 ,004
Based on estimated marginal means
*. The mean difference is significant at the ,05 level.
a. Adjustment for multiple comparisons: Bonferroni.

Voor de liefhebbers

Het verband tussen exposure en waardering, dat te zien is in het eerste spreidingsdiagram, lijkt op een parabool. Een kwadratisch in plaats van een lineair model zal dit verband veel beter weergeven.
Het is mogelijk om in een regressieanalyse een kwadratisch verband te toetsen door het kwadraat van exposure ook als onafhankelijke variabele in het regressiemodel op te nemen. Het is wel belangrijk dat je de exposure variabele dan eerst centreert, d.w.z. ervoor zorgt dat het gemiddelde 0 wordt, anders ontstaat er een heel sterke correlatie tussen exposure en zijn kwadraat, wat multicollineariteit en schattingsproblemen oplevert. In dit voorbeeld krijg je bijvoorbeeld gestandaardiseerde regressiecoëfficiënten boven 1 en onder -1, wat niet kan kloppen, wanneer je exposure niet eerst centreert.
Je krijgt een gecentreerde versie van exposure door het gemiddelde van deze variabele (11,272) af te trekken van alle scores op deze variabele. Maak vervolgens een extra variabele met het kwadraat van deze gecentreerde exposure en gebruik beide gecentreerde variabelen in de regressie, waarin je ook de variabele 'fan' kunt meenemen.
Het resultaat staat hieronder. Het is duidelijk dat dit kwadratisch model veel beter past (R2 = 0,79) dan het lineaire model. De interpretatie van het lineaire effect van exposure - voor elke keer extra exposure stijgt de waardering over het geheel genomen met 0,065 - moet nu samengevoegd worden met de interpretatie van het effect van het kwadraat van exposure en dat is nogal lastig.
Omdat het kwadraat van exposure hier een veel sterker effect (b* = -0,84) heeft dan het lineaire effect van exposure (b* = 0,19), bepaalt het kwadratische effect de vorm van het verband meer dan het lineaire effect. Het is daarom voldoende om het kwadratische effect te interpreteren, waarbij we eigenlijk alleen naar het teken kijken: het negatieve teken geeft aan dat het een bergparabool is dus dat de waardering eerst stijgt met toenemende exposure maar daarna daalt.

Model Summaryb
Model R R Square Adjusted R Square Std. Error of the Estimate
1 ,890a ,792 ,785 1,21091
a. Predictors: (Constant), Exposure in het kwadraat, exposure1, Respondent is fan van deze muziekstijl
b. Dependent Variable: Waardering voor de popsong

ANOVAb
Model Sum of Squares df Mean Square F Sig.
1 Regression 524,340 3 174,780 119,197 ,000a
Residual 137,833 94 1,466    
Total 662,173 97      
a. Predictors: (Constant), Exposure in het kwadraat, exposure1, Respondent is fan van deze muziekstijl
b. Dependent Variable: Waardering voor de popsong

Coefficientsa
Model Unstandardized Coefficients Standardized Coefficients t Sig. 95,0% Confidence Interval for B
B Std. Error Beta Lower Bound Upper Bound
1 (Constant) 7,158 ,270   26,510 ,000 6,622 7,694
Respondent is fan van deze muziekstijl ,792 ,322 ,142 2,457 ,016 ,152 1,432
exposure1 ,065 ,018 ,187 3,638 ,000 ,030 ,101
Exposure in het kwadraat -,042 ,003 -,843 -13,803 ,000 -,048 -,036
a. Dependent Variable: Waardering voor de popsong

Syntax

*Oefening 6_6.

*Controleren van de variabelen.
FREQUENCIES VARIABLES=waardering exposure fan
  /STATISTICS=SKEWNESS SESKEW
  /ORDER=ANALYSIS.
*Missing value voor waardering = 16.
* Define Variable Properties.
*waardering.
MISSING VALUES waardering(16.00).
EXECUTE.
*Controle van het spreidingsdiagram.
GRAPH
  /SCATTERPLOT(BIVAR)=exposure WITH waardering
  /MISSING=LISTWISE.

*Variantieanalyse met 2 exposure groepen.
RECODE exposure (Lowest thru 12=0) (13 thru Highest=1) INTO expo2.
VARIABLE LABELS expo2 'Exposure in 2 groepen'.
EXECUTE.
UNIANOVA waardering BY fan expo2
  /METHOD=SSTYPE(3)
  /INTERCEPT=INCLUDE
  /PLOT=PROFILE(expo2*fan)
  /PRINT=HOMOGENEITY DESCRIPTIVE
  /CRITERIA=ALPHA(.05)
  /DESIGN=fan expo2 fan*expo2.

*Variantieanalyse met 3 exposure groepen.
RECODE exposure (Lowest thru 7=1) (8 thru 15=2) (16 thru Highest=3) INTO expo3.
VARIABLE LABELS expo3 'Exposure in 3 groepen'.
EXECUTE.
UNIANOVA waardering BY fan expo3
  /METHOD=SSTYPE(3)
  /INTERCEPT=INCLUDE
  /POSTHOC=expo3(BONFERRONI)
  /EMMEANS=TABLES(fan BY expo3) COMPARE(expo3) ADJ(BONFERRONI)
  /PLOT=PROFILE(expo3*fan)
  /PRINT=HOMOGENEITY DESCRIPTIVE
  /CRITERIA=ALPHA(.05)
  /DESIGN=fan expo3 fan*expo3.

*Voor de liefhebbers: een kwadratisch verband in een regressieanalyse.
*Centreren: bepaal het gemiddelde van exposure en trek dit van de variabele af.
FREQUENCIES VARIABLES=exposure
  /FORMAT=NOTABLE
  /STATISTICS=MEAN
  /ORDER=ANALYSIS.
COMPUTE exposure1=exposure - 11.272.
VARIABLE LABELS exposure 'Exposure gecentreerd'.
EXECUTE.
*Maak een nieuwe variabele met het kwadraat van exposure.
COMPUTE exposure2=exposure1 ** 2.
VARIABLE LABELS exposure2 'Exposure in het kwadraat'.
EXECUTE.
*Regressieanalyse met lineaire en kwadratische component.
REGRESSION
  /DESCRIPTIVES MEAN STDDEV CORR SIG N
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS CI(95) R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN
  /DEPENDENT waardering
  /METHOD=ENTER fan exposure1 exposure2
  /SCATTERPLOT=(*ZRESID ,*ZPRED)
  /RESIDUALS HIST(ZRESID).