De afhankelijke en minstens een van de onafhankelijke variabelen (exposure) is numeriek dus moeten we een regressieanalyse uitvoeren.
Eerst controleren we de variabelen op rare waarden en (bij de numerieke variabelen) de vorm van de verdeling (scheefheid en extreme waarden) met behulp van frequentietabellen en grafieken.
Er blijkt een onmogelijke score '16' te zijn bij de variabele waardering. Die markeren we eerst als missing.
Nu controleren we het spreidingsdiagram van waardering met exposure op de vorm van het verband.
Er blijkt een duidelijk krom verband te zijn tussen exposure en waardering: aanvankelijk stijgt de waardering wanneer de exposure stijgt (hoe meer je de song hoort, des te meer ga je de song waarderen), maar vanaf een exposure van ongeveer 12 keer gaat de waardering dalen (je krijgt genoeg van de song).
Het is niet verstandig om hier een lineaire regressie toe te passen. Het enige alternatief dat we in deze cursus hebben voor een analyse waarin we twee onafhankelijke variabelen hebben (exposure en fan) en een numerieke afhankelijke variabele, is 2-factoren variantieanalyse.
Om deze techniek toe te kunnen passen moeten we de numerieke variebele exposure omzetten in een categorische variabelen. We moeten exposure dus in klassen groeperen.
Dit kan op verschillende manieren. We laten twee mogelijkehden zien: exposure verdelen in 2 gelijke groepen en in 3 gelijke groepen.
Uit de frequentietabel van exposure kunnen we aflezen dat nagenoeg 50% van de respondenten een score heeft van 1 tot en met 12 en de resterende respondenten een score van 13 tot en met 25. Met RECODE kunnen we een nieuwe variabele maken met deze twee groepen, die we vervolgens in een 2-factoren variantieanalyse kunnen stoppen om waardering te verklaren.
De variantieanalyse levert onderstaande resultaten op. Alleen het fan-zijn heeft een significant, klein tot middelmatig hoofdeffect, F (1, 94) = 54,17, p < 0,001. η2 = 236,881 / 3203 = 0,07. Fans hebben gemiddeld meer waardering (M = 7,39, SD = 1,28) dan niet-fans (M = 4,03, SD = 2,38).
Het hoofdeffect van exposure, F (1, 94) = 1,68, p = 0,537, en het interactie-effect van exposure met fan-zijn, F (1, 94) = 6,37, p = 0,231, zijn niet significant.
We moeten dus concluderen dat beide vermoedens niet uitkomen: over het geheel genomen neemt de waardering niet toe met exposure en dit verband is ook niet sterker aanwezig bij de fans.
Overigens zijn de groepen niet ongeveer even groot (er zijn relatief weinig fans) en mogen we niet uitgaan van gelijke varianties van de groepen in de populatie, F (3, 94) = 4,16, p = 0,008. De voorwaarden voor een variantieanalyse zijn dus geschonden.
Descriptive Statistics | ||||
Dependent Variable:Waardering voor de popsong | ||||
Respondent is fan van deze muziekstijl | Exposure in 2 groepen | Mean | Std. Deviation | N |
Geen fan | ,00 | 4,4054 | 2,43196 | 37 |
1,00 | 3,5667 | 2,26949 | 30 | |
Total | 4,0299 | 2,38029 | 67 | |
Fan | ,00 | 7,2308 | ,92681 | 13 |
1,00 | 7,5000 | 1,50489 | 18 | |
Total | 7,3871 | 1,28264 | 31 | |
Total | ,00 | 5,1400 | 2,47444 | 50 |
1,00 | 5,0417 | 2,77495 | 48 | |
Total | 5,0918 | 2,61276 | 98 |
Levene's Test of Equality of Error Variancesa | |||
Dependent Variable:Waardering voor de popsong | |||
F | df1 | df2 | Sig. |
4,162 | 3 | 94 | ,008 |
Tests the null hypothesis that the error variance of the dependent variable is equal across groups. | |||
a. Design: Intercept + fan + expo2 + fan * expo2 |
Tests of Between-Subjects Effects | |||||
Dependent Variable:Waardering voor de popsong | |||||
Source | Type III Sum of Squares | df | Mean Square | F | Sig. |
Corrected Model | 251,080a | 3 | 83,693 | 19,137 | ,000 |
Intercept | 2672,795 | 1 | 2672,795 | 611,157 | ,000 |
fan | 236,881 | 1 | 236,881 | 54,165 | ,000 |
expo2 | 1,682 | 1 | 1,682 | ,385 | ,537 |
fan * expo2 | 6,366 | 1 | 6,366 | 1,456 | ,231 |
Error | 411,093 | 94 | 4,373 |   |   |
Total | 3203,000 | 98 |   |   |   |
Corrected Total | 662,173 | 97 |   |   |   |
a. R Squared = ,379 (Adjusted R Squared = ,359) |
Uit de frequentietabel van exposure kunnen we aflezen dat we de grenzen moeten leggen tussen 7 en 8 alsmede tussen 15 en 16 om drie groepen te krijgen met ieder eenderde van de waarnemingen. Met RECODE kunnen we een nieuwe variabele maken met deze drie groepen, die we vervolgens in een 2-factoren variantieanalyse kunnen stoppen om waardering te verklaren. Het is nu verstandig om een post-hoc (Bonferroni) toets aan te vragen voor de factor exposure omdat die meer dan twee groepen heeft.
De variantieanalyse levert onderstaande resultaten op. Alle drie de effecten zijn nu significant.
Er is een significant hoofdeffect van het fan-zijn dat klein tot middelmatig is, F (1, 92) = 54,17, p < 0,001, η2 = 79,604 / 3203 = 0,02. Fans hebben gemiddeld meer waardering (M = 7,39, SD = 1,28) dan niet-fans (M = 4,03, SD = 2,38). NB dit is precies hetzelfde resultaat als in de analyse met twee exposuregroepen aangezien er niets veranderd is aan de indeling van de fans tegenover de niet fans. Wel is de sterke van het verband wat afgenomen omdat exposure nu een groter effect heeft.
Het hoofdeffect van exposure is significant en wederom klein tot middelmatig, F (2, 92) = 31,26, p < 0,001, η2 = 133,352 / 3203 = 0,04. Uit de post-hoc toets blijkt dat de respondenten die de song 8 tot 15 keer hebben gehoord (groep 2) gemiddeld meer waardering hebben (M = 7,76, SD = 1,09) dan de respondenten die de song minder dan 8 keer (M = 3,94, SD = 2,14) of vaker dan 15 keer (M = 3,53, SD = 1,98) hoorden. Tussen de laatste twee groepen is er geen significant verschil.
Het interactie-effect van exposure met fan-zijn, F (2, 92) = 15,65, p < 0,001, η2 = 66,739 / 3203 = 0,02, is nu ook significant maar zwak tot middelmatig. Alleen voor de niet-fans geldt dat groep 2 gemiddeld duidelijk hoger (M = 8,00, SD = 0,89) scoort dan de andere twee groepen (groep 1: M = 3,50, SD = 1,68) en (groep 3: M = 2,96, SD = 1,71). Om dit verschil te toetsen, moet je de meervoudige vergelijking met Bonferroni correctie voor de subgroepen van het interactie-effect opvragen door met de hand het commando /EMMEANS=TABLES(fan BY expo3) COMPARE(expo3) ADJ(BONFERRONI)
toe te voegen aan de syntax van de variantieanalyse. NB dit is geen verplichte stof.
De vermoedens komen niet echt uit; de werkelijkheid lijkt iets ingewikkelder dan verwacht. De waardering neemt toe met de exposure tot een bepaald maximum (ongeveer 8 tot 15 jeer de song horen), waarna de waardering afneemt. Dit verband tussen exposure en waardering geldt niet sterker voor de fans. In tegendeel, het lijkt alleen voor de niet-fans te gelden. Bij de fans lijkt exposure er niet toe te doen.
Hier blijkt dat het nogal kan uitmaken hoe je de onafhankelijke variabele (hier: exposure) in groepen indeelt. Effecten die bij een indeling in twee groepen niet significant zijn, zijn dat wel bij een indeling in drie groepen.
NB weer blijken de groepen bepaald niet even groot en is de toets op gelijke varianmties in de populatie significant. De voorwaarden voor variantieanalyse worden geschonden.
Descriptive Statistics | ||||
Dependent Variable:Waardering voor de popsong | ||||
Respondent is fan van deze muziekstijl | Exposure in 3 groepen | Mean | Std. Deviation | N |
Geen fan | 1,00 | 3,5000 | 1,67641 | 30 |
2,00 | 8,0000 | ,89443 | 11 | |
3,00 | 2,9615 | 1,70835 | 26 | |
Total | 4,0299 | 2,38029 | 67 | |
Fan | 1,00 | 8,3333 | ,57735 | 3 |
2,00 | 7,6364 | 1,17698 | 22 | |
3,00 | 6,0000 | ,89443 | 6 | |
Total | 7,3871 | 1,28264 | 31 | |
Total | 1,00 | 3,9394 | 2,13511 | 33 |
2,00 | 7,7576 | 1,09059 | 33 | |
3,00 | 3,5312 | 1,98355 | 32 | |
Total | 5,0918 | 2,61276 | 98 |
Levene's Test of Equality of Error Variancesa | |||
Dependent Variable:Waardering voor de popsong | |||
F | df1 | df2 | Sig. |
3,206 | 5 | 92 | ,010 |
Tests the null hypothesis that the error variance of the dependent variable is equal across groups. | |||
a. Design: Intercept + fan + expo3 + fan * expo3 |
Tests of Between-Subjects Effects | |||||
Dependent Variable:Waardering voor de popsong | |||||
Source | Type III Sum of Squares | df | Mean Square | F | Sig. |
Corrected Model | 465,954a | 5 | 93,191 | 43,694 | ,000 |
Intercept | 1874,206 | 1 | 1874,206 | 878,747 | ,000 |
fan | 79,604 | 1 | 79,604 | 37,324 | ,000 |
expo3 | 133,352 | 2 | 66,676 | 31,262 | ,000 |
fan * expo3 | 66,739 | 2 | 33,369 | 15,646 | ,000 |
Error | 196,219 | 92 | 2,133 |   |   |
Total | 3203,000 | 98 |   |   |   |
Corrected Total | 662,173 | 97 |   |   |   |
a. R Squared = ,704 (Adjusted R Squared = ,688) |
Multiple Comparisons | ||||||
Waardering voor de popsong Bonferroni | ||||||
(I) Exposure in 3 groepen | (J) Exposure in 3 groepen | Mean Difference (I-J) | Std. Error | Sig. | 95% Confidence Interval | |
Lower Bound | Upper Bound | |||||
1,00 | 2,00 | -3,8182* | ,35953 | ,000 | -4,6949 | -2,9415 |
3,00 | ,4081 | ,36233 | ,789 | -,4754 | 1,2917 | |
2,00 | 1,00 | 3,8182* | ,35953 | ,000 | 2,9415 | 4,6949 |
3,00 | 4,2263* | ,36233 | ,000 | 3,3428 | 5,1099 | |
3,00 | 1,00 | -,4081 | ,36233 | ,789 | -1,2917 | ,4754 |
2,00 | -4,2263* | ,36233 | ,000 | -5,1099 | -3,3428 | |
Based on observed means. The error term is Mean Square(Error) = 2,133. | ||||||
*. The mean difference is significant at the ,05 level. |
Wanneer je met de hand de syntax hebt toegevoegd voor meervoudige vergelijkingen bij het interactie-effect, krijg je ook onderstaande tabel in de output van SPSS.
Pairwise Comparisons | |||||||
Dependent Variable:Waardering voor de popsong | |||||||
Respondent is fan van deze muziekstijl | (I) Exposure in 3 groepen | (J) Exposure in 3 groepen | Mean Difference (I-J) | Std. Error | Sig.a | 95% Confidence Interval for Differencea | |
Lower Bound | Upper Bound | ||||||
Geen fan | 1,00 | 2,00 | -4,500* | ,515 | ,000 | -5,755 | -3,245 |
3,00 | ,538 | ,391 | ,516 | -,416 | 1,493 | ||
2,00 | 1,00 | 4,500* | ,515 | ,000 | 3,245 | 5,755 | |
3,00 | 5,038* | ,525 | ,000 | 3,758 | 6,319 | ||
3,00 | 1,00 | -,538 | ,391 | ,516 | -1,493 | ,416 | |
2,00 | -5,038* | ,525 | ,000 | -6,319 | -3,758 | ||
Fan | 1,00 | 2,00 | ,697 | ,899 | 1,000 | -1,495 | 2,889 |
3,00 | 2,333 | 1,033 | ,079 | -,185 | 4,852 | ||
2,00 | 1,00 | -,697 | ,899 | 1,000 | -2,889 | 1,495 | |
3,00 | 1,636 | ,673 | ,051 | -,004 | 3,277 | ||
3,00 | 1,00 | -2,333 | 1,033 | ,079 | -4,852 | ,185 | |
2,00 | -1,636 | ,673 | ,051 | -3,277 | ,004 | ||
Based on estimated marginal means | |||||||
*. The mean difference is significant at the ,05 level. | |||||||
a. Adjustment for multiple comparisons: Bonferroni. |
Het verband tussen exposure en waardering, dat te zien is in het eerste spreidingsdiagram, lijkt op een parabool. Een kwadratisch in plaats van een lineair model zal dit verband veel beter weergeven.
Het is mogelijk om in een regressieanalyse een kwadratisch verband te toetsen door het kwadraat van exposure ook als onafhankelijke variabele in het regressiemodel op te nemen. Het is wel belangrijk dat je de exposure variabele dan eerst centreert, d.w.z. ervoor zorgt dat het gemiddelde 0 wordt, anders ontstaat er een heel sterke correlatie tussen exposure en zijn kwadraat, wat multicollineariteit en schattingsproblemen oplevert. In dit voorbeeld krijg je bijvoorbeeld gestandaardiseerde regressiecoëfficiënten boven 1 en onder -1, wat niet kan kloppen, wanneer je exposure niet eerst centreert.
Je krijgt een gecentreerde versie van exposure door het gemiddelde van deze variabele (11,272) af te trekken van alle scores op deze variabele. Maak vervolgens een extra variabele met het kwadraat van deze gecentreerde exposure en gebruik beide gecentreerde variabelen in de regressie, waarin je ook de variabele 'fan' kunt meenemen.
Het resultaat staat hieronder. Het is duidelijk dat dit kwadratisch model veel beter past (R2 = 0,79) dan het lineaire model. De interpretatie van het lineaire effect van exposure - voor elke keer extra exposure stijgt de waardering over het geheel genomen met 0,065 - moet nu samengevoegd worden met de interpretatie van het effect van het kwadraat van exposure en dat is nogal lastig.
Omdat het kwadraat van exposure hier een veel sterker effect (b* = -0,84) heeft dan het lineaire effect van exposure (b* = 0,19), bepaalt het kwadratische effect de vorm van het verband meer dan het lineaire effect. Het is daarom voldoende om het kwadratische effect te interpreteren, waarbij we eigenlijk alleen naar het teken kijken: het negatieve teken geeft aan dat het een bergparabool is dus dat de waardering eerst stijgt met toenemende exposure maar daarna daalt.
Model Summaryb | ||||
Model | R | R Square | Adjusted R Square | Std. Error of the Estimate |
1 | ,890a | ,792 | ,785 | 1,21091 |
a. Predictors: (Constant), Exposure in het kwadraat, exposure1, Respondent is fan van deze muziekstijl | ||||
b. Dependent Variable: Waardering voor de popsong |
ANOVAb | ||||||
Model | Sum of Squares | df | Mean Square | F | Sig. | |
1 | Regression | 524,340 | 3 | 174,780 | 119,197 | ,000a |
Residual | 137,833 | 94 | 1,466 |   |   | |
Total | 662,173 | 97 |   |   |   | |
a. Predictors: (Constant), Exposure in het kwadraat, exposure1, Respondent is fan van deze muziekstijl | ||||||
b. Dependent Variable: Waardering voor de popsong |
Coefficientsa | ||||||||
Model | Unstandardized Coefficients | Standardized Coefficients | t | Sig. | 95,0% Confidence Interval for B | |||
B | Std. Error | Beta | Lower Bound | Upper Bound | ||||
1 | (Constant) | 7,158 | ,270 |   | 26,510 | ,000 | 6,622 | 7,694 |
Respondent is fan van deze muziekstijl | ,792 | ,322 | ,142 | 2,457 | ,016 | ,152 | 1,432 | |
exposure1 | ,065 | ,018 | ,187 | 3,638 | ,000 | ,030 | ,101 | |
Exposure in het kwadraat | -,042 | ,003 | -,843 | -13,803 | ,000 | -,048 | -,036 | |
a. Dependent Variable: Waardering voor de popsong |
*Oefening 6_6.
*Controleren van de variabelen.
FREQUENCIES VARIABLES=waardering exposure fan
/STATISTICS=SKEWNESS SESKEW
/ORDER=ANALYSIS.
*Missing value voor waardering = 16.
* Define Variable Properties.
*waardering.
MISSING VALUES waardering(16.00).
EXECUTE.
*Controle van het spreidingsdiagram.
GRAPH
/SCATTERPLOT(BIVAR)=exposure WITH waardering
/MISSING=LISTWISE.
*Variantieanalyse met 2 exposure groepen.
RECODE exposure (Lowest thru 12=0) (13 thru Highest=1) INTO expo2.
VARIABLE LABELS expo2 'Exposure in 2 groepen'.
EXECUTE.
UNIANOVA waardering BY fan expo2
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/PLOT=PROFILE(expo2*fan)
/PRINT=HOMOGENEITY DESCRIPTIVE
/CRITERIA=ALPHA(.05)
/DESIGN=fan expo2 fan*expo2.
*Variantieanalyse met 3 exposure groepen.
RECODE exposure (Lowest thru 7=1) (8 thru 15=2) (16 thru Highest=3) INTO expo3.
VARIABLE LABELS expo3 'Exposure in 3 groepen'.
EXECUTE.
UNIANOVA waardering BY fan expo3
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/POSTHOC=expo3(BONFERRONI)
/EMMEANS=TABLES(fan BY expo3) COMPARE(expo3) ADJ(BONFERRONI)
/PLOT=PROFILE(expo3*fan)
/PRINT=HOMOGENEITY DESCRIPTIVE
/CRITERIA=ALPHA(.05)
/DESIGN=fan expo3 fan*expo3.
*Voor de liefhebbers: een kwadratisch verband in een regressieanalyse.
*Centreren: bepaal het gemiddelde van exposure en trek dit van de variabele af.
FREQUENCIES VARIABLES=exposure
/FORMAT=NOTABLE
/STATISTICS=MEAN
/ORDER=ANALYSIS.
COMPUTE exposure1=exposure - 11.272.
VARIABLE LABELS exposure 'Exposure gecentreerd'.
EXECUTE.
*Maak een nieuwe variabele met het kwadraat van exposure.
COMPUTE exposure2=exposure1 ** 2.
VARIABLE LABELS exposure2 'Exposure in het kwadraat'.
EXECUTE.
*Regressieanalyse met lineaire en kwadratische component.
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT waardering
/METHOD=ENTER fan exposure1 exposure2
/SCATTERPLOT=(*ZRESID ,*ZPRED)
/RESIDUALS HIST(ZRESID).