Antwoord

Antwoord bij Oefening 6.6

De afhankelijke en minstens een van de onafhankelijke variabelen (exposure) is numeriek dus moeten we een regressieanalyse uitvoeren.

Eerst controleren we de variabelen op rare waarden en (bij de numerieke variabelen) de vorm van de verdeling (scheefheid en extreme waarden) met behulp van frequentietabellen en grafieken.
Er blijkt een onmogelijke score '16' te zijn bij de variabele waardering. Die markeren we eerst als missing.

Nu controleren we het spreidingsdiagram van waardering met exposure op de vorm van het verband.
Er blijkt een duidelijk krom verband te zijn tussen exposure en waardering: aanvankelijk stijgt de waardering wanneer de exposure stijgt (hoe meer je de song hoort, des te meer ga je de song waarderen), maar vanaf een exposure van ongeveer 12 keer gaat de waardering dalen (je krijgt genoeg van de song).

Het is niet verstandig om hier een lineaire regressie toe te passen. Het enige alternatief dat we in deze cursus hebben voor een analyse waarin we twee onafhankelijke variabelen hebben (exposure en fan) en een numerieke afhankelijke variabele, is 2-factoren variantieanalyse.
Om deze techniek toe te kunnen passen moeten we de numerieke variebele exposure omzetten in een categorische variabelen. We moeten exposure dus in klassen groeperen.
Dit kan op verschillende manieren. We laten twee mogelijkehden zien: exposure verdelen in 2 gelijke groepen en in 3 gelijke groepen.

Exposure in 2 groepen van gelijke omvang

Uit de frequentietabel van exposure kunnen we aflezen dat nagenoeg 50% van de respondenten een score heeft van 1 tot en met 12 en de resterende respondenten een score van 13 tot en met 25. Met RECODE kunnen we een nieuwe variabele maken met deze twee groepen, die we vervolgens in een 2-factoren variantieanalyse kunnen stoppen om waardering te verklaren.
De variantieanalyse levert onderstaande resultaten op. Alleen het fan-zijn heeft een significant, klein tot middelmatig hoofdeffect, F (1, 94) = 54,17, p < 0,001. η² = 236,881 / 3203 = 0,07. Fans hebben gemiddeld meer waardering (M = 7,39, SD = 1,28) dan niet-fans (M = 4,03, SD = 2,38).
Het hoofdeffect van exposure, F (1, 94) = 1,68, p = 0,537, en het interactie-effect van exposure met fan-zijn, F (1, 94) = 6,37, p = 0,231, zijn niet significant.
We moeten dus concluderen dat beide vermoedens niet uitkomen: over het geheel genomen neemt de waardering niet toe met exposure en dit verband is ook niet sterker aanwezig bij de fans.

Overigens zijn de groepen niet ongeveer even groot (er zijn relatief weinig fans) en mogen we niet uitgaan van gelijke varianties van de groepen in de populatie, F (3, 94) = 4,16, p = 0,008. De voorwaarden voor een variantieanalyse zijn dus geschonden.

Descriptive Statistics

Dependent Variable:Waardering voor de popsong

Respondent is fan van deze muziekstijl Exposure in 2 groepen Mean Std. Deviation N

Geen fan ,00 4,4054 2,43196 37

1,00 3,5667 2,26949 30

Total 4,0299 2,38029 67

Fan ,00 7,2308 ,92681 13

1,00 7,5000 1,50489 18

Total 7,3871 1,28264 31

Total ,00 5,1400 2,47444 50

1,00 5,0417 2,77495 48

Total 5,0918 2,61276 98

Levene's Test of Equality of Error Variances^a

Dependent Variable:Waardering voor de popsong

F df1 df2 Sig.

4,162 3 94 ,008

Tests the null hypothesis that the error variance of the dependent variable is equal across groups.

a. Design: Intercept + fan + expo2 + fan * expo2

Tests of Between-Subjects Effects

Dependent Variable:Waardering voor de popsong

Source Type III Sum of Squares df Mean Square F Sig.

Corrected Model 251,080^a 3 83,693 19,137 ,000

Intercept 2672,795 1 2672,795 611,157 ,000

fan 236,881 1 236,881 54,165 ,000

expo2 1,682 1 1,682 ,385 ,537

fan * expo2 6,366 1 6,366 1,456 ,231

Error 411,093 94 4,373

Total 3203,000 98

Corrected Total 662,173 97

a. R Squared = ,379 (Adjusted R Squared = ,359)

Exposure in 3 groepen van gelijke omvang

Uit de frequentietabel van exposure kunnen we aflezen dat we de grenzen moeten leggen tussen 7 en 8 alsmede tussen 15 en 16 om drie groepen te krijgen met ieder eenderde van de waarnemingen. Met RECODE kunnen we een nieuwe variabele maken met deze drie groepen, die we vervolgens in een 2-factoren variantieanalyse kunnen stoppen om waardering te verklaren. Het is nu verstandig om een post-hoc (Bonferroni) toets aan te vragen voor de factor exposure omdat die meer dan twee groepen heeft.
De variantieanalyse levert onderstaande resultaten op. Alle drie de effecten zijn nu significant.
Er is een significant hoofdeffect van het fan-zijn dat klein tot middelmatig is, F (1, 92) = 54,17, p < 0,001, η² = 79,604 / 3203 = 0,02. Fans hebben gemiddeld meer waardering (M = 7,39, SD = 1,28) dan niet-fans (M = 4,03, SD = 2,38). NB dit is precies hetzelfde resultaat als in de analyse met twee exposuregroepen aangezien er niets veranderd is aan de indeling van de fans tegenover de niet fans. Wel is de sterke van het verband wat afgenomen omdat exposure nu een groter effect heeft.
Het hoofdeffect van exposure is significant en wederom klein tot middelmatig, F (2, 92) = 31,26, p < 0,001, η² = 133,352 / 3203 = 0,04. Uit de post-hoc toets blijkt dat de respondenten die de song 8 tot 15 keer hebben gehoord (groep 2) gemiddeld meer waardering hebben (M = 7,76, SD = 1,09) dan de respondenten die de song minder dan 8 keer (M = 3,94, SD = 2,14) of vaker dan 15 keer (M = 3,53, SD = 1,98) hoorden. Tussen de laatste twee groepen is er geen significant verschil.
Het interactie-effect van exposure met fan-zijn, F (2, 92) = 15,65, p < 0,001, η² = 66,739 / 3203 = 0,02, is nu ook significant maar zwak tot middelmatig. Alleen voor de niet-fans geldt dat groep 2 gemiddeld duidelijk hoger (M = 8,00, SD = 0,89) scoort dan de andere twee groepen (groep 1: M = 3,50, SD = 1,68) en (groep 3: M = 2,96, SD = 1,71). Om dit verschil te toetsen, moet je de meervoudige vergelijking met Bonferroni correctie voor de subgroepen van het interactie-effect opvragen door met de hand het commando /EMMEANS=TABLES(fan BY expo3) COMPARE(expo3) ADJ(BONFERRONI) toe te voegen aan de syntax van de variantieanalyse. NB dit is geen verplichte stof.
De vermoedens komen niet echt uit; de werkelijkheid lijkt iets ingewikkelder dan verwacht. De waardering neemt toe met de exposure tot een bepaald maximum (ongeveer 8 tot 15 jeer de song horen), waarna de waardering afneemt. Dit verband tussen exposure en waardering geldt niet sterker voor de fans. In tegendeel, het lijkt alleen voor de niet-fans te gelden. Bij de fans lijkt exposure er niet toe te doen.

Hier blijkt dat het nogal kan uitmaken hoe je de onafhankelijke variabele (hier: exposure) in groepen indeelt. Effecten die bij een indeling in twee groepen niet significant zijn, zijn dat wel bij een indeling in drie groepen.

NB weer blijken de groepen bepaald niet even groot en is de toets op gelijke varianmties in de populatie significant. De voorwaarden voor variantieanalyse worden geschonden.

Descriptive Statistics

Dependent Variable:Waardering voor de popsong

Respondent is fan van deze muziekstijl Exposure in 3 groepen Mean Std. Deviation N

Geen fan 1,00 3,5000 1,67641 30

2,00 8,0000 ,89443 11

3,00 2,9615 1,70835 26

Total 4,0299 2,38029 67

Fan 1,00 8,3333 ,57735 3

2,00 7,6364 1,17698 22

3,00 6,0000 ,89443 6

Total 7,3871 1,28264 31

Total 1,00 3,9394 2,13511 33

2,00 7,7576 1,09059 33

3,00 3,5312 1,98355 32

Total 5,0918 2,61276 98

Levene's Test of Equality of Error Variances^a

Dependent Variable:Waardering voor de popsong

F df1 df2 Sig.

3,206 5 92 ,010

Tests the null hypothesis that the error variance of the dependent variable is equal across groups.

a. Design: Intercept + fan + expo3 + fan * expo3

Tests of Between-Subjects Effects

Dependent Variable:Waardering voor de popsong

Source Type III Sum of Squares df Mean Square F Sig.

Corrected Model 465,954^a 5 93,191 43,694 ,000

Intercept 1874,206 1 1874,206 878,747 ,000

fan 79,604 1 79,604 37,324 ,000

expo3 133,352 2 66,676 31,262 ,000

fan * expo3 66,739 2 33,369 15,646 ,000

Error 196,219 92 2,133

Total 3203,000 98

Corrected Total 662,173 97

a. R Squared = ,704 (Adjusted R Squared = ,688)

Multiple Comparisons

Waardering voor de popsong
Bonferroni

(I) Exposure in 3 groepen (J) Exposure in 3 groepen Mean Difference (I-J) Std. Error Sig. 95% Confidence Interval

Lower Bound Upper Bound

1,00 2,00 -3,8182^* ,35953 ,000 -4,6949 -2,9415

3,00 ,4081 ,36233 ,789 -,4754 1,2917

2,00 1,00 3,8182^* ,35953 ,000 2,9415 4,6949

3,00 4,2263^* ,36233 ,000 3,3428 5,1099

3,00 1,00 -,4081 ,36233 ,789 -1,2917 ,4754

2,00 -4,2263^* ,36233 ,000 -5,1099 -3,3428

Based on observed means.
The error term is Mean Square(Error) = 2,133.

*. The mean difference is significant at the ,05 level.

Wanneer je met de hand de syntax hebt toegevoegd voor meervoudige vergelijkingen bij het interactie-effect, krijg je ook onderstaande tabel in de output van SPSS.

Pairwise Comparisons

Dependent Variable:Waardering voor de popsong

Respondent is fan van deze muziekstijl (I) Exposure in 3 groepen (J) Exposure in 3 groepen Mean Difference (I-J) Std. Error Sig.^a 95% Confidence Interval for Difference^a

Lower Bound Upper Bound

Geen fan 1,00 2,00 -4,500^* ,515 ,000 -5,755 -3,245

3,00 ,538 ,391 ,516 -,416 1,493

2,00 1,00 4,500^* ,515 ,000 3,245 5,755

3,00 5,038^* ,525 ,000 3,758 6,319

3,00 1,00 -,538 ,391 ,516 -1,493 ,416

2,00 -5,038^* ,525 ,000 -6,319 -3,758

Fan 1,00 2,00 ,697 ,899 1,000 -1,495 2,889

3,00 2,333 1,033 ,079 -,185 4,852

2,00 1,00 -,697 ,899 1,000 -2,889 1,495

3,00 1,636 ,673 ,051 -,004 3,277

3,00 1,00 -2,333 1,033 ,079 -4,852 ,185

2,00 -1,636 ,673 ,051 -3,277 ,004

Based on estimated marginal means

*. The mean difference is significant at the ,05 level.

a. Adjustment for multiple comparisons: Bonferroni.

Voor de liefhebbers

Het verband tussen exposure en waardering, dat te zien is in het eerste spreidingsdiagram, lijkt op een parabool. Een kwadratisch in plaats van een lineair model zal dit verband veel beter weergeven.
Het is mogelijk om in een regressieanalyse een kwadratisch verband te toetsen door het kwadraat van exposure ook als onafhankelijke variabele in het regressiemodel op te nemen. Het is wel belangrijk dat je de exposure variabele dan eerst centreert, d.w.z. ervoor zorgt dat het gemiddelde 0 wordt, anders ontstaat er een heel sterke correlatie tussen exposure en zijn kwadraat, wat multicollineariteit en schattingsproblemen oplevert. In dit voorbeeld krijg je bijvoorbeeld gestandaardiseerde regressiecoëfficiënten boven 1 en onder -1, wat niet kan kloppen, wanneer je exposure niet eerst centreert.
Je krijgt een gecentreerde versie van exposure door het gemiddelde van deze variabele (11,272) af te trekken van alle scores op deze variabele. Maak vervolgens een extra variabele met het kwadraat van deze gecentreerde exposure en gebruik beide gecentreerde variabelen in de regressie, waarin je ook de variabele 'fan' kunt meenemen.
Het resultaat staat hieronder. Het is duidelijk dat dit kwadratisch model veel beter past (R² = 0,79) dan het lineaire model. De interpretatie van het lineaire effect van exposure - voor elke keer extra exposure stijgt de waardering over het geheel genomen met 0,065 - moet nu samengevoegd worden met de interpretatie van het effect van het kwadraat van exposure en dat is nogal lastig.
Omdat het kwadraat van exposure hier een veel sterker effect (b* = -0,84) heeft dan het lineaire effect van exposure (b* = 0,19), bepaalt het kwadratische effect de vorm van het verband meer dan het lineaire effect. Het is daarom voldoende om het kwadratische effect te interpreteren, waarbij we eigenlijk alleen naar het teken kijken: het negatieve teken geeft aan dat het een bergparabool is dus dat de waardering eerst stijgt met toenemende exposure maar daarna daalt.

Model Summary^b

Model R R Square Adjusted R Square Std. Error of the Estimate

1 ,890^a ,792 ,785 1,21091

a. Predictors: (Constant), Exposure in het kwadraat, exposure1, Respondent is fan van deze muziekstijl

b. Dependent Variable: Waardering voor de popsong

ANOVA^b

Model Sum of Squares df Mean Square F Sig.

1 Regression 524,340 3 174,780 119,197 ,000^a

Residual 137,833 94 1,466

Total 662,173 97

a. Predictors: (Constant), Exposure in het kwadraat, exposure1, Respondent is fan van deze muziekstijl

b. Dependent Variable: Waardering voor de popsong

Coefficients^a

Model Unstandardized Coefficients Standardized Coefficients t Sig. 95,0% Confidence Interval for B

B Std. Error Beta Lower Bound Upper Bound

1 (Constant) 7,158 ,270 26,510 ,000 6,622 7,694

Respondent is fan van deze muziekstijl ,792 ,322 ,142 2,457 ,016 ,152 1,432

exposure1 ,065 ,018 ,187 3,638 ,000 ,030 ,101

Exposure in het kwadraat -,042 ,003 -,843 -13,803 ,000 -,048 -,036

a. Dependent Variable: Waardering voor de popsong

Syntax

*Oefening 6_6.

*Controleren van de variabelen.
FREQUENCIES VARIABLES=waardering exposure fan
  /STATISTICS=SKEWNESS SESKEW
  /ORDER=ANALYSIS.
*Missing value voor waardering = 16.
* Define Variable Properties.
*waardering.
MISSING VALUES waardering(16.00).
EXECUTE.
*Controle van het spreidingsdiagram.
GRAPH
  /SCATTERPLOT(BIVAR)=exposure WITH waardering
  /MISSING=LISTWISE.

*Variantieanalyse met 2 exposure groepen.
RECODE exposure (Lowest thru 12=0) (13 thru Highest=1) INTO expo2.
VARIABLE LABELS expo2 'Exposure in 2 groepen'.
EXECUTE.
UNIANOVA waardering BY fan expo2
  /METHOD=SSTYPE(3)
  /INTERCEPT=INCLUDE
  /PLOT=PROFILE(expo2*fan)
  /PRINT=HOMOGENEITY DESCRIPTIVE
  /CRITERIA=ALPHA(.05)
  /DESIGN=fan expo2 fan*expo2.

*Variantieanalyse met 3 exposure groepen.
RECODE exposure (Lowest thru 7=1) (8 thru 15=2) (16 thru Highest=3) INTO expo3.
VARIABLE LABELS expo3 'Exposure in 3 groepen'.
EXECUTE.
UNIANOVA waardering BY fan expo3
  /METHOD=SSTYPE(3)
  /INTERCEPT=INCLUDE
  /POSTHOC=expo3(BONFERRONI)
  /EMMEANS=TABLES(fan BY expo3) COMPARE(expo3) ADJ(BONFERRONI)
  /PLOT=PROFILE(expo3*fan)
  /PRINT=HOMOGENEITY DESCRIPTIVE
  /CRITERIA=ALPHA(.05)
  /DESIGN=fan expo3 fan*expo3.

*Voor de liefhebbers: een kwadratisch verband in een regressieanalyse.
*Centreren: bepaal het gemiddelde van exposure en trek dit van de variabele af.
FREQUENCIES VARIABLES=exposure
  /FORMAT=NOTABLE
  /STATISTICS=MEAN
  /ORDER=ANALYSIS.
COMPUTE exposure1=exposure - 11.272.
VARIABLE LABELS exposure 'Exposure gecentreerd'.
EXECUTE.
*Maak een nieuwe variabele met het kwadraat van exposure.
COMPUTE exposure2=exposure1 ** 2.
VARIABLE LABELS exposure2 'Exposure in het kwadraat'.
EXECUTE.
*Regressieanalyse met lineaire en kwadratische component.
REGRESSION
  /DESCRIPTIVES MEAN STDDEV CORR SIG N
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS CI(95) R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN
  /DEPENDENT waardering
  /METHOD=ENTER fan exposure1 exposure2
  /SCATTERPLOT=(*ZRESID ,*ZPRED)
  /RESIDUALS HIST(ZRESID).

Descriptive Statistics
Dependent Variable:Waardering voor de popsong
Respondent is fan van deze muziekstijl	Exposure in 2 groepen	Mean	Std. Deviation	N
Geen fan	,00	4,4054	2,43196	37
	1,00	3,5667	2,26949	30
	Total	4,0299	2,38029	67
Fan	,00	7,2308	,92681	13
	1,00	7,5000	1,50489	18
	Total	7,3871	1,28264	31
Total	,00	5,1400	2,47444	50
	1,00	5,0417	2,77495	48
	Total	5,0918	2,61276	98

Levene's Test of Equality of Error Variances^a
Dependent Variable:Waardering voor de popsong
F	df1	df2	Sig.
4,162	3	94	,008
Tests the null hypothesis that the error variance of the dependent variable is equal across groups.
a. Design: Intercept + fan + expo2 + fan * expo2

Tests of Between-Subjects Effects
Dependent Variable:Waardering voor de popsong
Source	Type III Sum of Squares	df	Mean Square	F	Sig.
Corrected Model	251,080^a	3	83,693	19,137	,000
Intercept	2672,795	1	2672,795	611,157	,000
fan	236,881	1	236,881	54,165	,000
expo2	1,682	1	1,682	,385	,537
fan * expo2	6,366	1	6,366	1,456	,231
Error	411,093	94	4,373
Total	3203,000	98
Corrected Total	662,173	97
a. R Squared = ,379 (Adjusted R Squared = ,359)

Multiple Comparisons
Waardering voor de popsong Bonferroni
(I) Exposure in 3 groepen	(J) Exposure in 3 groepen	Mean Difference (I-J)	Std. Error	Sig.	95% Confidence Interval
(I) Exposure in 3 groepen	(J) Exposure in 3 groepen	Mean Difference (I-J)	Std. Error	Sig.	Lower Bound	Upper Bound
1,00	2,00	-3,8182^*	,35953	,000	-4,6949	-2,9415
1,00	3,00	,4081	,36233	,789	-,4754	1,2917
2,00	1,00	3,8182^*	,35953	,000	2,9415	4,6949
2,00	3,00	4,2263^*	,36233	,000	3,3428	5,1099
3,00	1,00	-,4081	,36233	,789	-1,2917	,4754
3,00	2,00	-4,2263^*	,36233	,000	-5,1099	-3,3428
Based on observed means. The error term is Mean Square(Error) = 2,133.
*. The mean difference is significant at the ,05 level.

Pairwise Comparisons
Dependent Variable:Waardering voor de popsong
Respondent is fan van deze muziekstijl	(I) Exposure in 3 groepen	(J) Exposure in 3 groepen	Mean Difference (I-J)	Std. Error	Sig.^a	95% Confidence Interval for Difference^a
Respondent is fan van deze muziekstijl	(I) Exposure in 3 groepen	(J) Exposure in 3 groepen	Mean Difference (I-J)	Std. Error	Sig.^a	Lower Bound	Upper Bound
Geen fan	1,00	2,00	-4,500^*	,515	,000	-5,755	-3,245
	1,00	3,00	,538	,391	,516	-,416	1,493
	2,00	1,00	4,500^*	,515	,000	3,245	5,755
	2,00	3,00	5,038^*	,525	,000	3,758	6,319
	3,00	1,00	-,538	,391	,516	-1,493	,416
	3,00	2,00	-5,038^*	,525	,000	-6,319	-3,758
Fan	1,00	2,00	,697	,899	1,000	-1,495	2,889
	1,00	3,00	2,333	1,033	,079	-,185	4,852
	2,00	1,00	-,697	,899	1,000	-2,889	1,495
	2,00	3,00	1,636	,673	,051	-,004	3,277
	3,00	1,00	-2,333	1,033	,079	-4,852	,185
	3,00	2,00	-1,636	,673	,051	-3,277	,004
Based on estimated marginal means
*. The mean difference is significant at the ,05 level.
a. Adjustment for multiple comparisons: Bonferroni.

Model Summary^b
Model	R	R Square	Adjusted R Square	Std. Error of the Estimate
1	,890^a	,792	,785	1,21091
a. Predictors: (Constant), Exposure in het kwadraat, exposure1, Respondent is fan van deze muziekstijl
b. Dependent Variable: Waardering voor de popsong

ANOVA^b
Model		Sum of Squares	df	Mean Square	F	Sig.
1	Regression	524,340	3	174,780	119,197	,000^a
	Residual	137,833	94	1,466
	Total	662,173	97
a. Predictors: (Constant), Exposure in het kwadraat, exposure1, Respondent is fan van deze muziekstijl
b. Dependent Variable: Waardering voor de popsong

Coefficients^a
Model		Unstandardized Coefficients		Standardized Coefficients	t	Sig.	95,0% Confidence Interval for B
Model		B	Std. Error	Beta	t	Sig.	Lower Bound	Upper Bound
1	(Constant)	7,158	,270		26,510	,000	6,622	7,694
	Respondent is fan van deze muziekstijl	,792	,322	,142	2,457	,016	,152	1,432
	exposure1	,065	,018	,187	3,638	,000	,030	,101
	Exposure in het kwadraat	-,042	,003	-,843	-13,803	,000	-,048	-,036
a. Dependent Variable: Waardering voor de popsong