Antwoord bij oefening 2.1

a. Beschrijf de scriptiecijfers.

Om een numerieke variabele te beschrijven gebruik je het gemiddelde en de standaarddeviatie. Deze zijn respectievelijk 7,53 en 0,68. Rapporteer dus:
"De masterstudenten CW krijgen gemiddeld een 7,5 (SD = 0,68) voor hun scriptie in de jaren 2008 - 2010."

b. Standaardiseer de scriptiecijfers.

Kies het commando ANALYZE - DESCRIPTIVE STATISTICS - DESCRIPTIVES, selecteer de variabele Cijfer en vink de optie "Save standardized values as variables" aan. SPSS maakt nu een nieuwe variabele genaamd ZCijfer met de z-scores van de scriptiecijfers. Je krijgt ook statistische output (het minimum, maximum, gemiddelde en de standaarddeviatie) maar daar hoef je nu niets mee te doen.

c. Voorspel op grond van de standaardnormale verdeling hoeveel studenten meer dan 1 standaarddeviatie boven het gemiddelde scoren en hoeveel studenten meer dan 1 standaarddeviatie onder het gemiddelde scoren.

In de tabel met rechter overschrijdingskansen in de standaardnormale verdeling (Bijlage 1 in Toegepaste statistiek. Inductieve technieken of het formuleblad) zien we bij een z-score van 1 een kans staan van 0,1587. Dus zal ongeveer 16 procent van de scores in een standaardnormale verdeling een z-score hebben boven 1, wat betekent dat zij meer dan 1 standaarddeviatie boven het gemiddelde liggen.
Aangezien de standaardnormale verdeling symmetrisch is (rond 0), is de kans dat scores lager zijn dan -1 even groot, dus ook 16%.

d. Vergelijk de voorspelling (vraag c) met de feitelijke aantallen studenten die meer dan 1 standaarddeviatie boven of onder het gemiddelde scoren. Wat is de oorzaak voor het verschil tussen de voorspelling en de feitelijke aantallen?

In totaal zijn er 530 scriptiecijfers, dus verwachten we dat 16 procent van de 530 (0,16 ∙ 530 = 84,8) scripties meer dan 1 standaarddeviatie boven het gemiddelde ligt. Eenzelfde aantal zal meer dan 1 standaarddeviatie onder het gemiddelde liggen.
Het gemiddelde scriptiecijfers is 7,53 (7,527) en de standaarddeviatie is 0,68 (0,677); zie vraag a.
Een z-score van 1 komt dus neer op het gemiddelde plus 1 standaarddeviatie: 7,527 + 0,677 = 8,204. NB omdat we rekenen, gebruiken we drie decimalen.
Een z-score van -1 komt dus neer op het gemiddelde min 1 standaarddeviatie: 7,527 - 0,677 = 6,850.
We verwachten dus dat 84,8 scripties een cijfer boven de 8,204 hebben en dat een zelfde aantal een cijfer onder de 6,850 heeft.
Maak nu een frequentieverdeling van de scriptiecijfers en kijk naar de frequenties boven en onder deze grenswaarden. Dan blijkt dat 78 studenten een cijfer 8,3 of hoger hebben en 65 studenten hebben een cijfer 6,8 of lager. In beide gevallen is het werkelijke aantal studenten dus lager dan het voorspelde aantal.

Wat is de oorzaak? De oorzaak van de verschillen is dat de werkelijke verdeling dus niet precies een normale verdeling is. Je kunt dit zien wanneer je een histogram maakt met een ingetekende normaalverdeling. Het histogram is grillig omdat er voor scripties vooral hele cijfers worden gegeven. Over het geheel genomen is er wel een klokvorm te herkennen maar het histogram is niet vloeiend. Je zou kunnen zeggen dat de voorspelling nog aardig klopt wanneer je in aanmerking neemt dat de cijfers niet continu verdeeld zijn.

Syntax

*a - beschrijven van de variabele. FREQUENCIES VARIABLES=Cijfer
  /FORMAT=NOTABLE
  /STATISTICS=STDDEV MEAN SKEWNESS SESKEW
  /ORDER=ANALYSIS.

*b - standaardiseren van de variabele.
DESCRIPTIVES VARIABLES=Cijfer
  /SAVE
  /STATISTICS=MEAN STDDEV MIN MAX.

*d - de werkelijke frequenties van de cijfers.
FREQUENCIES VARIABLES=Cijfer
  /HISTOGRAM NORMAL
  /ORDER=ANALYSIS.