Antwoord bij oefening 2.2

a. Beschrijf de variabelen v3, v5uur, v6uur, v32neg, v73 en ga na of zij ongeveer normaal verdeeld zijn. Bespreek de kenmerken van de frequentieverdeling die ertoe leiden dat de verdeling niet normaal is.

Bepaal de gemiddelden en de standaarddeviaties en - in één moeite door - de scheefheid en de histogrammen met de normaalverdeling. Dit kan allemaal met het FREQUENCIES commando.

Uit de tabel met de statistieken kunnen we aflezen dat v5uur, v6uur en v32neg te scheef zijn: skewness is groter dan 1. Een normale verdeling is niet scheef maar symmetrisch.
Statistics
  v3 v5uur v6uur v32neg v73
N Valid 1561 1560 1556 1535 1555
Missing 3 4 8 29 9
Mean 36,07 2,0840 2,7783 5,56 16,3887
Std. Deviation 16,161 1,61416 1,90827 3,450 3,47247
Skewness ,628 1,816 1,795 1,219 ,224
Std. Error of Skewness ,062 ,062 ,062 ,062 ,062

De histogrammen tonen deze scheefheid ook. Verder laten ze zien dat er bij leeftijd (v3) waarschijnlijk nog verkeerde scores in het bestand zitten: onder de 18 en in de buurt van 0, wat onwaarschijnlijk is. Als we deze scores weglaten, wordt de verdeling schever. Bovendien zijn er twee toppen, wat je bij een normale verdeling niet hebt.
De verdeling van de variabele die aangeeft hoeveel jaar fulltime onderwijs iemand gevolgd heeft (v73), lijkt het meest normaal. Wel zien we dat deze verdeling wat platter en dus breder is dan een normale verdeling: de scores dichtbij het gemiddelde komen te weinig voor, de scores ver weg van het gemiddelde (in de staarten van de verdeling) komen te vaak voor.

Syntax

*a - beschrijven van de variabelen en controle vorm verdeling. FREQUENCIES VARIABLES=v3 v5uur v6uur v32neg v73
/FORMAT=NOTABLE
  /STATISTICS=STDDEV MEAN SKEWNESS SESKEW
  /HISTOGRAM NORMAL
  /ORDER=ANALYSIS.