Startpagina van deze website
Multivariate statistische analyses
Inleiding
De statistiek wordt op een aantal manieren gebruikt:
1) Het testen van hypotheses
Het toetsen of een verschil tussen twee (of meerdere) afgeleiden van verzamelingen metingen op toeval berust of juist niet.
Je zou bijvoorbeeld de hypothese kunnen stellen dat het gemiddelde gewicht van een Amerikaan hoger is dan het
gemiddelde gewicht van een Nederlander. De rede om een dergelijke hypothese te testen zou kunnen zijn dat in Amerika er eerder
is begonnen met het eten van fast food. Het blijft altijd oppassen met het aangeven van een oorzaak van het verschil.
Statistiek zegt in principe niets over oorzaken, je kunt alleen aangeven wat de kans is dat het gemeten verschil op toeval
berust, als er in werkelijkheid geen verschil bestaat. In het voorbeeld van het verschil in gewicht tussen Nederlanders en
Amerikanen kunnen andere oorzaken een rol spelen, bijvoorbeeld dat Amerikanen meer te besteden hebben of dat grote delen van hen
een andere etnische afkomst hebben en dus een ander eetpatroon. Helaas
is de werkelijkheid altijd complexer dan we zouden willen.
Een ander recent voorbeeld waarbij dit soort statistiek aan de orde kwam, was de vraag of een verpleegster een seriemoordenaar
is of niet. Hier werd de kans berekend dat zij toevallig in de buurt was van alle babys die zijn overleden. Overigens is deze
zaak nog niet afgerond omdat er een discussie over de methodiek is ontstaan tussen de verschillende statistici.

Kansberekening onder de knie krijgen vereist wat geduld.............
2) Exploratieve analyse van de gegevens
Het opsporen van structuur in gegevensbestanden die per "object" veel gemeten parameters hebben.
Een voorbeeld van zo'n object is een vragenlijst waarbij een persoon meerdere vragen heeft beantwoord.
Alle antwoorden zijn metingen aan het object persoon. De eerste vragenlijsten die aan het begin van de 20e eeuw m.b.v.
multivariate analyses werden onderzocht waren de IQ-testen. In die tijd is de zgn. factoranalyse ontwikkeld waarbij twee
verklarende (onderliggende) eigenschappen van het brein werden "ontdekt": taalvaardigheid en rekenvaardigheid. Dit zijn
eigenschappen van personen die niet rechtstreeks gemeten kunnen worden, maar indirect worden afgeleid uit de antwoorden op
een groot aantal vragen. Naast de factoranalyse zijn diverse andere multivariate technieken ontwikkeld om uit een groot aantal
gegevens de belangrijkste componenten te halen. Deze methodes worden ook wel aangeduid met "datareductie" en "exploratieve analyse"
van de gegevens. Deze methodes worden nu door EXPLOSTAT aangeboden, het vervolg van dit
verhaal heeft hier betrekking op.
De meerwaarde van Multivariate Exploratieve Statistiek (MES): Haal zoveel mogelijk informatie uit de beschikbare gegevens.
Profielen
De MES maakt het mogelijk om met zgn. profielen van objecten te werken en deze profielen onderling te vergelijken, waarbij een
ordening hiervan volgens bepaalde criteria mogelijk is. Een profiel is een bepaalde combinatie van meetwaarden
(bv. de gemeten concentraties in een bodemmonster) of eigenschappen (het profiel van een gokker, misdadiger drugsverslaafde enz).
De specifieke combinatie van meetwaarden die verwijzen naar een oorzaak of bron worden in het engels treffend "fingerprints" genoemd.
Een voorbeeld aan de hand van IQ-testen is de manier waarop de scores op de diverse deeltesten verdeeld zijn. Een typisch profiel zou
kunnen zijn dat een persoon de rekentechnische testen over de gehele linie goed doet en de taalvaardige testen altijd slecht.
Er is een methode bedacht om deze profielen die uit een groot aantal meetwaarden bestaan te karakteriseren met maar twee getallen
(meestal scores genoemd). In dit voorbeeld kun je het profiel van de uitslagen van de rekentesten met een getal weergeven dat
de rekenvaardigheid weergeeft en het profiel van de uitslagen van de taaltesten met een getal dat de taalvaardigheid weergeeft.
Nu is dit een te simpele voorstelling van de werkelijkheid omdat er testen zijn waarbij zowel de taalvaardigheid als de
rekenvaardigheid een rol spelen. Uiteindelijk komt het er op neer dat het profiel van alle testuitslagen omgezet wordt naar zowel
een indikatie van rekenvaardigheid als een indikatie van taalvaardigheid. Deze indikaties in getalvorm worden scores genoemd op
onderliggende factoren (resp. de reken- en taalfactor).
Ordenen van Profielen
In het bovengenoemde voorbeeld kunnen de testresultaten van personen geordend worden volgens hun scores op de reken- en taalfactor.
Deze scores kunnen in een diagram worden geplaats met twee assen. Bijvoorbeeld langs de horizontale as de rekenscore en langs
de verticale as de taalscore. Op die manier kan direct gezien worden hoe de geteste personen het hebben gedaan.
Type gegevens en ordening
In het voorbeeld van de IQ testen betekent een hoge uitkomst per test automatisch dat de totaalscore van de test ook hoger wordt.
Met andere woorden er is een soort evenredigheid tussen de waarden van de metingen afzonderlijk en de eindscore van een testprofiel dat met
een zgn. factorscore wordt aangeduid.
Het type gegevens dat hier van toepassing is wordt op een ratioschaal of ordinale schaal gemeten. Je kunt dan zeggen dat de ene meting een hogere
waarde heeft dan de andere. Er zijn andere soort metingen waarbij dat niet kan. Voorbeelden zijn: Politieke partij, etnische achtergrond, type vegetatie
enz. Dit type gegevens wordt op nominale schaal gemeten. Van dit soort gegevens worden zgn. kruistabellen gemaakt.
Ook wel frequentietabellen genoemd.
Voorbeeld ordening van nominale gegevens is: Analyse vestigingsklimaat bedrijven
Voorbeelden van toepassingen
1) De Jeugdmonitor van de Gooi en Vechtstreek
De jeugdmonitor is een vragenlijst die onder jongeren tussen de 12 en 18 jaar wordt verspreid om een indruk
te krijgen van hun welbevinden, gezondheid en het plegen van (lichte) vergrijpen. Om een eerste indruk te krijgen van
de opzet en verwerking van deze monitor wordt hieronder een deel van de text van de rapportage in het kader van deze enquete
weergegeven. Het volledige rapport kan men downloaden
Jeugdmonitor Gooi en Vechtstreek 2001 .
De inleiding en conclusies van dit rapport staan Hier
2) Eindevaluatie 5 jaar jeugdbeleid van de Comissie Jeugdcriminaliteit Gooi en Vechtstreek
In dit rapport worden de meldingen over een periode van 3 jaar (1998-2001) t.a.v. crimineel gedrag exploratief onderzocht.
De meldingen worden in groepen verdeeld met als ingangen sexe, nationaliteit en district waar de overtreding plaats vond.
Er word gekeken of bepaalde groepen sterk afwijken van het gemiddelde "overtredingsprofiel".
Hiermee wordt de verdeling van overtredingen binnen het totaal aan meldingen. Op deze manier kunnen groepen van verschillende
grootte goed met elkaar vergeleken worden. Dat is met de zgn. "rechte tellingen" minder goed mogelijk.
Het volledige rapport kan men downloaden Eindevaluatie 5 jaar jeugdbeleid .
De inleiding en samenvatting van dit rapport staan Hier