Een ‘significant effect’ zegt ook niet alles

Vandaag in Ware Wetenschap: Het is tijd voor een eerlijker vorm van statistiek, om vakken zoals psychologie waardevoller te maken.

Persoonlijk had psycholoog Eric-Jan Wagemakers van de Universiteit van Amsterdam nog wel een stapje verder willen gaan. Dinsdag verscheen in het tijdschrift PNAS een artikel waarin zijn collega-statisticus Valen Johnson van Texas AM University de vloer aanveegt met de gebruikelijke statistische normen in de psychologie.

Veel te laks
Die normen, vindt Johnson, zijn veel te laks. Nu wordt een waargenomen effect significant genoemd en in principe geschikt om te publiceren, als de kans dat het stom toeval is kleiner is dan 5 procent. Volgens Johnson zou dat gerust een factor tien kleiner mogen. 5 promille toeval.

Methodoloog Wagenmakers kent Johnson in Austin, Texas, goed en heeft hem zelfs op de achtergrond geholpen bij zijn nieuwe PNAS-paper. Maar zelf is hij stelliger in zijn conclusie: het moet maar eens afgelopen zijn met de primitieve statistische fetisjisme in de psychologie. En trouwens ook daarbuiten.

Alles draait daarbij om de zogeheten p-waarde, wat nu de gouden standaard is in het wetenschapsbedrijf.

Vijf keer zes gooien
De p-waarde is de kans dat bij een gegeven reeks waarnemingen een bepaalde uitkomst redelijkerwijs toeval kan zijn. Vijf keer achter elkaar een zes gooien met eenzelfde dobbelsteen, is niet uitgesloten, maar behoorlijk onwaarschijnlijk.

Tien keer is bijna onmogelijk. Als dat bij het gooien toch gebeurt, ontstaat gemakkelijk het idee dat er met de dobbelsteen is geknoeid. Maar om dat te testen, is behalve veel gooien ook zuiver statistisch redeneren vereist. Vaak zes gooien kan namelijk wel degelijk door stom toeval ontstaan.

Wagenmakers maakt zich al jaren druk over de manier waarop in de psychologie de p-waarde een eigen leven is gaan leiden. De merkwaardigste uitkomsten van psychologische experimenten vinden hun weg naar de bladen en de populaire media, zodra ze statistisch 'significant' zijn. P kleiner dan 0,05 is een toverwoord.

Historische afspraak
Daarbij, zegt hij, vergeten mensen vaak dat significantie op zich niet zoveel zegt. 'Die 5 procent is een historische afspraak van rond 1910. En een slechte, die maakt dat de literatuur vol zit met toevallige en niet-reproduceerbare resultaten. Er zijn inmiddels toch heel goede alternatieven.'

Johnsons technische nieuwe studie in PNAS is gebaseerd op zogeheten Bayesiaanse statistiek. Die is lastiger te doorgronden, maar levert eerlijker antwoorden. Dat komt doordat er niet alleen wordt gekeken naar de uitkomsten die een onderzoekshypothese bevestigen, maar ook naar de uitkomsten die die juist tegenspreken. Wagenmakers: 'Zindelijke bewijsvoering berust op beide kanten van de medaille.'

In de PNAS-paper bewijst Johnson dat die situatie ongeveer wordt benaderd als in een experiment de traditionele kans op een toevalstreffer 5 promille is: p-waarde van 0,005. Halfslachtig, vindt Wagenmakers: 'Mijn idee: dump die hele p-waarde.'

Hogere kosten, lagere publicatiekans
Wat, dat realiseert hij zich natuurlijk ook, bij velen tegen het zere been is. Voor een experiment met een tienmaal kleinere p-waarde zijn veel meer waarnemingen of data nodig. Dat kost tijd en geld en maakt de kans op een fijne spraakmakende publicatie kleiner. 'Maar ook de kans dat onzinnige effecten breeduit als psychologische waarheid worden verkocht.'

Leave a Reply