La difficile riproducibilità degli studi di psicologia

In uno studio pubblicato sulla prestigiosa rivista “Science”, ricercatori dei cinque continenti annunciano di essere riusciti a replicare solo il 40 per cento circa dei risultati di 100 studi di psicologia cognitiva e sociale pubblicati in precedenza. L'ampia collaborazione Reproducibility Project: Psychology, potrebbe servire da modello per l'analisi della riproducibilità delle ricerche in altri campi, ed è già in corso un impegno simile per esaminare gli studi di biologia del cancro.

"Per il metodo scientifico è essenziale che gli esperimenti siano riproducibili", dice Gilbert Chin, redattore di “Science”. "Vale a dire che una persona diversa dallo sperimentatore originale deve essere in grado di ottenere gli stessi risultati seguendo lo stesso protocollo sperimentale". Quanto più uno studio può essere replicato facilmente, tanto più affidabili sono i suoi risultati. Ma “è andata crescendo la preoccupazione che la riproducibilità possa essere inferiore a quanto previsto o desiderato", spiega Brian Nosek, professore di psicologia all'Università della Virginia e coautore dell'articolo.

La difficile riproducibilità degli studi di psicologia
© Astier/BSIP/Corbis

Per affrontare il problema, scienziati di varie discipline hanno fondato il Center for Open Science (COS) con sede a Charlottesville, in Virginia. Il Reproducibility Project: Psychology, la prima iniziativa di ricerca del COS, ha iniziato a reclutare volontari nel 2011. Ai vari team coinvolti - per un totale di 270 ricercatori – è stato chiesto di scegliere tra un insieme di studi (tutti su argomenti di scienza di base e che non richiedevano campioni o attrezzature specializzati) apparsi nel 2008 su una di queste tre riviste di psicologia: “Psychological Science”, “Journal of Personality and Social Psychology”

e “Journal of Experimental Psychology: Learning, Memory and Cognition”.

In generale, nelle repliche degli studi i dati sono apparsi più deboli. Quanto più robusti erano i dati iniziali – ivi compresa una maggiore dimensione dell'effetto – tanto più era probabile che i risultati fossero riprodotti.

L'esito del Reproducibility Project: Psychology è stato "un po 'deludente", ha detto Chin durante una teleconferenza, sottolineando però che non mette necessariamente in dubbio la validità delle teorie testate né le conclusioni tratte. Il processo scientifico comporta "una continua messa alla prova e valutazione delle teorie e degli esperimenti". Anche gli esperimenti non riproducibili contribuiscono alla nostra comprensione della scienza, aiutando a escludere spiegazioni alternative. Piuttosto, lo studio suggerisce che "dovremmo fidarci un po' meno di molti dei risultati sperimentali originali che vengono prodotti come prova empirica a sostegno di quelle teorie."

La difficile riproducibilità degli studi di psicologia
I coefficienti di correlazione fra i risultati dello studio originale e le repliche. La linea tratteggiata rappresenta una riproducibilità pari a 0 dei risultati originali. I punti al di sotto di essa indicano risultati che vanno in direzione opposta dell'originale. In blu sono indicati  i risultati significativi e in rosso quelli non significativi (Cortesia Open Science Collaboration/Science/AAAS)

Alan Kraut, direttore esecutivo della Association for Psychological Science e membro del consiglio del COS, ha fatto un'osservazione simile: le inevitabili differenze fra i partecipanti allo studio, i tempi, il luogo, le competenze del gruppo di ricerca e molti altri fattori influenzeranno sempre i risultati. "L'unico risultato che sarà replicato il 100 per cento delle volte - ha dettp Kraut - è quello che rischia di essere banale e noioso."

I gruppi hanno ricevuto i protocolli e i programmi di analisi dello studio originale e si sono anche consultati con gli autori, in modo da far corrispondere l'impianto del loro studio con quello originale. Conclusi gli esperimenti, i coordinatori del Progetto hanno aggregato i dati e rivisto in modo indipendente le analisi.

Il successo della replica è stato valutato in base ai seguenti criteri: significatività statistica e valori di p - una valutazione della probabilità di un evento all'interno di una verosimiglianza predeterminata (in genere il 95 per cento, o di valore di p di 0,05); la dimensione dell'effetto, che indica la forza del fenomeno testato; il giudizio soggettivo del gruppo di replica; e una meta analisi delle dimensioni degli effetti di tutti i 100 esperimenti. Sono state considerate anche altre caratteristiche che avrebbero potuto influire sui risultati, tra cui la dimensione del campione, il cosiddetto "effetto sorpresa" e la competenza del gruppo originale.

L'analisi finale ha riportato che, mentre il 97 per cento degli studi originali annunciava risultati statisticamente significativi (ottenendo un valore di p pari a 0,05 o inferiore) questo è avvenuto solo nel 36 per cento delle repliche.

L'uso del valore p, tuttavia, ha una debolezza intrinseca, poiché considera 0,05 come una “chiara” linea di demarcazione tra risultati significativi e non significativi. Per risolvere il problema, i ricercatori hanno esaminato anche la dimensione dell'effetto. E gli esperimenti replicati se la cavavano un po' meglio se venivano misurati in questo modo.

In totale, il 47 per cento delle repliche ha mostrato un effetto che corrispondeva ai risultati originali con una confidenza del 95 per cento, anche se generalmente l'intensità dell'effetto era ridotta. Soggettivamente, il 39 per cento dei gruppi ha ritenuto di essere riuscito a riprodurre con successo lo studio originale.

E' interessante notare la scoperta che alcuni tipi di studi avevano più probabilità di essere riprodotti rispetto ad altri. Solo il 25 per cento circa dei 57 studi di psicologia sociale compresi nel progetto sono stati riprodotti con successo, contro il 50 per cento dei 43 studi di psicologia cognitiva. Gli studi di psicologia sociale hanno avuto anche dimensioni dell'effetto più deboli. Inoltre, quanto più era semplice l'impianto dell'esperimento originale, tanto più affidabili erano i suoi risultati. I ricercatori hanno anche scoperto che gli effetti "sorprendenti" erano i meno riproducibili.

Lo studio ha escluso le ricerche che avevano richiesto tecniche avanzate di neuroimaging, escludendo forse così anche esperimenti con un  livello di precisione elevato, che avrebbero potuto essere replicati più facilmente. Ma gli autori notano che il problema della riproducibilità persiste in tutti i campi della scienza, forse in parte anche a causa della corsa alla pubblicazione.

"La pubblicazione è la moneta della scienza", dice Nosek. "Per avere successo, i miei collaboratori e io abbiamo bisogno di pubblicare regolarmente, e su riviste il più prestigiose possibile". Ma, aggiunge, le riviste accademiche danno la priorità a "risultati nuovi, positivi e ben inquadrati". Gli studi che non riescono a trovare un risultato significativo raramente vedono la luce del giorno. Inoltre, le repliche di esperimenti già pubblicati - che pure sono di vitale importanza per l'avanzamento della scienza – hanno molte meno probabilità di superare la peer review.

Per cambiare la situazione – ha dichiarato Marcia McNutt, direttore di “Science” - recentemente la sua e altre riviste hanno stabilito linee guida che incoraggiano una maggiore trasparenza e apertura nei loro processi di selezione e revisione degli articoli. E aggiunge che "autori e redattori dovrebbero usare maggiore cautela nel pubblicare risultati solo marginalmente significativi, dato che sono quelli che hanno meno probabilità di essere riprodotti." Se si perde di vista questo fatto, conclude Nosek, "allora la letteratura pubblicata potrebbe abbellire la realtà. "

(La versione originale di questo articolo è apparsa su www.scientificamerican.com il 27 agosto. Riproduzione autorizzata, tutti i diritti riservati)

Leave a Reply