Les chercheurs en psychologie s’écharpent, et nous ne devrions …

Des «découvertes importantes» n'ont pas été répliquées, et c'est toute la science qui pourrait avoir à repenser son mode de fonctionnement

Les psychologues sont sur le pied de guerre. La pomme de discorde porte avant toutes choses sur le processus éditorial à l'origine d'une récente publication, un hors-série de la revue Social Psychology.

A première vue, on pourrait se dire qu'il s'agit d'une énième histoire de spécialistes se regardant le nombril dans leur tour d'ivoire, mais ses conséquences dépassent de loin les frontières de la simple recherche universitaire.

En l'espèce, cette revue entendait répliquer 27 «découvertes importantes en psychologie sociale». La réplication –soit le fait de répéter le plus identiquement possible une expérience pour voir si vous tombez sur les mêmes résultats– est l'une des pierres angulaires de la méthode scientifique. La réplication d'une expérience est cruciale parce qu'elle permet non seulement de détecter de rares cas de fraude authentique, mais aussi parce qu'elle empêche de considérer comme acquis des résultats qui ne sont en réalité que de faux positifs, qu'elle aide les chercheurs à affiner leurs méthodes expérimentales et qu'elle établit l'existence de faits nouveaux que les théories scientifiques doivent être en mesure d'expliquer.

Le cas de l'étude établissant un lien entre propreté et sévérité morale

Dans le hors-série en question, un article en particulier concerne l'échec de réplication d'une étude très médiatisée et publiée en 2008 par l'équipe de Simone Schnall, aujourd'hui professeur titulaire à l'Université de Cambridge.

Dans l'étude originale, 40 étudiants de premier cycle devaient reconstituer des phrases, avec une moitié des participants ayant affaire à des mots relevant du champ lexical de la propreté («pur» ou «immaculé», par exemple) et l'autre des mots neutres. Dans une seconde expérience, 43 étudiants devaient regarder la scène des «toilettes» du film Trainspotting, un extrait foncièrement écœurant, en s'étant préalablement lavé les mains pour une moitié des participants, et pour l'autre moitié non.

Dans les deux expériences, tous les sujets devaient ensuite évaluer le degré de bassesse morale de six scénarios fictifs, impliquant notamment le fait de mentir sur son CV ou encore de garder l'argent d'un portefeuille trouvé dans la rue.

Selon les observations des chercheurs, les sujets préalablement incités à penser à la propreté avaient fait preuve d'une sévérité morale bien moindre que les autres un effet «substantiel», selon les scientifiques. Ainsi, ceux qui s'étaient lavé les mains ou qui avait reconstitué des phrases relatives à la propreté avaient jugé moins durement les scénarios proposés.

La conclusion de cette étude: que les gens qui se sentent eux-mêmes relativement purs –qu'importe qu'ils en aient ou non conscience– se sentent aussi moins dérangés par les souillures d'autrui. Le papier fut relayé par ABC News, The Economist et le Huffington Post, entre autres, et a depuis été cité à plus de 200 reprises dans la littérature scientifique.

Pour autant, les «réplicateurs» –David Johnson, Felix Cheung et Brent Donnellan (deux étudiants de troisième cycle et leur directeur de recherches) de l'Université d’Etat du Michigan– n'ont pas trouvé une telle différence, même en enrôlant quasiment quatre fois plus de participants que les expériences d'origine.

Chagrinée par plusieurs aspects du processus de réplication, Schnall décide alors de faire publiquement part de ses inquiétudes, une première fois auprès d'un journaliste traitant du sujet pour Science et une seconde sur son blog personnel. Elle y explique notamment que lorsque les chercheurs de l'Université d’Etat du Michigan l'ont informée de leur projet, elle leur a volontiers transmis toute la base matérielle utilisée dans son expérience (les dilemmes moraux proposés, les méthodes choisies, etc.). Qu'elle avait aussi accepté l'invitation des éditeurs de la revue de participer au comité de lecture chargé de vérifier le protocole expérimental et les analyses statistiques que les réplicateurs prévoyaient de mettre en œuvre. Mais, qu'ensuite, elle avait eu l'impression d'être mise sur la touche.

En l'espèce, même si Schnall avait approuvé la méthode choisie par les réplicateurs pour collecter et analyser leurs données, ni elle, ni personne d'autre d'extérieur à l'équipe éditoriale n'avait finalement contrôlé les résultats de la réplication. En effet, quand les réplicateurs avaient partagé avec elle leurs données et analyses, elle leur avait demandé deux semaines pour les vérifier et tenter de comprendre pourquoi ils n'avaient pas réussi à reproduire ses premiers résultats, mais c'était trop tard, car leur manuscrit avait déjà été accepté pour publication.

Une fois son article accepté, Donnellan avait d'ailleurs publié un post sur son blog, largement partagé sur Twitter, pour avertir que son équipe n'a pas réussi à répliquer les résultats de Schnall.

Dans ses grandes largeurs, le post de Donnellan relève d'un style universitaire parfaitement sobre et analytique, mais le scientifique a choisi pour titre «Vois grand ou va voir ailleurs» –en référence à la nécessité d'échantillons plus conséquents comme moyen d'éviter des résultats accidentellement positifs– et, à un moment de son argumentaire, qualifie la non-réplication de l'étude originale d'«échec cuisant» pour Schnall et ses collègues.

Pour avoir osé «dire la vérité aux puissants», Simone Schnall est comparée à Rosa Parks

Après avoir analysé les nouvelles données, Schnall formule une explication qui permet de comprendre pourquoi le groupe de Johnson n'a pas réussi à répliquer son étude. Mais les éditeurs invités du hors-série (les chercheurs en psychologie sociale Brian Nosek, de l’Université de Virginie, et Daniel Lakens, de l'Université de technologie d'Eindhoven), s'ils ont pu au départ laisser entendre que les auteurs des études d'origine et soumises à réplication «pourraient» être invités à réagir, lui affirment désormais qu'il n'y a pas de place pour eux dans la revue. Les éditeurs s'inscrivent aussi en faux contre son argument voulant qu'une erreur «invalide» la réplication et défendent leur intervention éditoriale. (Selon Schnall, l'erreur concerne des questions techniques relatives aux mesures et aux statistiques, un argument qu'ont depuis examiné plusieurs experts en méthodologie. A l'heure actuelle, le consensus tend à lui donner tort sur ce point.)

Par la suite, le rédacteur en chef de Social Psychology accepte de publier un numéro entier pour permettre aux auteurs originaux et à leurs réplicateurs de faire entendre leurs arguments, mais comme Schnall l'explique à Science, un tel procédé lui donne le sentiment «d'être le suspect d'un crime qui a simplement un droit à la défense, sans aucun moyen de gagner».

L'article de Science sur le hors-série est intitulé «Un projet de réplication à grande échelle suscite des louanges –et des accusations d'“indimidation”». Dans Science et sur son blog, Schnall affirme en effet que son travail a été «diffamé», ce qui lèse à la fois sa réputation et met en danger ses éventuels financements. Elle craint aussi qu'au moment où sa réponse sera enfin publiée, le débat ne soit plus d'actualité et que ses commentaires passent inaperçus.

Elle n'aurait pas pu se tromper davantage.

Dans une déferlante de tweets, commentaires Facebook et autres posts de blog, un grand nombre de chercheurs en psychologie sociale font de la réaction de Schnall le cri du cœur contre l'influence grandissante des «petits tyrans de la réplication», de la «police des faux positifs» et des «inspecteurs des données finies».

Pour avoir osé «dire la vérité aux puissants», Schnall est comparée à Rosa Parks. La «police de la réplication» est décrite comme une armée de «petits persécuteurs sans vergogne», des «petits flics auto-proclamés et auto-satisfaits» engagés dans un processus «clairement pas conçu pour rechercher la vérité», des «seconds couteaux» incapables de la moindre contribution innovante à la littérature et –en résumé–, des «trous du cul».

Parallèlement, d'autres commentateurs affirment ou laissent fortement entendre que Schnall et d'autres auteurs qui n'ont pas vu leurs études répliquées ont mis en œuvre des procédés méthodologiques problématiques, dans le seul but d'obtenir des résultats «sexy» et facilement publiables.

Au bout d'un moment, de telles insinuations se heurtent à des menaces d'actions en justice.

Brent Donnellan va finir par s'excuser pour son choix de titre et de vocabulaire, et un autre chercheur fera de même pour avoir laissé entendre que le travail original de Schnall n'était peut-être pas complètement «honnête». Mais pendant un temps bien trop long, le débat se poursuivra pour savoir qui a utilisé les bons mots ou le bon ton, quelle carrière avait le plus à perdre, quels projets de recherche ont eu le plus à en pâtir et qui a fait quoi à qui –et quelles étaient ses réelles motivations.

Que retenir de cette controverse?

L'histoire pourrait simplement confirmer l'adage voulant que si la politique universitaire est très moche, c'est que les enjeux y sont très bas. Et le scandale du #repligate aura atteint un rare degré d'intensité, même à l'échelle académique. Pour autant, les enjeux sont loin d'être dérisoires pour le commun des mortels. Car le savoir scientifique n'est pas produit par les seuls scientifiques, et ils ne sont certainement pas les seuls à y avoir un intérêt.

Une très grande partie de la science, y compris psychologique, ne serait tout simplement pas possible sans les financements des gouvernements, des fondations et des universités. Des bailleurs de fonds pour qui la qualité et la validité des recherches représentent des enjeux évidents.

La science dépend souvent du sang, de la sueur et des larmes de ses sujets humains

Ces dernières années, les membres du Congrès ont été nombreux (notamment dans les rangs républicains) à faire part de leur profond scepticisme quant à la valeur des sciences comportementales. La National Science Foundation (NSF), qui finance beaucoup de recherches dans ces disciplines (y compris celles menées par Schnall et objet de l'étude de 2008) est une cible très fréquente de leurs attaques. En juin, la Chambre des Représentants a passé un amendement visant à ré-allouer 15 millions de dollars du budget de la NSF, à l'origine dédiés à des recherches en sciences sociales, comportementales ou économiques, vers des travaux en sciences physiques, biologie, informatique, mathématiques et ingénierie.

Ceux qui s'opposent aux financements des sciences comportementales font une grossière erreur: ils estiment que la seule science digne de ce nom se trouve dans les «sciences dures». Les sciences sociales peuvent être tout aussi précieuses, mais difficile de démontrer la valeur d'une expérience quand vous ne pouvez même pas en démontrer la réplicabilité.

La science dépend souvent du sang, de la sueur et des larmes de ses sujets humains, entre autres bio-spécimens, mais elle dépend aussi de leur temps et de leur disposition à revivre des expériences traumatisantes, à accepter des risques en matière de vie privée, etc.

Selon des réglementations internationales et des protocoles universitaires d'envergure, le caractère éthique de recherches impliquant des sujets humains est assuré si ces recherches sont convenablement conçues et sont susceptibles de répondre à une question majeure.

La science prend de plus en plus de place dans nos vies

Les sujets sont considérés comme des altruistes capables d'assumer des risques et des coûts, parfois réduits et parfois grands, afin d'aider à l'avancement de la science. Et une étude mal conçue et/ou visant à répondre à une question triviale est considérée comme non susceptible de générer des bénéfices sociaux surpassant ces coûts et ces risques.

Selon notre propre avis non-orthodoxe, vu que les sujets sont souvent motivés par des objectifs (une rétribution financière, une attention médicale gratuite ou de la curiosité scientifique) qu'ils réaliseront que l'étude fasse ou non avancer la science, il n'est pas automatiquement non-éthique de les inviter à une étude risquant d'être mal conçue et/ou triviale.

Depuis qu'elle a touné le dos à Freud, la psychologie nous en a bien plus appris sur la nature humaine

Et il y a aussi danger à vouloir que les comités d'éthique fassent appliquer de telles règles de manière trop stricte, car souvent, ce qui pourrait passer pour une critique de la méthode ou de l'importance d'un projet de recherche, relève en réalité de désaccords internes entre scientifiques, et des scientifiques ne devraient pas avoir le droit d'entraver les recherches de leurs collègues à cause de querelles de chapelle.

Pour autant, bon nombre d'individus acceptent de participer à des recherches en s'attendant à ce que tout soit mis en œuvre pour que les résultats obtenus soient corrects. Et en science, la réplication est le moyen le plus basique de s'en assurer.

Mais le plus important concerne peut-être l'ascendance intellectuelle de la science. La recherche, que ce soit en sciences naturelles ou sociales, influe de plus en plus –et à raison– sur d'autres branches du savoir et parvient jusqu'aux oreilles des dirigeants et autres décideurs politiques.

Depuis qu'elle a tourné le dos à Freud pour prendre résolument la direction de la recherche empirique, la psychologie nous en a davantage appris sur la nature humaine que nous n'en avions jamais compris auparavant.

L'histoire de la psychologie sociale, en particulier, est jalonnée de découvertes fondamentales et de vérités qui dérangent.

Pour ne mentionner que deux exemples, les études sur la conformité menées par Solomon Asch dans les années 1950 et celles sur la soumission à l'autorité conduites par Stanley Milgram dans les années 1960, nous ont montré combien nos comportements pouvaient être influencés, et ce jusqu'à un point terrible, par les actions de ceux qui nous entourent. Ainsi, les célèbres observations de Milgram selon lesquelles une très large majorité de sujets peuvent obéir à des instructions leur disant de soumettre un autre humain à un courant électrique de 450 volts n'avaient pas été prévues à l'avance, même par un groupe de psychiatres.

La réplication est beaucoup trop rare en psychologie

Mais si tous ceux qui rendent possible la recherche en psychologie –financiers, volontaires, consommateurs– ne peuvent avoir la garantie que sa véracité sera confirmée, alors la confiance sociale nécessaire à la survie de ces projets s'en verra forcément érodée.

Le souci, c'est que la publication de réplication est toujours un phénomène malencontreusement rare en psychologie. Une enquête publiée en 2012 et portant sur les cent principales revues de psychologie avait trouvé que seuls 1% des papiers publiés depuis 1900 étaient d'authentiques tentatives de répliquer des découvertes antérieures.

Certaines revues parmi les plus prestigieuses ont des directives explicitement défavorables à la réplication; par exemple, le Journal of Personality and Social Psychology a publié un papier soutenant l'existence de «précognitions», une forme de perception extrasensorielle, mais ne publiera pas d'article qui n'arrivera pas à répliquer cette découverte (ou n'importe quelle autre). Science permet la publication de «commentaires techniques» à ses propres articles, mais uniquement s'ils sont soumis dans les trois mois suivant la publication originale, ce qui laisse peu de temps pour mener et consigner une tentative de réplication.

La «crise de la réplication» n'est absolument pas spécifique à la psychologie sociale, aux sciences psychologiques, ni même aux sciences sociales. Selon une formule célèbre de John Ioannidis, épidémiologiste de Stanford et remontant à près de dix ans, «la plupart des résultats de recherche sont faux, dans la plupart des protocoles et dans la plupart des disciplines».

Depuis, des échecs de réplication et autres failles majeures ont été détectés à travers toute la science, que ce soit dans des recherches sur le cancer, la génétique de maladies complexes comme l'obésité et les troubles cardiovasculaires, les cellules souches et dans des études sur les origines de l'univers. Au début de l'année, les National Institutes of Health (NIH) publiaient un communiqué dans lequel on pouvait lire:

«Le système complexe assurant la reproductibilité des recherches biomédicales n'est pas efficace et nécessite une restructuration.»

Quand on connaît les enjeux en présence, et sa centralité dans la méthode scientifique, on pourrait trouver étrange que la réplication tienne davantage de l'exception que de la règle.

Au moins 10 des 27 «importantes découvertes» en psychologie sociale ne passent pas l'épreuve de la réplication

Les explications du phénomène sont variées, mais la plupart se résument aux motivations perverses qui gouvernent la recherche. Les revues et journaux scientifiques considèrent en général que les découvertes «positives» –c'est-à-dire établissant une corrélation nouvelle ou confirmant une hypothèse théorique– sont plus intéressantes que les «négatives» –tout ce qui dit que telles ou telles choses n'ont aucun rapport ou que telle théorie n'a aucune assise. Et plus la découverte positive sera surprenante, mieux ce sera, même si le caractère surprenant d'une découverte diminue statistiquement la probabilité de sa pertinence.

Par ailleurs, comme les publications scientifiques sont des denrées précieuses sur le marché académique, les chercheurs –notamment ceux qui en sont au début de leur carrière– sont fortement incités à mener des recherches originales, plutôt qu'à répliquer les travaux antérieurs de leurs collègues. En outre, quand une tentative de réplication est mise en œuvre, mais qu'elle ne réussit pas à trouver le résultat escompté, l'article qui la consigne va plutôt finir à la poubelle que dans une revue. Ce qui fait passer la littérature scientifique pour plus solide et plus exhaustive qu'elle ne l'est réellement –un phénomène que l'on désigne par le terme d'«effet tiroir».

L'accent mis sur les découvertes positives pourrait aussi expliquer pourquoi, quand des études originales sont soumises à réplication, un si grand nombre se révèlent être des faux positifs.

La préférence quasi-universelle pour les découvertes positives et contre-intuitives incite les chercheurs à manipuler leurs méthodes ou à tripatouiller leurs données jusqu'à ce qu'ils trouvent un résultat positif. Une pratique courante que l'on appelle le p-hacking [littéralement «p-piratage»] et qui peut générer une valeur-p, une des mesures de significativité statistique, grâce à laquelle les résultats paraîtront plus solides, et donc plus fiables, qu'ils ne le sont réellement.

Voici quelques années, des chercheurs avaient réussi à publier quelques non-réplications de célèbres expériences d'amorçage social. En partie en réponse, le chercheur en psychologie cognitive et lauréat du prix Nobel Daniel Kahneman, dont l’œuvre a une influence considérable en droit, politique, économie et ailleurs, avait rédigé une lettre ouverte aux spécialistes de psychologie sociale travaillant dans ce domaine.

Comment contrer le «p-hacking»?

Lui-même se définissait comme porteur d'une «croyance générale» envers de tels effets et soulignait qu'il avait pu les citer dans ses propres travaux. Mais Kahneman mettait en garde contre un «désastre imminent» pour les recherches en amorçage social. «Les collègues qui, par le passé, ont pu assimiler vos résultats surprenants à des faits au moment de leur publication (…) inscrivent désormais un grand point d'interrogation sur toute la discipline», écrivait-t-il, «et il en va de votre responsabilité de l'effacer».

Le récent hors-série de Social Psychology relevait justement d'une telle initiative, inédite et collective, menée par des chercheurs en psychologie sociale: jouer sur les motivations des chercheurs et des éditeurs afin de vérifier la solidité de quelques-unes des découvertes les plus médiatisées de leur discipline.

Tous les chercheurs désireux de mener une réplication étaient invités à se faire connaître: avant de collecter la moindre donnée, ils devaient soumettre un projet détaillant précisément comment ils comptaient s'y prendre pour réitérer l'expérience originale et analyser leurs données. Les propositions étaient ensuite contrôlées par d'autres chercheurs, y compris ceux ayant mené l'étude d'origine et, une fois approuvées, elles avaient la garantie d'être publiées. Le préenregistrement et l'analyse des procédures envisagées entendaient contrecarrer le p-hacking, la garantie de publication était là pour faire obstacle à l'effet tiroir et une obligation d'échantillons conséquents devait permettre une détection plus facile d'effets modestes quoique statistiquement significatifs.

Les résultats sont déprimants. Au moins 10 des 27 «importantes découvertes» en psychologie sociale ne passent pas l'épreuve de la réplication. Et concernant l'amorçage social, seule une des sept réplications a pu déboucher sur une réussite.

En science, comme dans «Le Parrain», il n'y a rien de personnel, ce ne sont que les affaires

La brutalité et les attaques personnelles qui entourent de telles tentatives de réplication (et d'autres avant elles) pourrait détourner l'attention des chercheurs de la direction qu'elle se doit de prendre: produire la science solide dont tout le monde a besoin et que tout le monde mérite. Bien sûr, les chercheurs sont des êtres humains, pas des robots élevés en laboratoire, et il est donc parfaitement compréhensible que certains soient déçus, voire se sentent persécutés, quand d'autres ne réussissent pas à répliquer leurs études. Et, parallèlement, il est compréhensible que certains réplicateurs éprouvent de la fierté et de la satisfaction à contribuer à la littérature en remettant en question la solidité de découvertes célébrées et médiatisées.

Mais la possible inquiétude suscitée par de telles réactions émotives et naturelles ne devrait pas nous inciter à une réécriture des règles de la science.

Publier un résultat scientifique, c'est affirmer quelque chose de la réalité. La réalité n'appartient pas aux chercheurs, elle appartient encore moins à un chercheur en particulier et toute affirmation à son sujet nécessite d'être vérifiée. Les critiques d'affirmations scientifiques, ou les tentatives de les répliquer, devraient donc toujours concerner –et concernent en général– la réalité, pas le chercheur qui les a formulées. En science, comme dans Le Parrain, il n'y a rien de personnel, ce ne sont que les affaires.

Une manière de mettre les choses en perspective est de se rappeler que la vérité scientifique est générée par l'accumulation de résultats au cours du temps, pas par l'éclat ou le bruit d'une étude individuelle. Et un seul échec de réplication n'invalide pas nécessairement un effet rapporté antérieurement, pas plus qu'il ne dénonce une fraude dont se serait rendu coupable le chercheur d'origine –ou le réplicateur. En outre, quand les chercheurs ne réussissent pas à répliquer un effet, c'est souvent du fait de raisons triviales, comme par exemple l'insuffisance d'un échantillon, des erreurs d'inadvertance dans les procédures ou l'analyse des données, mais aussi d'autres facteurs plus subtils relevant du protocole expérimental ou des sujets testés, qui modifient l'effet en question d'une façon dont on n'avait pas encore conscience.

Mais la réserve que doivent susciter les études isolées va aussi dans les deux sens.

La responsabilité de ceux qui «reçoivent» l'étude

Trop souvent, une étude originale est traitée –par les médias et même par bon nombre de membres de la communauté scientifique– comme si elle établissait un effet de manière définitive. Des publications comme la Harvard Business Review et des conférences comme celles organisées par TED, deux sources considérables de «leadership intellectuels» pour les politiques et les chefs d'entreprise du monde entier, génèrent un flux constant de ce genre de «stats et curiosités».

A priori, les éditeurs de la HBR et les organisateurs des conférences TED croient sans doute sincèrement que ces informations sont véridiques et recevables. Mais, au départ, la plupart des nouvelles découvertes nécessitent pourtant d'être envisagées avec scepticisme, tant elles peuvent elles aussi résulter d'erreurs ou de bavures méthodologiques non consignées et/ou non remarquées.

Toutes les personnes concernées devraient donc focaliser leur attention sur l'établissement d'une base factuelle et commune constituée de solides régularités empiriques –des résultats qui ne sont pas simplement répliqués une seule fois, mais de manière répétée–, et non pas d'une succession de données insolites, fussent-elles brillantes.

Par ailleurs, ceux qui créent les motivations à produire tel ou tel type de recherche devraient aussi mettre du leur pour réinitialiser les attentes et réaligner les priorités.

Les bailleurs de fonds, par exemple, devraient économiser un peu d'argent pour confirmer les résultats d'études qu'ils ont déjà financées et, à l'instar des NIH, réfléchir à des changements à opérer dans la manière de contrôler l'attribution de leurs subventions.

Comme le disait Carl Sagan, les affirmations extraordinaires requièrent des preuves extraordinaires

Les revues, les journalistes scientifiques et les comités de recrutement et d'évaluation universitaires devraient considérer les protocoles de recherche méticuleux ET les protocoles de confirmation comme contribuant à parts égales à notre base de connaissances communes et méritant dès lors la même attention soutenue. Ainsi, les auteurs d'origine dont les recherches ne sont pas répliquées se sentiraient moins menacés par de tels résultats, et ceux qui ne réussissent pas à répliquer des études «canoniques» seraient moins incités à crier victoire si de simples points factuels isolés et a priori provisoires étaient justement considérés comme tels, et que les récompenses allouées à la production de telles étapes sur le chemin du savoir –que ce soit par des recherches originales ou des réplications, que leurs résultats soient positifs ou négatifs– étaient distribuées de façon plus équitable.

Pour rendre un peu moins personnelles les guerres de la réplication, on pourrait aussi admettre que, contrairement à ceux qui prétendent y voir des attaques arbitraires contre tel ou tel chercheur, il existe des raisons légitimes à allouer des ressources limitées à la réplication d'une étude en particulier, et pas d'une autre.

Il n'y a pas grand intérêt à répliquer certaines études sélectionnés au hasard dans une certaine discipline, vu que la science ne progresse pas en formulant des jugements généraux sur des pans entiers de la recherche. Elle progresse en établissant la vérité ou la fausseté d'un effet particulier –ou, plus précisément, en établissant l'envergure et la fiabilité d'effets spécifiques.

Selon la célèbre mise en garde de Carl Sagan, désormais enseignée à tous les étudiants, des affirmations extraordinaires requièrent des preuves extraordinaires. Ce qui signifie que, lorsque des études originales sont surprenantes, qu'elles observent des effets importants, ou qu'elles semblent contredire d'autres découvertes jusqu'ici établies, elles devraient être soumises à un examen encore plus approfondi que d'habitude –et donc à des tentatives de réplication.

Les scientifiques sont censés être sceptiques face aux idées reçues

Bien évidemment, on pourrait raisonnablement contester le caractère réellement extraordinaire de telle ou telle affirmation. Bon nombre de chercheurs en psychologie sociale estiment que les résultats des recherches en amorçage social ne sont pas du tout surprenants et, globalement, les envies de les répliquer chatouillent plutôt les représentants d'une discipline voisine, la psychologie cognitive.

Ce n'est pas parce que les psychologues cognitivistes préfèrent la destruction à la construction, ou parce qu'ils ont épuisé toutes leurs idées créatives. Si certains cognitivistes sont susceptibles de trouver extraordinaires les affirmations de l'amorçage social, c'est qu'elles semblent contredire ce que leur propre champ disciplinaire a pu affirmer sur le fonctionnement du cerveau et de l'esprit. La science est une grande toile de relations de cause à effet entre des concepts, et ces relations doivent, sur le long terme, être mutuellement cohérentes entre les disciplines et au sein des disciplines elles-mêmes.

Dès lors, est-ce qu'on pourrait penser que certains réplicateurs sont motivés, consciemment ou non, à ne pas réussir à répliquer des recherches originales, car celles-ci contredisent leur théorie ou réalité favorite? C'est certain. Mais la plupart des tentatives de réplications proviennent en réalité d'un intérêt sincère pour la découverte originale et d'un désir de la comprendre et d'en étendre le champ d'application.

Il n'y a aucune raison de penser que les réplicateurs aient davantage envie de «mettre en échec» une étude originale, que de «réussir» à trouver d'autres preuves pour l'effet démontré. Les universitaires, notamment quand ils sont scientifiques, sont censés être sceptiques face aux idées reçues, formuler leurs idées en les fondant uniquement sur des preuves matérielles et être disposés à les modifier si jamais ces preuves en viennent à évoluer. Mais comme les psychologues le savent mieux que personne, les scientifiques ne sont pas dénués de motivations humaines et susceptibles d'influencer leur travail, que ce soit consciemment ou inconsciemment.

Pour des universitaires, il est facile de s'impliquer professionnellement et même personnellement dans une hypothèse ou une conclusion. Des biais atténués en partie par le processus d'évaluation par les pairs et en partie par le grand marché des idées –en laissant les chercheurs aller là où leurs intérêts ou leur scepticisme les porte, en encourageant la plus grande transparence possible de leurs méthodes, données et résultats, et en promouvant les débats contradictoires. D'éventuels conflits entre chercheurs d'obédiences théoriques diverses se doivent de rester cordiaux; mais, en eux-mêmes, ces échanges sont un élément tout à fait sain de l'entreprise scientifique.

Comme les psychologues le savent mieux que personne, les scientifiques ne sont pas dénués de motivations humaines

Et c'est en partie pourquoi nous ne pouvons pas être d'accord avec une proposition encore plus récente formulée par Kahneman, celui-là même qui avait déjà exhorté les chercheurs en amorçage social à balayer devant leur porte.

Dans le hors-série de Social Psychology, il signe ainsi un article dans lequel il propose une règle –que devront faire appliquer les comités de lecture chargés de vérifier les projets de réplication et les manuscrits finaux– à savoir garantir aux auteurs «un rôle significatif dans la réplication de leurs travaux». Kahneman envisage un processus spécifique dans lequel les réplicateurs devraient consulter les auteurs originaux et, dans Science, il affirme que, concernant le hors-série, «les consultations n'ont pas atteint le niveau d'implication des auteurs que je recommande».

Une collaboration entre des parties opposées permettrait probablement d'éviter pas mal de ruées dans les brancards et, dans certains cas, pourrait même se révéler productive et résoudre des conflits.

Eu égard à la récente controverse, compte-tenu du potentiel impact d'un numéro entier d'une revue contestant la robustesse de «découvertes importantes», et de l'envie manifeste de ses éditeurs de voir un grand nombre de chercheurs en psychologie y adhérer, il aurait été préférable pour tout le monde que les commentaires des chercheurs originaux soient publiés en même temps que les réplications, plutôt que de les laisser pour plus tard. Mais une consultation ou une collaboration ne sont pas quelque chose que les réplicateurs doivent aux chercheurs de départ, et une directive visant à les rendre obligatoires ne relève pas vraiment d'une bonne politique scientifique.

Les réplicateurs n'ont aucune obligation d'impliquer systématiquement les auteurs d'origine, parce que ces auteurs ne sont pas les propriétaires de leurs méthodes ou de leurs résultats. En publiant leurs résultats, ces auteurs statuent qu'ils s'y fient suffisamment pour les voir inclus dans la littérature scientifique. Et c'est une littérature qui appartient à tout le monde. Tout le monde devrait être libre de mener n'importe quelle expérience, qu'importe qui a pu la mener en premier et en publier les résultats, quels que soient ce résultats.

En outre, une collaboration entre «originateurs» et réplicateurs de découvertes importantes pourrait avoir certains inconvénients.

Selon l'enquête de 2012 portant sur les cent revues de psychologie les plus éminentes de ces cent et quelques dernières années, «les réplications étaient significativement moins susceptibles de réussir quand il n'y avait pas de chevauchement entre les auteurs des articles originaux et ceux des réplications».

De la difficulté de «répliquer»

Il est possible que les auteurs d'origine soient capables de corriger des erreurs dans la méthodologie de la réplication ou dans l'analyse des données qui, autrement, auraient abouti à une non-réplication. Mais il est tout aussi probable que les auteurs de départ biaisent les résultats de diverses manières, et y assignent notamment un biais de réussite. Une réplication indépendante et tenue à une distance raisonnable de l'article d'origine est le meilleur test de validité et de reproductibilité d'un résultat scientifique: toutes choses égales par ailleurs, une réplication avec ou à l'aide des chercheurs de départ aura une valeur de preuve inférieure.

Mais les choses sont-elles vraiment égales par ailleurs? Kahneman souligne à raison que les méthodes de la plupart des articles consignant des recherches originales ne sont pas suffisamment détaillées pour permettre à des tiers de mener des réplications suffisamment précises. Par conséquent, si l'objectif est de répliquer ce que les auteurs d'origine ont pu faire, des échanges initiaux avec eux afin d'en apprendre davantage sur leurs méthodes pourraient, de fait, se révéler souvent nécessaires à la validité scientifique de la réplication.

Néanmoins, un autre objectif légitime et ne requérant pas d'échanges avec les auteurs originaux est de répliquer ce que les auteurs ont rapporté. Après tout, c'est bien ce qui a été inclus dans la base de données publique en tant qu'affirmation sur la réalité.

Si une première étude consigne que «si X et Y sont effectués, alors A survient», ses auteurs ne pourront pas rétorquer à ceux qui n'ont pas réussi à la répliquer, et à produire A de X et Y, en mettant subitement l'accent sur un autre facteur, Z, qui serait en réalité essentiel pour pouvoir reproduire l'effet. Dès lors, une honnête tentative de répliquer exactement ce qui a été publié ne peut pas être considérée comme non valable.

Plutôt que de compromettre l'indépendance des réplications en exigeant que leurs auteurs consultent ceux de l'étude d'origine, les futurs standards scientifiques devraient exiger que les premiers auteurs rendent obligatoirement et publiquement accessibles tous les éléments nécessaires à la réplication précise de leur étude, et ce au moment même de sa publication. Ce qui serait comparable au compromis qui est au cœur du droit américain des brevets.

Faire comme pour les brevets

Un inventeur se voit accorder un monopole temporaire sur son invention, en échange d'une description publique et suffisamment précise de ses procédés de fabrication et de son «meilleur mode d'utilisation», afin de permettre à «toute personne aux compétences ordinaires dans le domaine technique pertinent» de la reproduire et de l'utiliser elle-même sans «expérimentation indue». En principe, un brevet qui ne respecte pas ces directives viole le compromis social et peut se voir annuler.

Les scientifiques qui publient leurs résultats se voient gratifiés par des emplois, des promotions, la reconnaissance de leurs pairs et du public, et par des financements. En échange, ils devraient eux aussi exposer le «meilleur moyen» de reproduire les effets qu'ils prétendent avoir trouvés.

A l'instar du droit des brevets, où on ne sait pas toujours clairement qui peut compter comme «personne aux compétences ordinaires dans le domaine technique pertinent», des scientifiques pourraient ne pas être d'accord sur les individus qualifiés ou non pour mener une réplication en bonne et dûe forme.

Bon nombre d'expériences en psychologie pourraient être reproduites par des lycéens

Par exemple, en matière d'imagerie cérébrale, des années de formation sont nécessaires.

Mais certains opposants à l'élan de réplication ont aussi été trop prompts à suggérer que les réplicateurs manquaient de l'expertise subtile et nécessaire à la reproduction des expériences d'origine.

Un éminent chercheur en psychologie sociale a même avancé que la compétence méthodologique tacite est un facteur si conséquent de la réussite des expériences, que les échecs de réplication n'ont tout simplement aucune valeur (vu que personne ne peut jamais savoir si les réplicateurs savent vraiment ce qu'ils font, ou connaissent toutes les finesses du métier mises en œuvre par les premiers chercheurs) –un argument surprenant à l'origine de réactions des plus sarcastiques.

Il est vrai que l'imagerie cérébrale requiert davantage de compétences que de simplement savoir allumer un scanner à résonance magnétique et envoyer votre manuscrit à Nature. Mais bon nombre d'expériences en psychologie sont si peu techniques, et leurs résultats apparemment si robustes, qu'elles peuvent facilement être répliqués par des étudiants, si ce n'est par des lycéens.

Comme tous les chercheurs, les réplicateurs et ceux qui publient leurs travaux sont obligés d'adhérer à des procédures standard –mais non spécifiques– d'évaluation par les pairs, de communication des informations, de partage, etc.

Réplicateurs et journaux ne devraient pas substituer un biais favorable aux résultats positifs des recherches originales par un biais favorable aux échecs de réplication. Un tel «effet tiroir inversé» ne serait pas seulement injuste pour les premiers chercheurs, mais pour quiconque ayant à bénéficier de l'exactitude de la littérature scientifique.

Depuis longtemps, la psychologie fait office de punching ball pour tous les contempteurs des «sciences molles», mais cette discipline est en réalité à l'avant-poste pour tenter de résoudre un problème chronique à l'ensemble de la science.

Le hors-série de Social Psychology n'en est qu'un exemple parmi d'autres. L'Association for Psychological Science œuvre actuellement pour l'amélioration de ses standards de publication et pour multiplier les analyses des protocoles de recherche –et lors de son congrès annuel, en mai à San Francisco, de nombreuses tables rondes portant sur la réplication ont fait salle comble. Des collaborations internationales entre psychologues travaillant sur des réplications, comme le Reproducibility Project et le Many Labs Replication Project (responsable de 13 sur les 27 articles publiés dans le hors-série de Social Psychology) ne cessent de voir le jour.

Et le changement commence même à arriver dans des revues on ne peut plus traditionnelles. Le Journal of Personality and Social Psychology –cette revue qui, en 2011, refusait de jeter ne serait-ce qu'un œil à des réplications– a récemment annoncé que, si les réplications ne sont «pas une partie centrale de sa mission», elle revenait sur ses anciennes directives.

Nous espérons que JPSP considèrera bientôt les réplications comme un élément central de sa mission et qu'elle cessera de les reléguer à un ghetto d'articles publiés uniquement en ligne, mais la volonté de changement reste remarquable pour une revue vieille de cinquante ans.

D'autres éminentes publications, notamment Perspectives in Psychological Science, dévouent désormais un espace aux réplications systématiques et autres recherches confirmatoires. La première revue de génétique comportementale, une discipline où se succèdent les affirmations non-répliquées d'association entre gènes et comportements spécifiques, va même aujourd'hui plus loin: elle refuse de publier des découvertes originales si elle n'incluent pas des preuves de réplication.

Cette dernière évolution salutaire est un changement de perspective que des psychologues attendent depuis longtemps pour préciser les tailles d'effet, et non plus simplement débattre de leur existence.

Les simples notions d'«échec» et de «réussite» en matière de recherches empiriques nécessitent une urgente remise à plat. Appliquée avec discernement, une telle dichotomie peut relever d'un raccourci utile (que nous utilisons d'ailleurs dans le présent article). Mais il y a divers degrés de réplication entre la réussite et l'échec, et ces degrés ont leur importance.

Il ne s'agit pas de «critiquer» mais de faire avancer la science

Par exemple, imaginez qu'une première étude portant sur un médicament expérimental soignant une maladie cardiovasculaire laisse entendre qu'il réduit de 50% le risque de crise cardiaque par rapport à un placebo.

La question la plus significative pour les études ultérieures ne sera pas de savoir binairement si l'effet du médicament est réellement ou non de 50% (la première étude a-t-elle été répliquée?), mais de savoir le plus précisément possible dans quelle mesure le traitement proposé réduit le risque de crise cardiaque. Dans des études ultérieures aux cohortes plus conséquentes, le chiffre descendra forcément en dessous des 50%, mais s'il reste supérieur à 0 et ce étude après étude, le meilleur message à retenir est, de fait, que le médicament est efficace, pas que les premiers résultats «n'ont pas été répliqués».

Peut-être qu'un médicament qui réduit un risque cardiovasculaire de, par exemple, 2% n'a pas suffisamment de valeur matérielle pour surpasser ses coûts; c'est donc aux patients, médecins et payeurs de trancher.

Et tous les débats scientifiques ne se limitent pas à une question de taille d'effet: parfois, l'objectif d'une expérience est simplement de montrer que deux processus ou relations ne sont pas identiques, dans ce cas, qu'importe l'étendue réelle de leurs différences. Mais mesurer et calibrer les effets est une tâche cruciale pour n'importe quelle science qui aspire à la moindre pertinence dans le monde réel, une aspiration que la psychologie fait évidemment sienne.

Dans le hors-série, sur les 17 études aux réplications «réussies», cinq ont trouvé des tailles d'effet inférieures à celles consignées dans les études d'origine. Un effet de 2% peut avoir une signification bien différente d'un effet de 10% ou de 50%. Si Milgram avait montré que seuls 2% de gens sont susceptibles d'électrocuter quelqu'un à 450 volts, plutôt que 50%, son expérience aurait-elle autant d'importance à nos yeux?

En outre, non contente de brouiller les cartes scientifiques, une focalisation excessive sur l'opposition binaire entre réussite et échec est susceptible de générer davantage de chaleur que de lumière, comme peut en attester le #repligate.

Selon l'article de Science, plusieurs auteurs des études d'origine qualifient le processus de réplication de «manœuvres de persécution».

Mais une autre perspective nous est offerte par un autre chercheur, Eugene Caruso de l'Université de Chicago qui, en 2013, avait montré qu'en exposant préalablement des sujets à la vue de l'argent, on les rendait plus dociles aux normes sociales. Ce résultat a aussi connu un «échec» de réplication. Et si Caruso admet que cela a été «une évidente déception d'un point de vue personnel», il ajoute qu'«en adoptant une perspective plus large, il est manifeste que nous pouvons toujours apprendre quelque chose d'une étude mieux conçue et mieux menée». Et c'est justement une perspective aussi large sur le «succès» que tout un chacun, parce qu'il a intérêt à une démarche scientifique de qualité, se doit de toujours garder à l'esprit.

Michelle N. Meyer et Christopher F. Chabris

A LIRE AUSSI

Psychology