mardi 2 juin 2009

Méthodologie de l'expérience Twitter

Richard Wiseman a posté sur son blog l'explication complète de comment se déroulera cette semaine son expérience de visions à distance: "Test Trial and Remote Viewing Methods".

En résumé, il va à un endroit à 3 heures de l'après-midi (heure britannique), les sujets ont alors 30 minutes pour visualiser la localisation, puis il poste ensuite sur Twitter le lien vers une page web où il faut choisir entre 5 photos celle qui correspond le mieux à nos images mentales. Chaque jour, tous les sujets choisissent donc collectivement une photo (A, B, C, D ou E). Si la photo est la bonne - celle de l'endroit où se trouvait réellement Richard Wiseman - cela sera considéré comme un succès (angl.: hit). L'expérience sera considérée comme significative si nous obtenons 3 succès sur les 4, où si vous préférez si nous identifions collectivement correctement 3 lieux pendant les 4 jours que dure celle-ci.

Certains psiphiles se plaignent déjà que ce critère de 3 succès sur 4 est selon eux beaucoup trop élevé: après tout, vous savez, le psi est tellement subtil, il ne se manifeste jamais clairement... Personnellement, je trouve ce choix parfait, parce qu'il est non ambigu: si nous obtenons ce score, cela serait une forte indication que quelque chose d'inhabituel s'est réellement produit.

Mais bon, il est clair qu'ils anticipent déjà un résultat négatif (bizarre, non?) et qu'ils cherchent donc à le rationaliser avant même qu'il ne se produise!

Je trouve cette expérience vraiment excitante, puisqu'elle est la première à être réalisée sur Twitter, et qu'elle implique un très grand nombre de sujets. Et qui sait? Peut-être que la vision à distance fonctionne réellement, et peut-être que nous arriverons à identifier 3 des lieux sur les 4...

7 commentaires:

Marcello a dit…

Il y a 1 chance sur 37 d'obtenir 3 bonnes réponses sur les 4 sessions. On peut se demander :
- pourquoi le choix arbitraire d'un tel seuil plutôt qu'un seuil standard dans les sciences ?
- pourquoi un si faible nombre d'essais ? (Je n'ai jamais vu un parapsychologue proposer si peu d'essais, mais juste "pour voir").
- Il faudra intégrer les résultats à une méta-analyse comportant les résultats positifs et négatifs des expériences antérieures et impliquant un seuil de significativité statistique standard.

Jean-Michel Abrassart a dit…

Bonsoir Marcello,

C'est marrant, quand j'ai posté ce billet, j'étais certain que vous alliez venir prêcher la bonne parole psiphile dans les commentaires...

En ce qui concerne les méta-analyses, je pense qu'elles sont de manière générale problématiques. Quelque soit le domaine de recherches (et donc pas seulement la parapsychologie!), je prends les résultats de méta-analyses avec beaucoup de distances critiques.

J'écoutais l'autre jour l'excellent podcast médical "QuackCast: a skeptical review of Supplements, Complementary and Alternative Medicine" (à propos des médecines prétendument alternatives) et son auteur, Mark Crislip, disait qu'il ne tenait compte des méta-analyses que quand celles-ci apportaient du poids à sa position, et rejetait celles qui la contredisait.

La formulation est bien évidemment ironique, mais il est clair qu'il vaut bien mieux faire une revue exhaustive de la littérature pour se forger une opinion de l'état de la recherche scientifique que d'utiliser une méta-analyse. Encore une fois, le sujet du podcast "QuackCast" n'est absolument pas la parapsychologie, ce qui montre que cette position critique des méta-analyses qu'adopte les sceptiques n'est pas du tout spécifique à ce débat.

Le Skepdic a une excellente entrée sur les méta-analyses, meta-analysis (en anglais), qui va tout à fait dans le sens de ce que je suis en train d'écrire. Je cite une extrait pour la route:

"Physicist Victor Stenger calls meta-analysis in parapsychology "a dubious procedure ... in which the statistically insignificant results of many experiments are combined as if they were a single, controlled experiment" ("Meta-Analysis and the Filedrawer Effect"). Theoretically, it would be possible to do one hundred experiments with small samples and all with negative outcomes, while a meta-analysis of the same data would produce results that are statistically significant. This should remind us that statistical significance does not mean scientifically important."

Ironiquement, c'est le sceptique Ray Hyman qui a introduit l'usage des méta-analyses en parapsychologie. Il a certainement raté là une occasion de se taire, vu que maintenant les tenants ne jurent malheureusement plus que par cela.

Sceptiquement vôtre,

Marcello a dit…

Il y a des controverses sur l'usage des méta-analyses, mais votre unique référence dico-sceptique ne rend pas compte de la situation :

- ce n'est pas Hyman qui a conduit la première méta-analyse en parapsychologie ; le livre ESP after 60 years (1940) est considéré comme la première méta-analyse dans le champ des sciences humaines et sociales (voir Bösch, 2005).

- la remarque ironique de Crislip n'est pas une critique valable. Que ça vienne d'un sceptique des médecines alternatives ne donne pas plus de poids à cette remarque.

- les méta-analyses sont très utilisés en science (médecine par exemple). Vous pouvez toujours chercher à les saborder, mais faites-le correctement au moins. Il faut savoir que les défauts des méta-analyses rétrospectives peuvent être corrigées avec une uniformisation des méthodes d'analyse, et des critères objectifs d'inclusion et d'exclusion des études définies de façon prospective.

Et tout cela, encore une fois, est une diversion de votre part ! Vous ne répondez pas du tout au fait que le protocole de Wiseman ne répond pas aux réquisits de la science : quatre essais ! un seuil de significativité fixé de façon arbitraire ! Et vous appelez ça "méthodologie de l'expérience de Richard Wiseman" sur un blog de "scepticisme scientifique"...

NEMROD34 a dit…

C'est vrai que le manque de confiance des psiphiles est assez amusant, et le "ce phénomène est élusif donc.." assez pathétique je trouve.



Par contre où peut-on avoir plus de détail sur cette expérience ? Le fait qu'on utilise des pc me fait douter de sa validité, selon comment c'est fait il assez simple de fournir un résultat à la bonne heure (enfin de le truquer).

Je me doute que quelqu'un contrôle les réponses et le moment où elles sont données, mais je suis sur qu'il y en aura bien un pour tenter de tricher et le crier partout(qu'il avait un bon résultat et qu'on ne le prend pas en compte).

Jean-Michel Abrassart a dit…

Bonsoir,

Aujourd'hui, j'aimerais répondre à ceci:

- pourquoi le choix arbitraire d'un tel seuil plutôt qu'un seuil standard dans les sciences?

En effet, j'ai lu cette remarque sur Facebook, sur le blog de Richard Wiseman et ici-même. Apparemment, cela semble être la critique "standard" des psiphiles vis-à-vis de cette expérience.

Ce qu'il faut bien comprendre, c'est que le seuil est forcément un choix arbitraire. Il faut bien placer le seuil à un endroit! En résumé, les tenants reprochent à Richard Wiseman de placer le seuil trop haut.

Je ne suis pas Richard Wiseman, et je pense qu'il sera de toute manière très intéressant de lire la publication scientifique de cette expérience. Néanmoins, voici mon point de vue sur la question.

Il est important de distinguer deux types de problèmes: les erreurs de type 1 (ou faux positif) et les erreurs de type 2 (ou faux-négatif).

Si on met le seuil trop bas, on risque de considérer que les résultats de l'expérience sont indicatifs d'une anomalie alors que ce n'est pas réellement le cas, tandis que si le seuil est trop haut on risque de considérer que les résultats de l'expérience sont inconclusifs alors qu'en réalité ils sont indicatifs d'une anomalie.

Classiquement, les tenants du paranormal préfère un seuil bas, quitte à prendre le risque d'un faux positif, alors que les sceptiques préfèrent un seuil haut, quitte à prendre le risque d'un faux-négatif.

Les psiphiles, dont Marcello, voudraient que l'on adopte pour les phénomènes paranormaux les mêmes critères d'acceptations que ceux utilisés dans d'autres domaines, tel que par exemple la psychologie. C'est une grossière erreur, qui consiste à faire fit de la plausibilité antérieure.

Si par exemple je fais l'hypothèse qu'avoir deux parents pratiquant une religion est un prédicteur du fait que les enfants seront eux aussi pratiquant de cette religion, je peux me permettre de mettre le seuil d'acceptation de l'expérience relativement bas (généralement en psychologie, cela consistera en une p-valeur de 0.05). En effet cette hypothèse n'est en rien extraordinaire: elle s'intègre parfaitement dans le corpus des connaissances scientifiques actuelles et on peut facilement concevoir des processus pouvant expliquer ce phénomène.

A l'inverse, l'existence de la visions à distance a une plausibilité antérieure extrêmement faible. En effet, les parapsychologues ont échoué jusqu'à présent à prouver l'existence du Psi et il n'existe aucun mécanisme connu pour expliquer comment la vision à distance pourrait fonctionner. Les neuropsychologues n'ont en effet rien identifié dans le cerveau qui pourrait s'apparenter à un système d'émissions-réceptions.

Du coup, face à une hypothèse à la plausibilité antérieure très très faible, il est logique de sélectionner un seuil élevé! En effet, pour prouver une hypothèse à la plausibilité antérieure extrêmement faible, il faut de très nombreuses preuves robustes pour changer le paradigme dominant.

C'est ce que les sceptiques expriment généralement avec la formule: "Les hypothèses extraordinaires nécessitent des preuves extraordinaires", ce qui est une reformulation du principe énoncé par David Hume au 18e siècle à propos des miracles.

En prenant en compte ces deux aspects (a. la plausibilité antérieure extrêmement faible du phénomène de visions à distance et b. que dans ce contexte il est bien plus rationnel de prendre le risque d'un faux-négatif que d'un faux positif), le choix du seuil effectué par Richard Wiseman est tout à fait logique d'un point de vue scientifique.

Sceptiquement vôtre,

Jean-Michel Abrassart a dit…

Bonjour Nemrod,

"Le fait qu'on utilise des pc me fait douter de sa validité, selon comment c'est fait il assez simple de fournir un résultat à la bonne heure (enfin de le truquer)."

Non, jusqu'à présent je ne vois pas trop comment elle pourrait être truquée. Il faudrait qu'un collaborateur vende la mèche, ou que quelqu'un suive physiquement Richard Wiseman jusqu'à l'endroit où il se rend chaque jour de l'expérience (dans le style détective privé), mais même dans ce cas après il faudrait que cette personne ait un moyen de contacter les participants pour leur donner la bonne réponse, et que tous les participants décident de participer activement à la tricherie...

Cela me parait peu probable. Si tu as une autre idée, n'hésites pas à la mentionner.

Sceptiquement vôtre,

Jean-Michel Abrassart a dit…

Bonsoir,

Pour terminer (j'aurais ainsi répondu à chacun des points soulevés par Marcello dans son commentaire de départ), je vais répondre à:

- pourquoi un si faible nombre d'essais ? (Je n'ai jamais vu un parapsychologue proposer si peu d'essais, mais juste "pour voir").

Des trois points, c'est celui qui est le plus malhonnête intellectuellement. En effet, la réponse est très simple: organiser une telle expérience demande des ressources, du temps et de l'énergie. Par exemple, il ne faut pas oublier que Richard Wiseman doit se rendre tout les jours à la même heure dans un lieu, et y rester pendant une demi-heure!

Ensuite, il est clair que plus de tests diminueraient l'implication des membres de Twitter. Les gens sont certainement prêt à participer à quelques sessions, mais pas à de très nombreuses...

Bref, ce type de critiques est vraiment facile quand on a jamais organisé soit-même d'expériences. Cela rejoint notre discussion précédente sur les prix-défis (ici): les membres du GEIMI critiquent le prix-défi d'Henri Broch, mais n'en organisent pas de leur côté.

La critique depuis sa chaise, derrière son bureau et son écran d'ordinateur, est nettement plus facile que de réellement se mettre au travail et organiser concrètement une expérience.

Cela me fait penser à Alex Tsakiris, du podcast psiphile "Skeptiko": il adore critiquer Richard Wiseman pour n'avoir fait que quelques sessions dans le cadre de sa réplication de l'expérience concernant l'effet des "chiens qui savent lorsque leur maître rentre à la maison". Il aborde ce sujet très souvent dans son émission, pour démontrer, selon lui, que Richard Wiseman n'est pas un chercheur "sérieux". Mais le plus amusant, c'est qu'Alex Tsakiris s'est lancé lui-même dans la réplication de cette expérience en 2008. Or, plus d'un an plus tard, il n'a réalisé en tout et pour tout que 2 sessions (voir mon billet à ce sujet: "Les vidéos d'Alex "Skeptiko" Tsakiris")!

Du coup, Richard Wiseman a en réalité réalisé plus d'essais qu'Alex Tsakiris jusqu'à présent, qui n'hésites pourtant pas à le critiquer sur ce sujet...

Peut-être que si Alex Tsakiris était honnête intellectuellement, il concéderait que ce genre d'expériences prend du temps à concevoir, préparer et organiser.

Pour en revenir à l'expérience Twitter, si jamais elle obtient un résultat de 3 bonnes réponses sur 4 sessions, je suis certain que d'autres chercheurs tenteront de répliquer ce résultat, avec plus de tests. C'est comme cela que la science fonctionne...

A l'inverse, J. B. Rhine à fait des tonnes de sessions avec les cartes Zenner. Qu'est-ce qu'il a réussi à accomplir ce faisant? Certainement pas à convaincre la communauté scientifique que le Psi existe...

Mais bon, il est clair que si on veut avoir des anomalies statistiques (et c'est après tout l'activité principale des parapsychologues: la chasse aux anomalies statistiques), effectivement en multipliant les sessions de très nombreuses fois on augmente les chances d'avoir l'un ou l'autre artefact... Il suffit ensuite de faire une méta-analyse et de clamer haut et fort que l'on a prétendument prouvé quelque chose, n'est-ce pas?

Honnêtement, quand je lis ce genre de remarques, je me dis juste que les psiphiles sont prêt à dire tout et n'importe quoi pour essayer de décrédibiliser le travail réalisé par Richard Wiseman. Manque de bol pour eux, il est un excellent chercheur!

Sceptiquement vôtre,