[Disclaimer, je n’ai lu AUCUN des messages plus haut, j’avais deja ecris quelque chose sur le sujet auparavant]
Le vocabulaire est important. La realisation d’un test ne peut pas etre plus significatif qu’une autre realisation sur un second echantillon. Le test est discrimant: on est significatif ou on ne l’est pas. La p-value ou z-value ou autre ne sont que des seuils que l’on se fixe a priori pour savoir si un resultat est surprenant ou non. Raoult a donc tord dans le vocabulaire qu’il utilise meme si je comprends ce qu’il dit.
La vraie question c’est:
- quelle est la probabilite que l’effet soit significatif du fait du hasard?
- quelle est l’amplitude de l’effet?
Effectivement, quand la taille de l’echantillon augmente, la variance des predictions sur la moyenne de l’echantillon diminue (regression toward the mean). De sorte que les effets detectes par un test statistique auront une amplitude potentiellement tres faible voire negligeable.
Et donc, plus l’echantillon est petit et plus l’effet observe au travers du test sera impressionnant si l’effet existe. Corrolaire: si l’on fait des tests temporels ou l’on ajoute des individus dans les groupes a tester (ce qui est le cas en pratique), plus l’effet est important et plus l’on doit voire rapidemment les resultats si l’effet existe.
Disons que je cherche a savoir si une piece est biaise ou non. Je n’ai que deux theories (biaisee ou pas biaisee) Pour cela, je tire plusieurs fois la piece, et je recommence deux fois pour avoir deux groupes. Je compare ensuite les groupes.
Faisons l’experience avec des groupes de deux individus (tirages) uniquement. Grosso-modo j’ai 20 possibilites (e.g. (TH, HT) pour Tail Head pour le premier groupe, Head Tail pour le second, (HH, TT), etc).
Parmi ces 20 possibilites:
- J’ai 5 possibilites avec des groupes identiques => un test a 5% n’indiquera pas de difference significative
- J’ai 10 possibilites avec des groupes avec un bit de difference (e.g. (TH, HH)) => un test a 5% n’indiquera pas de difference significative
- J’ai 5 possibilites avec des groupes avec deux bits de difference (e.g (HH, TT)) => un test a 5% indiquera difference significative
Imaginons qu’en realite la piece ne soit pas biaise (le raisonnement marche aussi si elle l’est mais les calculs ne sont plus directs car les sequences ne sont plus equiprobables).
Avec le protocole Raoult - ce petit echantillon -, j’ai 25% de risque que par le plus grand des hasards, j’arrive a conclure que la piece est biaisee (5 possibilites qui donnent des resultats significatifs sur 20 possibilites au total). De plus, l’effet sera visible avec un risque alpha arbitrairement petit, disons de 0.0000001% si l’on veut, meme si la pratique actuelle est de 5% ou 1%. Pire, la p-value obtenue sera la p-valeur theoriquement la plus basse qu’il soit possible d’atteindre (mais comme je l’ai dis, la p-value n’indique RIEN sur l’amplitude de l’effet).
Pour autant est-ce que ce test et ses indicateurs ont la moindre pertinence? ABSOLUMENT PAS. La significativite mesuree ici est uniquement un artefact aleatoire. Plus exactement, c’est un aleatoire structurel induit par la construction meme des experiences, de la nature, etc. Bref, quelque chose sur lequel non seulement on n’a pas la main, mais que l’on ne veut pas mesurer, voire se premunir (justement en augmentant la taille de l’echantillon). Le but de la science c’est justement de concevoir des experiences que l’on puisse repliquer avec le moins de variations possibles. Si je prends un echantillon trop petit, et que je repete mon experience je vais obtenir tout et son contraire (dans l’exemple ci-dessus, j’ai un split de 25%/75%).
Maintenant, que l’on sait qu’un trop petit echantillon fait augmenter la probabilite de conclure, il faut s’interesser a l’autre cas, a savoir ce qui se passe lorsque l’on augmenter la taille de l’echantillon.
Si les echantillons sont trop grands, a cause de la regression a la moyenne, on augmente considerablement la chance d’accepter l’hypothese H0. Typiquement, avec des echantillons de quelques milliers de cas et une p-value de 1% (resp. 5%), on doit monter aux alentours de 20% (res. 60%) d’acceptation. Le piege c’est bien evidemment que l’on augmente drastiquement la probabilite que l’effet detecte soit totalement insignifiant en amplitude en pratique.
Pour illustrer, reprenons mon exemple des pieces. Imaginons cette fois que la piece est biaisee a 0.000001%. L’effet est negligeable dans la pratique et pourtant si l’on fait des tests sur un echantillons de tirage assez grand, on trouvera un effet significatif pour n’importe quelle valeur de risque.
Cependant, en theorie, ces tests ne permettent pas de savoir reellement si l’effet est la ou non. Si je repete suffisament de fois l’experience de tirer 10000 fois une piece, je vais presque surement tomber sur une sequence composee uniquement de piles. Si je n’observe que cette sequence, cela paraitrait incroyable et tout test statistique concluera que ma piece est biaisee, et pourtant toutes les sequences ont une probabilite d’apparition egale (cette hypothese d’uniformite est extremement theorique par contre). Le test statistique ne m’aide pas a savoir si ma piece est biaisee, il m’aide a savoir si je dois etre surpris ou non du resultat.
En conclusion:
- (beaucoup) de scientifiques ont tord en pensant que plus l’echantillon est grand et mieux c’est. (beaucoup) de scientifiques ne savent pas correctement interpreter les outils qu’ils manipulent et la methode est aujourd’hui largement perfectible mais comme partout, l’inertie du systeme fait que cela prend du temps. Il faut a terme que l’on se focalise plus sur la mesure des effets plutot que leur existence.
- Raoult a tord et raison. Il a tord parce que quand il dit que les resultats sont plus significatifs sur les petits echantillons, c’est faux au niveau du vocabulaire, mais c’est vrai en corrigeant par "significatifs plus souvent en probabilite" par construction mathematique. Il a TOTALEMENT tord en pensant que l’on montre quelque chose avec des petits echantillons simplement parce que de toute maniere, la science a base de p-value considere a priori la theorie comme VRAIE et les tests ne disent rien de la vraisemblance de la theorie testee.
Bref, Raoult est coupable d’utiliser un artefact mathematique pour faire croire que ses resultats sont prouves alors qu’il a juste augmente la probabilite que ceux-ci soient significatifs par le fait du seul hasard.