[Pharmacologie] Raoult a-t-il raison d'affirmer que statistiquement, moins on a de patients, plus on est correct ?

a marqué ce sujet comme résolu.

Hello,

(Pharmacologie) J’avais déjà entendu parler de ce raisonnement, comme quoi quand on cherche à déterminer un critère de manière statistique, à partir d’un corpus relativement petit (10 patients mettons), corpus dont les éléments (patients) sont très différents les uns des autres, alors cette détermination, si elle a lieu, sera plus valide qu’une détermination sur un plus large corpus.

C’est aussi ce qu’a dit Raoult avant-hier.

Est-ce vrai ?

Cf. : https://blogs.univ-poitiers.fr/n-yeganefar/2013/08/06/le-sophisme-du-petit-echantillon

+0 -0

Salut,

Je serai juste curieux : qu’est-ce que qui te fait douter ? Je veux dire, qu’est-ce qui te fait penser qu’un échantillon minuscule puisse être pertinent et, à plus forte raison, davantage pertinent qu’un échantillon plus important ?

+0 -0

Salut :)

Raoult a-t-il raison d’affirmer que statistiquement, moins on a de patients, plus on est correct ?

Si 99% des personnes meurent de la maladie A, alors on serait correct… 🤔️

C’est aussi ce qu’a dit Raoult avant-hier

Et alors ?

Est-ce vrai ?

Non.

Hello, pas du tout. Justement, sur un panel petit, tu risques d’avoir des problèmes. Les statistiques ne sont valables qu’à partir de grands nombres.

Mettons que tu prennes des dés : ce n’est pas anormal de tirer 3 fois le dé, et de tomber 3 fois sur un six. Tu ne vas pas dire que le dé est truqué. Par contre, si tu lances ton dé 1000 fois, tu sais ce qui va arriver : soit c’est un dé normal avec donc 1 chance sur 6 de faire chaque face, et donc tu as 1/6 de chaque résultat, soit ton dé est truqué et tu vas avoir plus d’un résultat.

En études médicales, c’est pareil, et c’est même pire. En médecine, on travaille avec du vivant, et donc tout varie énormément d’une personne à l’autre. Si tu prends trois personnes et que tu testes ton médicament, tu ne sauras pas dire s’il est vraiment efficace : peut-être que ces 3 personnes sont sensibles au médicament, peut-être qu’elles sont naturellement résistantes face à la maladie. Si tu prends 3000 personnes et que tu testes ton médicament, là tu peux déjà être plus sûr du résultat : il a globalement fonctionné ou pas sur 3000 personnes.

Et en plus, on ne parle pas du reste : effet placébo, groupe de contrôle, prise en charge émotionnelle du patient, etc.

EDIT : suite à ta réponse par rapport à Taurre, tu n’as pas cherché un minimum avant de poser la question ? Et si je ne m’abuse, tu as fait une école d’ingénieur, donc forcément des statistiques.

+7 -0

Prenons le cas extrême.

Tu as des patients malades d’un truc mineur (pas mortel et temporaire)
Tu testes sur 1 patient, ça marche pas.

Que conclues-tu ? Et bien rien. Il faudra renouveler l’expérience plusieurs fois pour savoir si effectivement, ça ne marche pas (ou si la situation évolue).

+0 -0

Pour répondre à ta question, petit rappel d’importance : en sciences, on distingue un effet fort d’un effet significatif.

Un effet est fort lorsque la différence qu’on trouve est importante. Mais si on prend un système qui varie beaucoup, on peut avoir de grande différence sans qu’il y ait d’effet. Par exemple, si tu prends deux dés, tu peux faire deux 6. Ça fait une grosse différence par rapport à la moyenne, mais ça arrive même si le dés n’est pas pipé.

Maintenant, imagine une maladie qui se soigne toute seule et dure toujours 10 jours. Toujours. Un traitement permet de la faire durer 9 jours. Toujours. L’effet est faible (1 journée sur 10). Mais comme c’est toujours le cas, il est significatif ; c’est-à-dire qu’il ne peut être attribuer au hasard.

Quand on a peu de patient, on sera moins facilement significatif. C’est-à-dire qu’il sera plus dur de ne pas attribuer au hasard le résultat de l’expérience. Autrement dit, l’effet doit être plus fort pour pouvoir être observé. Exemple : si sans médicament, une maladie tue 8 personne sur 10, et avec 1 sur 10, même avec un petit échantillon (10 personnes), on le met en évidence car l’effet est très fort.

Attention, je fais ici des stats pure. En médecine, les choses se compliquent car on ne peut pas forcément comparer les groupes. Les groupes avec médicament et sans peuvent être différent. Si on fait bien notre travail (double aveugle + randomisation), et qu’on a groupe assez grand, ça ne pose pas de problème. Mais avec un petit groupe, sur une maladie qui tue peu, ou avec une méthodologie peu fiable, les erreurs peuvent s’accumuler et faire croire qu’un effet est significatif alors que non.

Édit : vous répondez trop vite… :)

+7 -0

Je me demande quantitativement quel est la différence entre « un petit corpus » et un « large corpus » en médecine ?

1000 patients, c’est plutôt faible par rapport aux millions de personnes vivant en France.
Mais c’est peut-être un nombre suffisant en médecine ? Qu’en est-il concrètement ?

1000 patients, c’est plutôt faible par rapport aux millions de personnes vivant en France.

J’aurais tendance à dire que oui, c’est plutôt faible, mais il y a nettement plus de diversité dans 1000 personnes que quelques dizaines et c’est ce facteur qui importe.

Il faut savoir qu’en statistiques on peut avoir un résultat fiable avec 200 personnes voire moins quand l’effet recherché est important. En effet dès lors, mathématiquement parlant, un échantillon peut être bon et fiable avec un nombre plus faible. Et comme un nombre plus faible c’est plus facile à qualifier et moins cher à géré, c’est préférable.

MAIS le mot clef dans tout ça c’est "un bon échantillon". Un bon échantillon est toujours meilleur qu’un mauvais échantillon, peu importe sa taille. Par contre il y a une taille minimale pour être bon. Mais il y a aussi d’autes caractéristiques : représentativité, randomisation…

Raoult se cache derrière la possibilité d’avoir un bon échantillon petit et un mauvais échantillon très large. Mais derrière ce qui lui est reproché c’est qu’aucune des caractéristiques des bons échantillons ne soient rassemblées :

  • pas de randomization (y’a même de la fraude énorme sur ses échantillons)
  • pas de représentativité (trop de jeunes, trop de femmes)
  • trop petit (il ne respecte pas la taille minimale par rapport à l’effet recherché (même en imaginant que les prétentions de Raoult sont bonne, il faudrait entre 600 et 1000 personnes pour voir son effet)

Nope moi je pense rien, je ne doute même pas, @Taurre , j’entends un truc, je demande direct, aucune once de réflexion n’a émergé dans mon esprit suite à la déclaration de Raoult héhé

TumulteClassicisme

On en avait parlé alors je rebondis là-dessus.

  • Si ce message est un un troll parce que tu trouves la question de Taurre illégitime, c’est une mauvaise façon de le faire savoir. À commencer parce que rien dans ton message n’y répond.
  • S’il ce message est sérieux… Franchement ?

Vraiment, je pense que ce genre de réaction est catastrophique pour ton image ici. Surtout sur ce genre de sujets où tu sais que tu t’es déjà pris la tête avec la communauté.

Je pense que tu gagnerais à détailler tes réflexions dans tes questions, et à ignorer les réponses qui te semblent hors de propos au lieu de répondre ce genre de truc. Ou alors expliquer pourquoi la réponse ne te convient pas.

Je viens de prendre le temps de lire en détail le lien que tu donnes, et je voudrai savoir ce que tu n’y comprends pas, ou ce qui te choque dedans. Parce qu’en pratique, on n’a fait que reformulé ce qu’il y a dedans. À savoir, dans une expérience bien faite, plus l’échantillon est petit, plus l’effet doit être fort pour qu’il soit significatif.

Donc, corollaire, s’il est significatif, et que l’échantillon est petit, c’est que l’effet est fort.

Et rappel : en sciences, la reproduction des résultats, c’est important. Une méthodologie propre aussi.

Pour sinon, les termes exacts de Raoult sont « C’est contre-intuitif, mais plus l’échantillon d’un test clinique est faible, plus ses résultats sont significatifs. Les différences dans un échantillon de vingt personnes peuvent être plus significatives que dans un échantillon de 10.000 personnes. Si on a besoin d’un tel échantillonnage, il y a des risques qu’on se trompe. Avec 10.000 personnes, quand les différences sont faibles, parfois, elles n’existent pas. ».
Seule la deuxième phrase est vraie. Et la dernière est absurde, puisque, avec 100 personnes, même quand les différences sont grandes, parfois, elles n’existent pas ! Plus l’échantillon est petit, plus l’effet doit être grand pour être significatif.

+0 -0

Je me demande quantitativement quel est la différence entre « un petit corpus » et un « large corpus » en médecine ?

1000 patients, c’est plutôt faible par rapport aux millions de personnes vivant en France.
Mais c’est peut-être un nombre suffisant en médecine ? Qu’en est-il concrètement ?

Green

C’est une question particulièrement intéressante.

En réalité, du point de vue de l’effet thérapeutique (c’est-à-dire l’effet attendu et souhaité du médicament), les cohortes de tests de phase 3 des effets cliniques sont suffisantes. On sait ce qu’on veut voir : on le voit ou on le voit pas et on en déduit l’efficacité ou pas du médicament.

Là où ça se complique, c’est pour les effets secondaires. Les effets secondaires sont d’une part extrêmement divers (ça peut vraiment être tout et n’importe quoi…) et de rareté également très diverses. On les classe habituellement dans 6 catégories :

  • très fréquents (> 10%, plus d’1 patient sur 10)
  • fréquents (> 1%, plus d’1 patient sur 100)
  • peu fréquents (> 0,1%, plus d’1 patient sur 1000)
  • rares (> 0,01%, plus d’1 patient sur 10 000)
  • très rares (< 0,01%, moins d’1 patient sur 10 000)
  • indéterminés (pas possible d’évaluer car trop atypique).

Classiquement, pour obtenir une AMM (Autorisation de Mise sur le Marché), un médicament suit le chemin suivant :

  • essais pré-cliniques sur des modèles cellulaires puis animaliers (souris, très souvent),
  • essais cliniques sur des êtres humains.

Les essais cliniques sont découpés en 3 phases :

  • phase 1 (1 à 2 jours) : on administre une dose unique et on ne s’intéresse qu’à la toxicité en doses considérées élevées
  • phase 2 (une semaine) : petit dose sur un court laps de temps pour évaluer la relation dose/efficacité
  • phase 3 (plusieurs mois) : groupe de quelques centaines ou milliers de patients (3000 en moyenne) avec une sélection drastique à l’entrée (on évite certains cas particuliers jugés complexes comme les femmes enceintes, les enfants, les polypathologies… sauf si c’est la cible du médicament, évidemment).

Même la phase 3 pose deux problèmes :

  • elle est très courte ; certains médicaments seront pris toute leur vie par des patients, ce n’est pas avec quelques mois de phase 3 que l’on peut savoir comment ces patients risquent de réagir à si long cours,
  • le nombre de patients est insuffisant au regard des effets secondaires très rares (moins d’un patient sur 10 000).

On considère que pour observer un effet secondaire qui touche 1 patient sur n, il faut 3n patients. Autrement dit, pour un effet secondaire qui toucherait un patient sur 100 000 (et ça existe), il faut 300 000 patients pour l’observer, ce qui est complètement illusoire dans le cadre d’un essai clinique.

Pour cela, il existe un système de pharmacovigilance : les médecins sont obligés de déclarer les effets secondaires des médicaments qu’ils constatent ce qui permet d’améliorer la connaissance des effets d’un médicament au fil du temps, notamment sur les traitements au long cours et les publics particuliers exclus des études.

On estime qu’il faut entre 20 et 30 ans après la commercialisation d’un médicament pour avoir la connaissance globale de ses effets secondaires. Par exemple, le Mediator a été retiré après 33 ans.

+7 -0

Bonsoir tout le monde,

Je vois que plusieurs personnes se sont interrogées vis-à-vis du message que j’ai posté, dans lequel j’indique que je n’ai aucune opinion, aucune réflexion sur l’affirmation de Raoult.

Ce n’était ni du troll ni une marque de condescendance. Je n’ai juste pas d’avis sur la question, l’affirmation de Raoult, confirmée par son collègue Eric Chabrière, me semblant valide prise telle quelle ; l’affirmation selon laquelle les grands nombres font les stats et réciproquement, et vos explications sur les effets forts/significatifs/les effectifs étant également véridiques.

https://twitter.com/EChabriere/status/1277227693814284288 (bizarre sa façon d’érire, idem dans ses autres tweets) - et pourtant il s’agit de son compte officiel, comme indiqué par leur community manager.

Enfin soit je pense que vous avez raison, c’est assez bizarre qu’ils tiennent cette position à l’IHU, j’imagine qu’ils sont extrêmement compétents Raoult & cie

M’enfin de toute façon ça me titillait juste la curiosité, je pense que vous avez + raison qu’eux et ça me suffit comme réponse, après je me fiche de tout ça, c’était juste une question comme ça. J’ai d’autres priorités, mais n’hésitez pas à continuer à discuter, je lirai ça attentivement ;)

Franchement, je ne sais pas si Raoult a été compétent un jour, mais actuellement c’est de l’incompétence couplée à de l’arrogance, et dans sa situation c’est grave ce qu’il fait.

Edit : le message de Chabrière fait sens : si on note un résultat significatif sur un échantillon, pas besoin de monter la taille de l’échantillon. Mais les propos de Raoult restent faux : plus l’échantillon est grand, plus la démonstration est forte (sans prise en compte de la sélection de l’échantillon etc.) Mais même sans ça, il faut une taille d’échantillon minimale pour pouvoir réellement constater un effet, parce que les corps humains sont très différents. Et en plus on y ajoute la psychologie.

+0 -0

Histoire d’enfoncer le clou, les études de Raoult sur l’hydroxychloroquine ne sont pas significatives. Parfois, il affirme que c’est le cas, mais comme le groupe témoin n’est jamais similaire au groupe traité, on ne peux pas calculé une significativité. Je veux dire que formellement, ces études ne sont pas conçus pour vérifier l’efficacité du médicament.

+0 -0

Histoire d’enfoncer le clou, les études de Raoult sur l’hydroxychloroquine ne sont pas significatives. Parfois, il affirme que c’est le cas, mais comme le groupe témoin n’est jamais similaire au groupe traité, on ne peux pas calculé une significativité. Je veux dire que formellement, ces études ne sont pas conçus pour vérifier l’efficacité du médicament.

Gabbro

ue + j’imagine qu’à son âge avec tte l’XP qu’il a et, peut-être sa renommée/savoir-faire (à nuancer en fc de ce qu’a indiqué @Phigger), Raoult se permet de violer la méthodo (avec ts les effets négatifs que cela a).

Un peu comme certains devs seniors sautent certaines étapes pour aller + vite quand ils voient comment ça va se passer, avec la bouteille

[Disclaimer, je n’ai lu AUCUN des messages plus haut, j’avais deja ecris quelque chose sur le sujet auparavant]

Le vocabulaire est important. La realisation d’un test ne peut pas etre plus significatif qu’une autre realisation sur un second echantillon. Le test est discrimant: on est significatif ou on ne l’est pas. La p-value ou z-value ou autre ne sont que des seuils que l’on se fixe a priori pour savoir si un resultat est surprenant ou non. Raoult a donc tord dans le vocabulaire qu’il utilise meme si je comprends ce qu’il dit.

La vraie question c’est:

  • quelle est la probabilite que l’effet soit significatif du fait du hasard?
  • quelle est l’amplitude de l’effet?

Effectivement, quand la taille de l’echantillon augmente, la variance des predictions sur la moyenne de l’echantillon diminue (regression toward the mean). De sorte que les effets detectes par un test statistique auront une amplitude potentiellement tres faible voire negligeable. Et donc, plus l’echantillon est petit et plus l’effet observe au travers du test sera impressionnant si l’effet existe. Corrolaire: si l’on fait des tests temporels ou l’on ajoute des individus dans les groupes a tester (ce qui est le cas en pratique), plus l’effet est important et plus l’on doit voire rapidemment les resultats si l’effet existe.

Disons que je cherche a savoir si une piece est biaise ou non. Je n’ai que deux theories (biaisee ou pas biaisee) Pour cela, je tire plusieurs fois la piece, et je recommence deux fois pour avoir deux groupes. Je compare ensuite les groupes.

Faisons l’experience avec des groupes de deux individus (tirages) uniquement. Grosso-modo j’ai 20 possibilites (e.g. (TH, HT) pour Tail Head pour le premier groupe, Head Tail pour le second, (HH, TT), etc).

Parmi ces 20 possibilites:

  • J’ai 5 possibilites avec des groupes identiques => un test a 5% n’indiquera pas de difference significative
  • J’ai 10 possibilites avec des groupes avec un bit de difference (e.g. (TH, HH)) => un test a 5% n’indiquera pas de difference significative
  • J’ai 5 possibilites avec des groupes avec deux bits de difference (e.g (HH, TT)) => un test a 5% indiquera difference significative

Imaginons qu’en realite la piece ne soit pas biaise (le raisonnement marche aussi si elle l’est mais les calculs ne sont plus directs car les sequences ne sont plus equiprobables).

Avec le protocole Raoult - ce petit echantillon -, j’ai 25% de risque que par le plus grand des hasards, j’arrive a conclure que la piece est biaisee (5 possibilites qui donnent des resultats significatifs sur 20 possibilites au total). De plus, l’effet sera visible avec un risque alpha arbitrairement petit, disons de 0.0000001% si l’on veut, meme si la pratique actuelle est de 5% ou 1%. Pire, la p-value obtenue sera la p-valeur theoriquement la plus basse qu’il soit possible d’atteindre (mais comme je l’ai dis, la p-value n’indique RIEN sur l’amplitude de l’effet).

Pour autant est-ce que ce test et ses indicateurs ont la moindre pertinence? ABSOLUMENT PAS. La significativite mesuree ici est uniquement un artefact aleatoire. Plus exactement, c’est un aleatoire structurel induit par la construction meme des experiences, de la nature, etc. Bref, quelque chose sur lequel non seulement on n’a pas la main, mais que l’on ne veut pas mesurer, voire se premunir (justement en augmentant la taille de l’echantillon). Le but de la science c’est justement de concevoir des experiences que l’on puisse repliquer avec le moins de variations possibles. Si je prends un echantillon trop petit, et que je repete mon experience je vais obtenir tout et son contraire (dans l’exemple ci-dessus, j’ai un split de 25%/75%).

Maintenant, que l’on sait qu’un trop petit echantillon fait augmenter la probabilite de conclure, il faut s’interesser a l’autre cas, a savoir ce qui se passe lorsque l’on augmenter la taille de l’echantillon.

Si les echantillons sont trop grands, a cause de la regression a la moyenne, on augmente considerablement la chance d’accepter l’hypothese H0. Typiquement, avec des echantillons de quelques milliers de cas et une p-value de 1% (resp. 5%), on doit monter aux alentours de 20% (res. 60%) d’acceptation. Le piege c’est bien evidemment que l’on augmente drastiquement la probabilite que l’effet detecte soit totalement insignifiant en amplitude en pratique.

Pour illustrer, reprenons mon exemple des pieces. Imaginons cette fois que la piece est biaisee a 0.000001%. L’effet est negligeable dans la pratique et pourtant si l’on fait des tests sur un echantillons de tirage assez grand, on trouvera un effet significatif pour n’importe quelle valeur de risque.

Cependant, en theorie, ces tests ne permettent pas de savoir reellement si l’effet est la ou non. Si je repete suffisament de fois l’experience de tirer 10000 fois une piece, je vais presque surement tomber sur une sequence composee uniquement de piles. Si je n’observe que cette sequence, cela paraitrait incroyable et tout test statistique concluera que ma piece est biaisee, et pourtant toutes les sequences ont une probabilite d’apparition egale (cette hypothese d’uniformite est extremement theorique par contre). Le test statistique ne m’aide pas a savoir si ma piece est biaisee, il m’aide a savoir si je dois etre surpris ou non du resultat.

En conclusion:

  • (beaucoup) de scientifiques ont tord en pensant que plus l’echantillon est grand et mieux c’est. (beaucoup) de scientifiques ne savent pas correctement interpreter les outils qu’ils manipulent et la methode est aujourd’hui largement perfectible mais comme partout, l’inertie du systeme fait que cela prend du temps. Il faut a terme que l’on se focalise plus sur la mesure des effets plutot que leur existence.
  • Raoult a tord et raison. Il a tord parce que quand il dit que les resultats sont plus significatifs sur les petits echantillons, c’est faux au niveau du vocabulaire, mais c’est vrai en corrigeant par "significatifs plus souvent en probabilite" par construction mathematique. Il a TOTALEMENT tord en pensant que l’on montre quelque chose avec des petits echantillons simplement parce que de toute maniere, la science a base de p-value considere a priori la theorie comme VRAIE et les tests ne disent rien de la vraisemblance de la theorie testee.

Bref, Raoult est coupable d’utiliser un artefact mathematique pour faire croire que ses resultats sont prouves alors qu’il a juste augmente la probabilite que ceux-ci soient significatifs par le fait du seul hasard.

+3 -0

Je suis désolé @KFC, mais j’ai rien compris à ton message. Je vois bien que tu essayes de démontrer quelque chose très mathématiquement, mais tu pars sur des raisonnements en sautant quelques étapes (que tu dois supposer évidente) et du vocabulaire que je ne comprends pas. Tu conclus que plus grand échantillon n’est pas forcément mieux, ce qui m’étonne, mais je n’ai pas compris ta démonstration, et ça m’embête parce que ça m’intéresse du coup.

+0 -0

Je suis désolé @KFC, mais j’ai rien compris à ton message. Je vois bien que tu essayes de démontrer quelque chose très mathématiquement, mais tu pars sur des raisonnements en sautant quelques étapes (que tu dois supposer évidente) et du vocabulaire que je ne comprends pas. Tu conclus que plus grand échantillon n’est pas forcément mieux, ce qui m’étonne, mais je n’ai pas compris ta démonstration, et ça m’embête parce que ça m’intéresse du coup.

Phigger

Je ne dis pas qu’un plus petit echantillon est mieux. Je dis que plus l’echantillon est petit, et plus, lorsque tu fais un test, tu as une forte probabilite que de voir le test etre significatif du seul fait du hasard. Aussi, tu as une plus grande probabilite de voire les effets extremes tout de suite par rapport a de grands echantillons du fait du phenomene de regression a la moyenne.

Inversement, plus tu augmentes l’echantillon et plus cette probabilite diminue. Par contre, tu augmentes la probabilite qu’un test soit significatif alors que l’effet est en pratique ridicule.

Je vais essayer de reformuler et detailler un peu plus tard.

+1 -0
Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte