Votre avis sur ce papier

Probabilités et statistique.

a marqué ce sujet comme résolu.

Bonjour,

Avant toute chose, j'ai tendance à être un peu abrupte lors de mes relectures. L'écrit n'aide pas. Mon but n'est pas de démonter votre travail, mais de pointer ce qui pourrait être amélioré.


Le message que l'article souhaite faire passer est clair : utiliser l'indice de Gini et les courbes de Lorentz pour vérifier les corrélations entre deux évènements. À ce titre, pourquoi commencer l'article par un inventaire de choses dont on ne reparlera plus ensuite ? La liste des 13 points n'apportent aucune information.

Soit un contexte C1. On a un grand nombre d'observations de type A et B. On cherche à établir une correspondance entre A et B. C'est à dire "peut-on conclure que la situation B est directement liée à la situation A ?".

Là, des exemples de contexte et observation serait bien.

Si on calcule la courbe de Lorenz en fonction de la variable A…

Et là, paf!, le gros problème de l'article. La courbe de Lorentz n'est jamais véritablement défini. Je n'appelle pas « un outil permettant d'apprécier l'équité en matière de richesse » une vrai définition. On travaille sur un objet non connu, donc tout ce qui suit sera de la technique dans le pire sens du terme, on se contente d'appliquer sans comprendre.

"peut-on conclure que la situation B est directement liée à la situation A ?"

Non. Tout au plus pourra-t-on conclure que A et B sont corrélés (c'est déjà bien !). Or, corrélation n'est pas conséquence. Rien ne dit qu'un autre facteur, Z, n'influence pas A et B simultanément, que ce soit B qui influence A…

Le problème continue dans tout ce qui suit. Tu montres systématiquement une corrélation, et non une implication/conséquence.

La conclusion est évidente, le pays C1 est pauvre

Tu viens de rajouter une hypothèse, ou de faire un raisonnement l'air de rien. Explicite.

L'intérêt de cette méthode est d'être très simple à mettre en œuvre, ce qui garanti sa fiabilité et très facile à interpréter

Simple ≠ fiable.

La différence des indices est 0.126, donc les deux variables sont indépendantes.

Variante du même problème, rien ne dit qu'elle soit indépendante. C'est peut-être une influence à l'ordre deux. Autre chose domine, mais celui-là n'est peut-être pas négligeable pour autant.

Dans les exemples précédents, il s'est agit de variables continues. Qu'en est-il si les variables sont discrètes?

Tu n'as jamais dit que c'était des variables continues. Et comme Lorentz n'est pas proprement défini, on ne connait pas la différence.

On constate que les deux courbes ne sont pas tout à fait superposables, comme elles l'étaient dans le premier graphique. Pourtant, la différence d'indices de Gini est 0.002. Cet exemple montre que la comparaison des valeurs numérique doit être confirmée par une comparaison visuelle.

Pas tout à fait, certes, mais suffisamment pour signifier une corrélation. Quelle est la différence avec précédemment ? S’il faut vérifier visuellement, quel est l'intérêt de la mesure ? Habituellement, on préfère les données chiffrées, car l'œil et le cerveau sont facilement trompés, je suis donc étonné que tu préconises le contraire.

Ces résultats confirment le bien fondé de cette méthode,

Appliqué à un jeu de donnée seulement, ça ne prouve rien du tout sur la validité de la méthode. D'autant plus qu'il faudrait montrer que l'autre méthode utilisé (avec les exponentiels) est elle-même fiable. Je pense que tu ferais mieux de plus détailler ce qui précède et d'oublier cette partie.

rapport de taille

Rapport ?

Faisons l'hypothèse suivante : […]

J'ai littéralement pas compris le pourquoi de ce paragraphe. Nous dire qu'il existe des données aberrantes ? Si c'est ça, il y a moyen de le faire plus simplement et clairement.

Soit un autre petit nombre d'individus dont le critère croissance est compris entre les bornes C1 et C2.

! C1 est déjà utilisé pour définir le contexte. Change de notation.

Pour la fin (tout ce qui suit les courbes, en fait), j'ai l'impression que tu hésites entre deux approches. Une rigoureuse dans laquelle tu expliques, maths à l'appui, la méthode, et une descriptive, sans maths, dans laquelle tu justifies ce qui se passe avec les mains. Choisis. La fin est très peu claire à cause de ça. On a des notations, des termes scientifiques, mais parfois mal utilisés, des justifications avec les mains exprimées en des termes mathématiques, des calculs dont on ne sait pas ce qu'ils montrent… Chacune des deux approches est possible. Mais il ne faut faire qu'une seule en même temps.


Je passe sur la forme (orthographe, typographie).


En résumé, le début est pas mal. Il mériterait d'être un peu plus fouillé et d'être rendu bien rigoureux ; un peu plus maths, un peu moins application. La fin est plus problématique et est nettement moins claire.

+2 -0

Bonsoir Gabbro, D'abord, merci pour ta réponse.

Là, des exemples de contexte et observation serait bien.

J'ai un peu de mal à comprendre cette phrase puisque justement je commence par un exemple. Il est vrai que l'exemple sur le quel je m'appuie est unique, mais concernant les calculs j'ai pris soin de n'en prendre qu'un morceau à la fois.

La courbe de Lorentz n'est jamais véritablement défini.

La courbe de Lorentz est une méthode parfaitement définie. Considérant la documentation existant, j'ai précisé que ce n'était pas nécessaire de la rappeler, mais manifestement, j'ai eu tort. Je le rajouterai.

Non. Tout au plus pourra-t-on conclure que A et B sont corrélés (c'est déjà bien !). Or, corrélation n'est pas conséquence. Rien ne dit qu'un autre facteur, Z, n'influence pas A et B simultanément, que ce soit B qui influence A…

Là c'est justement le but de ce papier. Si on montre la corrélation, on montre la conséquence. Mais naturellement rien n'interdit de penser qu'il puisse exister une autre conséquence. Apparemment, je n'ai pas été assez explicite. Ta réflexion concernant le rapport entre l'appréciation visuelle et l'appréciation chiffrée est intéressante. Figures-toi qu'on m'a fait le même reproche mais strictement en sens inverse (dans un autre domaine). Bref, là je donne les DEUX méthodes de comparaison. Il est vrai que la comparaison par les indices de Gini mérite d'être vérifiée. Je suis tout prêt à le faire.

Concernant les jeux de données (un seul en l'occurrence) est un faux procès. Il faut bien se rendre compté qu"aucun contrôle n'est possible. J'ai utilisé le jeu de données (je précise qu'il est réel et incontestable) par morceaux, justement pour éviter ce type d'argument. C'est à dire que la méthode est valable quelque soit la portion de fichier étudiée.

La question des valeurs aberrantes est fondamentale. Elle est directement liée à l'utilisation de données statistiques. Des précisions à ce propos seraient hors-sujet mais mériteraient un sujet à part entière. Je n'ai absolument pas hésité entre la forme "visuelle" et la forme "numérique". Les deux sont complémentaires et parfaitement liées. La seule chose est que la forme numérique, moins précise comme je l'ai montré, mérite une étude complémentaire. Là c'est la motivation qui me manque.

Bonne soirée.

J'ai un peu de mal à comprendre cette phrase puisque justement je commence par un exemple.

Je n'ai pas vu d'exemple clair de contexte (C1, C2). De plus, tu ne donnes pas un exemple, mais 13. C'est trop, d'où une possible confusion. Si tu as donné un exemple et que je ne l'ai pas vu (ce qui est possible), élague pour le mettre en valeur.

Là c'est justement le but de ce papier. Si on montre la corrélation, on montre la conséquence.

Il va falloir justifier de manière beaucoup plus approfondi pour me faire avaler un truc comme ça. :D Mathématiquement, tu observes deux grandeurs qui évoluent de pair. Tu fais l'hypothèse réaliste que c'est la richesse qui influence la santé de l'enfant et non l'inverse, mais mathématiquement, le contraire serait tout aussi juste (ou alors je suis passé à côté d'un truc fondamental dans ton article).

Concernant les jeux de données (un seul en l'occurrence) est un faux procès. Il faut bien se rendre compté qu"aucun contrôle n'est possible. J'ai utilisé le jeu de données (je précise qu'il est réel et incontestable) par morceaux, justement pour éviter ce type d'argument. C'est à dire que la méthode est valable quelque soit la portion de fichier étudiée.

Je parle simplement de la justification de la méthode de Gini par celle de l'exponentielle par l'exemple. Tu cherche à confirmer « le bien fondée de la méthode », cela ne peut se faire avec un exemple. Ou alors, tu vérifies simplement la cohérence d'un résultat à l'aide de deux méthodes. Ce n'est pas la même chose.

La seule chose est que la forme numérique, moins précise comme je l'ai montré, mérite une étude complémentaire.

Figures-toi qu'on m'a fait le même reproche mais strictement en sens inverse (dans un autre domaine). Bref, là je donne les DEUX méthodes de comparaison.

Je te reproches un manque de rigueur. Exemple typique ici : tu n'as rien montré, tu as affirmé. Si tu me dis que ça a l'air bon sur les courbes et que c'est mauvais sur les chiffres, tu n'as pas prouvé que la méthode numérique est mauvaise. ;) De plus, donner deux méthodes qui ne donnent pas le même résultat alors qu'elles devraient sans dire pourquoi n'est pas un plus, c'est un problème.

+0 -0

@DzLogic.

Voici un jeu de données :

1
2
3
for i in 20..30 :
    for j in 20..30 :
        tableau.append (i,j)

Et voici un autre jeu de données :

1
2
for i in 0..100 :
        tableau.append (i,i+10000)

Pourrais-tu tracer tes courbes avec ces 2 jeux de données. Et pourrais-tu en conclure si les données sont corrélées dans le jeu n°1 et/ou le jeu n°2.

+0 -0

Bonjour,

@ Gabbro, là je n'ai pas le temps, mais je répondrai en détail. Apparemment, je n'ai pas réussi à expliquer je but de la méthode.

@ elegance,

Je n'ai pas compris, tu montres 2 ou trois lignes de code, où sont les jeux de données dont tu parles ? Je ne connais pas ce langage, Python peut-être, à moins que ce soit de l'humour ?

Un petit rappel à propos des courbes de Lorenz.

Le but est d'évaluer la répartition des richesses dans un pays. La courbe de Lorenz est inscrite dans un demi carré, à partir du point (0,0) jusqu'au point (1,1), toujours sous la première bissectrice. Si la courbe est proche de la diagonale du carré alors la répartition des richesses est équitable, à l'opposé, si la courbe est proche des côtés du carré alors la répartition des richesses n'est pas équitable.

Le tracé des courbes de Lorenz ne sert ni à opposer ni à confirmer l'indice de Gini. Par contre, un graphique représentant un certain contexte pourra être comparé entre deux pays, de la même façon, pour un même pays, la comparaison des courbes tracées pour des contextes différents donnera des renseignements intéressants. Les indices de Gini, moins visuels peuvent être utilisé parallèlement.

Je pensais avoir bien précisé le contexte : on dispose d'un fichier, en l'occurrence 13 critères pour un millier d'individus. On doit évaluer l'implication de la richesse de la famille sur la croissance de l'enfant. Plusieurs solutions

1- demander à un bureau d'étude spécialisé de faire un rapport

2- faire une ANOVA à laquelle personne ne comprendra rien

3- faire une recherche, par exemple sur le net et trouver une méthode miracle.

C'est cette troisième option qu'a choisie un étudiant que je ne connais pas. Il a rédigé son rapport et son tuteur lui a demandé de justifier ses calculs. Malheureusement aucune documentation n'était disponible et le module concerné, travaillant sous R, était introuvable pour moi. Je ne sais pas ce qu'est devenue cette étude, mais le sujet m'a intéressé et j'ai eu communication du fichier.

Donc, l'exemple, c'est le fichier du millier d'enfants avec les 13 indicateurs. L'utilisation de certains indicateurs montre que tel critère est indépendant (courbes de Lorenz superposées et indice de Gini proche de 0). J'ai édité certains résultats seulement.

Il n'est naturellement pas question pour moi de démontrer un truc inverse et faux, même si mathématiquement c'est possible, mais de décrire un outil facile et fiable.

A propos de la relation avec l'indice de Gini. Petit secret que je dévoile : il y a quelques années un thésard étudiait des relations entre le PIB et les éloignements régionales. Il a utilisé mon logiciel (DAO-CAO). Il avait besoin de calculer différents indices, dont celui de Gini, je lui ai donc écrit les modules nécessaires. C'est en réfléchissant à cette problématique que je me suis souvenu de l'indice de Gini.

Etc.

En gros, je suis entrain de me justifier. J'imagine bien que mon papier n'est pas clair. Si tu savais à quel point ça m'est égal.

Je peux me battre pour des notions certaines (ex les proba) pour aider les étudiants, par contre, défendre une nouvelle idée, ce n'est plus de mon âge. Si la moindre de tes réponses avait été constructive, j'aurais été ravi de corriger, compléter, ou je ne sais quoi. Mais tu n'as même par réussi à écrire Lorenz sans faire une faute.

Ciao.

Soit. Je rappelle le contexte dur ZdS,

Le but étant d'avoir une version apte à faire l'objet d'un article/tuto et de le valider.

Si tu te fiches que ton écris ne soit pas clair, il n'a pas sa place ici. Je ne critique jamais la méthode, mais la rédaction du papier.

Il n'est naturellement pas question pour moi de démontrer un truc inverse et faux, même si mathématiquement c'est possible, mais de décrire un outil facile et fiable.

Grosse incompréhension ici. Soit ta méthode trouve une corrélation, et dans ce cas il faut dire que tu as trouvé une corrélation. Et dire que cette corrélation signifie probablement un lien de cause à effet dans un sens particulier, même si ta méthode n'étaye pas cela mathématiquement (séparer ce que tu trouves rigoureusement de ce que tu déduis non mathématiquement). Soit elle trouve une conséquence, et dans ce cas-là, je demande des détails, car je suis étonné.

Si la moindre de tes réponses avait été constructive, j'aurais été ravi de corriger, compléter, ou je ne sais quoi. Mais tu n'as même par réussi à écrire Lorenz sans faire une faute.

J'ai été constructif (quand je ne souhaite pas être constructif, je suis nettement moins aimable). J'ai pointé les lacunes, les erreurs de rédactions et de pédagogies. Je n'ai pas cherché à casser la méthode, je la découvre ici. Je m’interroge simplement. Finir par une attaque sur l'orthographe (j'ai confondu avec le Lorentz de la physique) est malvenu, car c'est une attaque là où je me contente de demander des précisions, car je comprends mal l'article.

Un comportement décevant alors que j'ai pris le temps de faire une relecture poussée et de tenter de t'aider à améliorer la clarté et la justesse de ton article.

+6 -0

Je réponds ici à cette remarque que tu as fait dans le café des sciences,

Apparemment, tu pratiques la méthode Coué. Le papier que j'ai écrit me parait compréhensible par n'importe quel scientifique qui a quelques notions élémentaires des calculs de probabilités. Évidemment, si on fait l'impasse sur le lecture de la doc sur les courbes de Lorenz et qu'on confond avec le physicien Lorentz, on ne peut pas comprendre grand-chose.

Dlzlogic

Si tu veux un avis extérieur, je sais qui est Lorenz, j'ai des bases correctes de probabilités, j'ai compris ton papier, mais ça ne change rien au fait que ce papier est de pauvre facture justement parce qu'il lui manque des explications et surtout beaucoup plus grave d'être scientifiquement correct. Ce n'est pas parce qu'un papier est compréhensible par quelqu'un ayant des connaissances basiques qu'il est de qualité ou même viable. C'est d'ailleurs bien ces points qui étaient soulevés par Gabbro jusqu'à ce que tu lui répondes que ça t'est égal. Quand on demande un avis, faut s'attendre à en recevoir de potentiellement mauvais.

Puisqu'apparemment je deviens l'objet d'un argument, je vais faire ma critique.

Grâce aux très nombreuses statistiques à notre disposition, on dispose d'un grand nombre de bases. Naturellement, le but, et même le seul intérêt, est d'en tirer le maximum d'informations et avoir les outils nécessaires pour comparer les résultats dans différents contextes. On cherche ici à savoir si telle variable statistique est indépendante ou non de telle autre. Puis, en comparant différents contextes, toutes choses égales par ailleurs, si la dépendance de deux variables a un impact plus important dans certains contextes que dans d'autres.

L'introduction est incompréhensible. On comprend vaguement que tu veux tester l'indépendances de variables aléatoires de manière statistiques. Le reste … mystère littéraire.

On s'est fixé pour but d'évaluer l'impact de ces critères sur la santé de l'enfant.

Erreur de causalité/corrélation classique et de débutant.

C'est là que le dessin de courbes de Lorenz peut être un outil efficace. Si pour le contexte C1 et pour le contexte C2 on dessine sur un même graphique la courbe de la situation A et la courbe de situation B, quelles que soient les "hauteurs" de ces courbes, on pourra affirmer ou non que, dans ces deux contextes, l'implication A ==> B est vraie dans les mêmes proportions.

Trop peu formel, on comprend pas précisément ce que tu veux faire.

La conclusion est évidente, le pays C1 est pauvre et la répartition des richesse influe directement sur la qualité de santé des enfants.

La conclusion étant surtout fausse.

L'intérêt de cette méthode est d'être très simple à mettre en œuvre, ce qui garanti sa fiabilité et très facile à interpréter, d'abord visuellement grâce aux courbes de Lorenz, puis par le calcul, par comparaison numérique des indices de Gini.

Tu n'as donné aucun argument de fiabilité. Tu pourrais faire une danse du ventre que ça serait aussi fiable.

Et ton interprétation est mauvaise. Tu confonds systématiquement causalité, corrélation et implication.

Pourtant, la différence d'indices de Gini est 0.002. Cet exemple montre que la comparaison des valeurs numérique doit être confirmée par une comparaison visuelle.

Ça montre surtout que c'est de la magie noire.

Cette courbe peut être approchée, avec une bonne précision par une courbe dont la fonction est Y = A + B exp(CX). On pourrait donc envisager de comparer les courbes à l'aide de cette fonction. Cela aurait l'intérêt de comparer trois paramètres au lieu d'un seul, comme on le pratique avec l'indice de Gini. Cela nécessiterait une étude complémentaire.

Le seul truc intéressant mathématiquement n'a pas été poussé, dommage.

Par contre, l'examen de plusieurs courbes correspondant aux mêmes variables dans des contextes différents permettent de classer à coup sûr ces différents contextes.

À coup sûr, ou pas.

Il y a lieu de préciser que tous ces essais ont été réalisés à partir de la même base (source incontestable), mais avec des variables différentes et des nombres d'individus différents.

Une source n'est jamais incontestable. Ou alors on fait de l'autoritarisme.

Ceci est l'hypothèse limite. Dans le cas général, et dans le contexte du présent fichier, on constate que le critère richesse influe sur le caractère croissance. C'est ce qui reste à démontrer.

Ou bien on le constate, ou bien on doit le démontrer, pas les deux à la fois.


Conclusion : du pseudo-scientifisme dans son plus grand art. Aucun argument scientifique tangible, que des constatations personnelles et revendications.

D'ailleurs on ne comprend même pas à quel moment tu as donné un critère pour comparer la corrélation de deux variables. Tout au long de ton article tu tentes de démontrer que richesse implique éducation.

La question n'est pas scientifiquement posée, les outils sont mal utilisés, l'interprétation est mauvaise, les arguments sont subjectifs.

[…] Mon papier est publié depuis longtemps sur mon site, et bien-sûr a été relu […]

toi, dans le café des sciences

Le fait qu'il ait été publié sur ton site n'appuie nullement sa validité, ni n'implique de relecture car, contrairement à ce que tu as dit, il n'a pas été relu. Et comme bien démontré par mon VDD, il y a de multiples erreurs. Pour le surplus, il n'est pas correctement vulgarisé. Bref, pas publiable en l'état.

Je t'invite donc à corriger les erreurs, relire, relire. Encore. Réecrire, vulgariser. Bien sûr, tu es libre de continuer à considérer que les membres sont nuls et à nous souhaiter une bonne continuation avec des membres qui n'auront rien à dire. Mais réfléchis quelques instants avant de prendre une telle décision…

  • Que tu prennes la mouche ne changera rien nous concernant. Nous n'y gagnons ni y perdons rien. Les membres t'ont fait de retour par pure gentillesse et esprit de partage.
  • Tu ne pourras jamais publier ce papier sur quelque site (un tant soit peu rigoureux) qui soit sans effectuer ces mêmes corrections. Si… Le tien. Oh, mais c'est déjà le cas.
  • Les néophytes ne s'y intéresseront pas. Les personnes avec le bagage nécessaire s'arrêteront de lire à la première incohérence.
  • Tu te retrouveras avec un papier non lu, faux. Et pire, tu n'en aurais nullement conscience.

En connaissance de ces points, tu as deux options :

  • Ne rien faire, prendre la mouche et partir parce que… oh, on est méchant !
  • Mettre l'égo, l'auto-satisfaction, la provoc, le sentiment de supériorité de côté comme une personne raisonnée et raisonnable, et se mettre au boulot pour pondre un papier de qualité sur le fond comme sur la forme.
+2 -0

Bonjour,

@ Holosmos. A l'évidence ce papier ne s'adresse pas à des néophytes et n'est en aucun cas écrit dans l'esprit de vulgarisation. Qui peut disposer un tel fichier (un millier d'articles d'une source officielle, sinon incontestable) et qui aura envie de faire des études comparatives ?

@ Arius. Ce papier a été relu une première fois : la réaction "on ne peut pas ajouter la taille d'enfants" : j'ai pas insisté. Puis avant de le mettre sur mon site je l'ai fait relire par un docteur en physique, ce qui sons-entent une certaine compétence, même hors de son domaine.

PM, il y a une expression sur laquelle tout le monde aurait dû tilter "postulat de la moyenne" et je pouvais m'attendre à ce qu'on me dise de la remplacer par "espérance mathématique", ce que je je n'aurais pas fait, naturellement.

A l'évidence ce papier ne s'adresse pas à des néophytes et n'est en aucun cas écrit dans l'esprit de vulgarisation.

Ton papier est surtout faux sur le plan scientifique.

Qui peut disposer un tel fichier (un millier d'articles d'une source officielle, sinon incontestable) et qui aura envie de faire des études comparatives ?

N'importe qui ayant envie de mettre à l'épreuve tes conclusions issues d'interprétations fausses. (Méthode scientifique, réfutabilité, reproductibilité, toussa toussa)

PM, il y a une expression sur laquelle tout le monde aurait dû tilter "postulat de la moyenne" et je pouvais m'attendre à ce qu'on me dise de la remplacer par "espérance mathématique", ce que je je n'aurais pas fait, naturellement.

S'il n'y avait que ça … on en serait pas là.

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte