Bonjour tout le monde,
Je suis à la recherche d’idées afin d’effectuer des mesures statistiques pour comparer deux solutions. L’outil en question essaye de regrouper ensemble des nœuds dans un graphe. Et je souhaiterais mesurer à quel point ce regroupement est similaire à ce que fournit un autre outil.
Des exemples seront sans doute plus concret; supposons que je possède 3 éléments: A, B, C.
- 1er cas = les mêmes: Outil 1 dit que A, B & C sont ensemble ainsi que l’outil 2 => parfait !
- 2e cas = en +: Outil 1 dit que A, B sont ensemble (et C isolé) tandis que l’outil 2 dit que ce sont 3 ensembles différents.
- 3e cas = en -: Outil 1 dit que ce sont 3 ensembles différents et outil 2 dit que B et C sont ensemble.
- 4e cas = en + et en -: Outil 1 dit que: A, B sont ensemble (et C isolé) tandis que l’outil 2 dit que B et C sont ensemble.
Intuitivement, j’ai pensé à un notion de type: 'Jaccard Index’, mais je souhaiterais avoir une unité banane sur tous les cas. Un truc qui mesure tous les groupements au sein d’une même population qui passerait à la fois au travers de l’outil 1 et de l’outil 2. Je pensais partir vers un truc de type: 'Mutual information score' mais je ne sais pas si vous auriez d’autres recommandations à proposer. Ce qui serait vraiment parfait, c’est d’avoir des mesures de type: precision/recall, pour savoir si on essaye de minimiser les regroupements 'erronés’ (vrai négatif) ou maximiser les regroupements qu’on a manqué (faux positif).
Ici, on connaît chacun des éléments mais pas les 'classes’, si elles sont données à une permutation près, c’est bon. Je pense qu’on peut formuler cela comme une mesure du partitionnement.
Merci d’avance pour vos réponses !