Salut,
C’est intéressant, mais le niveau technique n’a pas été la difficulté principale pour moi en première lecture. J’ai eu plus de mal avec la clarté de l’exposition au début de chaque section et le liant, qui est primordial pour ne pas perdre le lecteur.
Aussi, j’ai l’impression que tu as très envie tout de suite de plonger dans l’analyse des algos, qui apporte certes de la valeur ajoutée, mais qui n’est pas efficace si on n’arrive pas à comprendre l’algorithme avant.
Je trouve que ça fait très catalogue à cause de ça, parce que le niveau de détails de l’analyse des algos tend à eclipser un peu l’exposition des idées principales que tu sembles vouloir faire. En tout cas, c’est mon impression.
J’ai du mal à savoir à la lecture si c’est pour découvrir ce sujet, même très technique, ou si c’est pour le comprendre en détail, notamment les démonstrations de correction.
Par exemple, pour le comptage approximatif, tu énonces quelques trivialités, puis tu balances sans cérémonie :
Dans le cas d’un comptage approximatif, on cherche un N~ tel que P(∣N~−N∣>ϵN)<δ.
Une petite phrase pour dire "On cherche un estimateur du nombre effectif d’événements tel que les chances de trop se tromper soient suffisamment faibles", et peut-être rattacher ça à la formule (on mesure l’erreur par l’erreur relative, on se donne un seuil à partir duquel on n’est plus satisfait et on se donne un autre seuil pour juger la probabilité, etc.).
Aussi, expliquer l’idée de l’algo peut faciliter la lecture. L’algo de Morris est clair, mais sans explication, c’est au lecteur de décoder l’idée, à savoir ne compter qu’une fraction variable des événements de manière à ce que l’exposant "tombe juste" en moyenne (et donc estime le nombre qu’on cherche).
Pour le « count distinct elements », c’est un peu pareil. Tu passes très vite au début. Je crois que tu ne dis à aucun moment de manière explicite qu’on cherche à estimer t, a priori inconnu. Au début je me disais "si on se donne t éléments distincts, à quoi ça sert de compter ?".
Tu passes aussi tellement vite sur HyperLogLog que pour moi, c’est comme si tu ne disais rien de plus que "Hyperloglog c’est fun jetez y un oeil, ils jouent avec les substreams".
« Linear sketching & Count-Min sketch », j’ai essentiellement rien compris, mais c’est peut-être que je me suis pas accroché assez.
Les aspects historiques des avancées de la discipline me font décrocher instantanément aussi. Je ne connais pas les chercheurs, je ne connais pas l’état de la recherche avant eux de toute façon et ça m’est égal en quelle année ils ont publié leur nouvelle idée. Pour une exposition au sujet, ça me passe complètement au dessus.
Pour « Sparce recovery », tu retombes dans le "j’explique pas j’expose" pour moi.
C’est quoi l ? C’est quoi z ? C’est quoi f ? C’est quoi les fj ? Pourquoi s n’apparaît pas dans la formule si c’est une hypothèse (parce qu’il est égal à 1 ?) ?
Et je ne suis pas sûr d’avoir compris, mais tu parles de fréquence nulle, mais t’as bien plus de s éléments distincts et on fait l’hypothèse que les autres sont négligeables ?
J’ai lu en travers les matrices, donc pas trop de commentaire dessus.
J’ai d’autres commentaires beaucoup plus mineurs, je les garde pour plus tard.