Faire des prédictions

a marqué ce sujet comme résolu.

Bonjour,

Depuis peu, mon entreprise vient de me filer un csv d’un site monégasque avec une forte affluence, j’ai des données google analytics sur plus de 10 000 jours, mon objectif étant désormais d’en un premier temps de :

  • Comprendre les données
  • Analyser les données
  • Faire des prédictions de manière automatique

Plus simplement, l’objectif est de prédire quel type de contenu doit être publié à quel moment pour obtenir un meilleur trafic

Je comprend bien la situation mais je ne sais pas par ou démarrer étant donner que je viens de démarrer ma formation et que mes compétences sur le sujet sont assez maigre…

En quoi consiste l’écriture d’un notebook ? Quels sont les points clés ?

En quoi consiste l’écriture d’un notebook ? Quels sont les points clés ?

rayandfz

Tu connais Jupyter ? Je crois qu’on parle de ça là.

+0 -0

Je comprend bien la situation mais je ne sais pas par ou démarrer étant donner que je viens de démarrer ma formation et que mes compétences sur le sujet sont assez maigre…

Tu t’interroge sur la partie pratique (utilisation de Python, Jupiter…) ou technique (comment interpréter tes données, les pièges, les bons réflexes…) ? Parce que chacun de ces deux points méritent un tuto à lui tout seul, donc on va essayer de réduire.

+0 -0

Sur le fond: si tu vois ça comme un problème d’analyse de données, la première question à se poser serait de savoir si tu peux détecter automatiquement les pics d’affluence, et ensuite (deuxième question) de comprendre s’ils sont liés à une modification du site (la publication d’un contenu, quel contenu ?) ou semblent avoir plutôt une cause externe.

Après avoir analyser les données via Jupyter sur une multitude de shéma (réseaux sociaux, période particulière, trafic global, newsletter)

J’en arrive donc à la conclusion suivante : Le site rencontre des pics de connexion à deux moments précis :

  • Evènement mondial exceptionnelle (l’audience fais un x5) = Covid
  • Evènement local particulier (l’audience fais un x2) = F1 Monaco

Le reste du temps, le graphique est stable et le nombre de nouveaux utilisateurs redevient largement inférieur au utilisateurs qui sont déjà venu

On remarque également que la catégorie "société" du site est la plus consommé (et de loin)

Les trois principaux levier de fréquentation sont :

  • La Newsletter
  • Facebook
  • Google

ensuite viens twitter, linkedin etc..

On peut aussi voir qu’il y a 2 x plus d’utilisateurs qui viennent voir du contenu français que anglais.

Maintenant faire une prédiction là dessus me semble complexe puisque je ne peux pas prédire la date d’un nouveau covid

+0 -0

Les principaux risques, c’est la surinterprétation, c’est-à-dire commenter du bruit. En restant dans des considérations générales, comme tu le fais, tu l’évites. Tes données sont potentiellement hétérogène dans le temps (tu ne peux comparer celles de 2008 et 2020), ou dans les utilisateurs (un utilisateur qui bloque les traceurs devient invisible pour vous).

Ensuite, tu peux chercher les pics, comme tu l’as fait, mais aussi une récurrence (influence du mois, ou du jour de la semaine). Ça dépend de ce que tu cherches.

J’insiste : pour bien traiter les données, il faut connaitre le métier. Donc, ne pas avoir des conclusions préétablies, mais quand même savoir ce qu’on cherche.

Pour savoir quoi publier quand, il faut chercher une corrélation entre le temps (l’heure / le jour / le mois / …) et les vues (ou autre variable pertinente). Tout en gardant dans l’idée que pleins de biais peuvent apparaitre, comme le fait qu’on réserve les contenus les plus vendeurs à l’heure qu’on pense la plus vendeuse, et qui la devient de facto, même si elle est comme les autres. Tu la vois venir, la surinterprétation ? :p

Si les vues sont globalement plates, avec des sources que vous controler (Newsletter, Facebook), prédire devient pas trop compliqué. Ce sera plat. :-° Bon, ce n’est pas une conclusion intéressante, mais parfois, la conclusion d’un gros tas de données n’est pas intéressante.

+1 -0

Quel est le besoin de ton client ? Sans doute pas vraiment de "prédire", mais plutôt de maximiser son traffic. Les conclusions que tu as déjà obtenues ("ce qui marche le mieux avec votre audience actuelle, c’est X et Y plutôt que Z") sont très pertinentes pour cela, et tu devrais les lui faire remonter. (Évidemment il a sans doute déjà compris les grandes lignes de tes conclusions en regardant les métriques de fréquentation au jour le jour; mais une confirmation qui s’appuie sur des données globales, bien expliquées, lui fera plaisir, et il n’a peut-être pas tout remarqué.)

(Tu as bien creusé le nombre de vues, mais il y a peut-être des choses à faire sur l’activité de l’utilisateur, au-delà de simplement l’impression. Il y a des types de contenu qui font cliquer plein de gens, mais ils ferment l’onglet rapidement ensuite sans avoir tout lu; d’autres types de contenus qui touchent un public moins large, mais les gens qui viennent vont ensuite lire d’autres articles, ont une interaction plus intéressante avec le site. Est-ce que tu peux les distinguer ?)

De toute façon l’analyse de données passées ne te dira pas vraiment quels décisions futures vont avoir un impact (à moins que les décisions futures soient des variantes d’actes passés; pas très intéressant). Même les éléphants du domaine, les GAFAM et compagnie, font des tests (A/B testing et compagnie) pour évaluer ce qui marche et ce qui ne marche pas, plutôt que d’espérer avoir des réponses toutes faites qui sortent d’une analyse du passé. L’analyse reste utile pour exploiter les résultats du test et en tirer des conclusions, mais elle n’est pas prédictive.

Quel est le besoin de ton client ?

De savoir à quel heure, il serait préférable de poster la newsletter en fonction du jour et des évènement locaux, idem pour les articles, quel catégorie prioriser le 3 novembre ?

Je viens d’activer d’autres features sur le google analytics comme le sexe, l’âge et l’activité des utilisateurs sur le site

Je referais une analyse d’ici 3 mois

RDV avec le client pour lui montrer le début d’ici 2h

Je reviens avec des nouvelles d’ici là :)

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte