Bonjour,
je suis dans le cadre de la modélisation de la réaction à un flux de spam.
Je suis en capacité de récupérer les plaintes des gens en dégageant :
- le sujet du spam
- la date de réception du spam
- la date de plainte de la part du client.
J'essaie de détecter des "vagues d'envoie" pour en déterminer la prédictibilité.
Actuellement, pour détecter une "vague" je regarde les plaintes jour par jour et j'affiche un histogramme.
Le problème, c'est qu'actuellement une partie non négligeable des vagues sont envoyés entre 22h et 4h du matin ce qui a tendance à couper la vague en deux.
Existe-t-il un moyen en SQL qui permettrait de faire une fenêtre glissante directement?
Sinon, je peux toujours jouer avec python, reccueillir l'ensemble des données et faire passer une fenêtre, mais du coup ça a tendance à être très long car non seulement il faut attendre que toutes les données soient rapatriées de SQL (on est sur des ensemble de plusieurs millions de lignes) mais en plus il faut le temps de faire notre fenêtre, détecter qu'elle englobe bien une vague et afficher la vague.