Prédire à partir d'évenement lié au temps

a marqué ce sujet comme résolu.

J’aimerais avoir votre avis sur la meilleure approche à adopter pour résoudre un problème. Je ne suis pas sûr de savoir comment procéder réellement. Voici mon problème :

J’ai une grande table d’événements… éventuellement autour de 100 000 ou plus. Chaque événement est composé de plusieurs (50–100) variables indépendantes et d’une variable dépendante qui m’intéresse. Certaines variables indépendantes sont plus importantes que d’autres pour déterminer la valeur de la variable dépendante. De plus, ces événements sont liés au temps. Les événements qui se produisent aujourd’hui sont plus importants que ceux qui se sont produits il y a 10 ans.

J’aimerais pouvoir alimenter une sorte de moteur d’apprentissage avec un événement, et qu’il prédise la variable dépendante. Ensuite, en connaissant la réponse réelle à la variable dépendante pour cet événement (et tous les événements qui se sont produits auparavant), j’aimerais que cela entraîne les prédictions prochaine.

Toujours pour le même client de presse à Monaco :)

Est-ce que ce n’est pas simplement un problème de régression? Tu as une liste de signaux et tu veux prédire une variable qui dépend de ces signaux.

Rendre les événements récents plus important que les vieux événements peut se faire facilement en assignant des poids différents dans tes données d’entrainement et de test suivant l’âge des événements.

Si tu n’as pas de bonnes connaissances de machine learning, je te conseille fortement de commencer avec des modèles très simples qui te permettrons d’analyser le fonctionnement du modèle et donc mieux comprendre pourquoi il te donne un résultat particulier. Ça permettra aussi d’avoir un objectif à dépasser si tu veux ensuite tester des modèles plus complexe: si un modèle plus complexe ne donne pas de meilleur résultat, autant rester sur un truc simple. Parmi les trucs les plus simples, tu peux te contenter de faire une somme de régression linéaires: avec xix_i tes variables indépendantes, tu peux essayer de prédire le ta variable dépendante comme étant a+b1x1+b2x2+...a + b_1 x_1 + b_2 x_2 + ...

le mieux, c’est d’avoir un modèle explicatif, et de le tester sur un échantillon récent.
Si ce n’est pas satisfaisant, changer de modèle. Si ça marche à peu près, affiner le modèle.
L’avantage, c’est que cela renforce la crédibilité de la prédiction.
Il ne faut jamais oublier l’adage plein de sagesse : « la corrélation n’implique pas la causalité ».
Des exemples ici.

Ne pas oublier non plus que l’intelligence artificielle, c’est souvent le contraire de la bêtise naturelle. o_O

+1 -0
Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte