Regression linéaire - conditions sur les erreurs pourquoi ?

a marqué ce sujet comme résolu.

Bonjour,

En data science quand on étudie la régression linéaire d’un point de vue mathématiques on a souvent l’hypothèse suivante:

On a des points yi=xiβ+ϵiy_i = x_i\beta + \epsilon_i avec ϵi\epsilon_i qui est une variable aléatoire. Je ne comprends pas pourquoi on parle de variable aléatoire, de probabilité alors que tout est déterministe.

Si on observe les données {(yi,xi)}\{(y_i, x_i)\} alors en prenant β=minβ1nyixiβ2\beta = \min_\beta \frac{1}{n}\lVert y_i - x_i\beta \rVert^2, on peut écrire chacune des données comme: yi=xiβ+ϵiy_i = x_i\beta + \epsilon_i et donc ϵi\epsilon_i est complètement déterministe, ce n’est pas une variable aléatoire. ϵi\epsilon_i est tout simplement égale à : yixiβy_i-x_i\beta.

Pareil pour les différentes hypothèses d’applications d’une régression linéaire je ne comprends pas pourquoi on en a besoin (moyenne des erreurs nulles, …). Tant que : β=minβ1nyixiβ2\beta = \min_\beta \frac{1}{n}\lVert y_i - x_i\beta \rVert^2 est bien défini on peut appliquer le modèle sur nos données sans problèmes…

Merci beaucoup !

Mes cours sur ce sujet remontent un peu, tu m’excusera si ma réponse manque un peu de précision !

Ce que tu pointes (le fait que ϵi=yixiβ\epsilon_i = y_i - x_i \beta) n’est absolument pas incompatible avec le fait que ϵi\epsilon_i suive une loi aléatoire.

Tes points observés ne sont pas parfaitement sur la droite que tu détermines avec ta régression linéaire. Ils sont un peu au dessus, un peu en dessous… De manière aléatoire ! Tu peux effectivement calculer cette erreur à posteriori comme tu le soulignes, mais elle reste aléatoire "au moment de la mesure".

Je ne suis pas sûr que la moyenne des erreurs nulle soit une hypothèse d’application de la régression linéaire. Ça serait plutôt une conséquence du modèle appliqué : on considère que l’erreur dont est entaché chaque point suit une même loi aléatoire, donc on choisit une droite qui fait que en moyenne l’erreur est nulle.

Salut,

Il y a différents points de vue possibles sur la régression linéaire.

Il y a un point de vue purement descriptif, qui consiste à dire qu’on cherche à trouver la meilleure droite pour représenter un ensemble de points donnés. On se fixe un critère pour minimiser l’erreur ; souvent, c’est le critère des moindres carrés et on minimise alors l’erreur quadratique moyenne. C’est un problème d’optimisation bête et méchant, et à la fin, on obtient la meilleure droite. Ça peut être une droite bien merdique et qui n’a aucun sens, mais ça sera la meilleure pour ces données-là.

L’autre point de vue est plus statistique (et plus riche). On se donne un modèle statistique (linéaire en l’occurrence) défini par des paramètres. C’est là qu’on se met à parler de variables aléatoires, parce que ce sont les objets mathématiques, issus de la théorie des probabilités, qui constituent le modèle statistique. Les données mesurées sont des observations de ce modèle, et on peut s’en servir pour faire des estimations des paramètres (moindres carrés, maximum de vraisemblance, etc.). À la fin, ça revient à la première approche, mais on regarde ça comme un processus aléatoire avec certaines propriétés.

Là où les hypothèses interviennent, c’est quand on cherche à évaluer la qualité de l’estimation ou prouver des propriétés générales sur la méthode (estimateur non-biaisé par exemple, ou le fait qu’il minimise bien la variance, etc). Un exemple très simple de souci, c’est un instrument de mesure qui donne toujours 10 % de plus qu’attendu, quoi qu’il arrive (ce n’est pas une erreur gaussienne centrée en zéro) : tu vas estimer le paramètre linéaire comme étant 10 % de plus que ce qu’il est vraiment et donc ton estimation ne correspond pas forcément à ce que tu voulais.

+3 -0

L’autre point de vue est plus statistique (et plus riche). On se donne un modèle statistique (linéaire en l’occurrence) défini par des paramètres. C’est là qu’on se met à parler de variables aléatoires, parce que ce sont les objets mathématiques, issus de la théorie des probabilités, qui constituent le modèle statistique. Les données mesurées sont des observations de ce modèle, et on peut s’en servir pour faire des estimations des paramètres (moindres carrés, maximum de vraisemblance, etc.). À la fin, ça revient à la première approche, mais on regarde ça comme un processus aléatoire avec certaines propriétés.

Merci je crois que je comprends mieux! Je reformule ce que tu as dit histoire de voir que tout est clair dans ma tête.

On raisonne dans deux sens différents. Dans le premier on a nos données sur lesquelles on ne fait aucune hypothèses et on essaie de trouver la meilleur droite qui passe par ces points. Cette droite est donné par OLS=>ok.

Dans le deuxième cas on raisonne dans le sens inverse. On suppose qu’on a des données qui suivent une régression linéaire. Donc ces données peuvent s’écrire: yi=xiβ+ϵiy_i = x_i\beta + \epsilon_i avec ϵi\epsilon_i aléatoire du à des erreurs de mesures. On étudie alors à quelle point le modèle linéaire estime bien ces données. On donne alors des hypothèses sur les erreurs (variance fixe…) pour pouvoir avoir des estimations générale sur ce modèle.

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte