Salut,
Il y a différents points de vue possibles sur la régression linéaire.
Il y a un point de vue purement descriptif, qui consiste à dire qu’on cherche à trouver la meilleure droite pour représenter un ensemble de points donnés. On se fixe un critère pour minimiser l’erreur ; souvent, c’est le critère des moindres carrés et on minimise alors l’erreur quadratique moyenne. C’est un problème d’optimisation bête et méchant, et à la fin, on obtient la meilleure droite. Ça peut être une droite bien merdique et qui n’a aucun sens, mais ça sera la meilleure pour ces données-là.
L’autre point de vue est plus statistique (et plus riche). On se donne un modèle statistique (linéaire en l’occurrence) défini par des paramètres. C’est là qu’on se met à parler de variables aléatoires, parce que ce sont les objets mathématiques, issus de la théorie des probabilités, qui constituent le modèle statistique. Les données mesurées sont des observations de ce modèle, et on peut s’en servir pour faire des estimations des paramètres (moindres carrés, maximum de vraisemblance, etc.). À la fin, ça revient à la première approche, mais on regarde ça comme un processus aléatoire avec certaines propriétés.
Là où les hypothèses interviennent, c’est quand on cherche à évaluer la qualité de l’estimation ou prouver des propriétés générales sur la méthode (estimateur non-biaisé par exemple, ou le fait qu’il minimise bien la variance, etc). Un exemple très simple de souci, c’est un instrument de mesure qui donne toujours 10 % de plus qu’attendu, quoi qu’il arrive (ce n’est pas une erreur gaussienne centrée en zéro) : tu vas estimer le paramètre linéaire comme étant 10 % de plus que ce qu’il est vraiment et donc ton estimation ne correspond pas forcément à ce que tu voulais.