Chapitre 8 : Régression linéaire simple

Chapitre 8 : Régression linéaire simple 2018-05-15T18:07:49+00:00
PDF

Au Chapitre 1, la droite des moindres carrés et le coefficient de corrélation sont présentés comme techniques purement descriptives: on observe deux variables, Y, la variable dite endogène; et X, la variable exogène, et X doit servir à expliquer et prédire Y. Nous nous sommes limités à une description de la relation entre deux variables dans l’échantillon et à proposer une équation destinée à exprimer la relation entre X et Y.

Or l’échantillon n’a d’intérêt que dans la mesure où il reflète une réalité qui dépasse les données de l’échantillon, la population. Considérons, par exemple, un échantillon de sujets réunis afin d’évaluer l’effet du sel sur la pression artérielle.  Supposons, pour simplifier, que les sujets sont en plusieurs points comparables : même âge, même condition physique, même style de vie, même sexe.  On observe, pour chaque sujet, une mesure x de sa consommation de sel et une mesure y de sa pression systolique, puis on détermine la droite de régression (après avoir vérifié graphiquement que la relation, s’il y en a une, est linéaire).  Le coefficient b1 de x estime ce que chaque unité supplémentaire de sel contribue à la hausse (ou la baisse, s’il se trouve que b1 est négatif) de la pression artérielle. Mais b1 n’est qu’une estimation, dans le sens que si on considérait un nombre infini de sujets semblables (la population), on pourrait découvrir que la valeur du coefficient—la « vraie » valeur, qu’on désigne par β1—est fort différente de b1.
Un échantillon comporte un risque plus grand encore : le risque de découvrir un effet qui n’existe pas.
On discutera dans ce chapitre trois questions incontournables.  Nous les exprimons dans le contexte de l’exemple cité ci-dessus :

  • Peut-on affirmer avec confiance que la relation entre X et Y existe réellement?  En d’autres termes, est-ce que le sel a un effet sur la pression artérielle?  C’est la première question à poser.  On y répond par un test d’hypothèse, l’hypothèse que la relation n’existe pas, soit Ho : β1 = 0. Si on rejette Ho, on peut alors s’interroger sur la force de la dépendance et sur l’utilité de la régression comme moyen de prédiction.
  • Le coefficient β1 est l’effet sur Y d’un accroissement d’une unité de X.  Il répond à la question : de combien (en moyenne) la pression artérielle change-t-elle lorsque la consommation de sel augmente d’un gramme?  On estime β1 par b1 et pour donner une idée de la précision de l’estimation on détermine un intervalle de confiance pour β1.
  • Un paramètre qui peut également intéresser est la moyenne conditionnelle des Y pour une valeur x donnée.  Quelle est, par exemple, la pression artérielle moyenne de ceux qui consomment 5 g de sel par jour?  On estime ce paramètre et on l’entoure d’un intervalle de confiance.
  • Finalement, une question sur la précision d’une prédiction.  Sachant qu’une personne consomme 5 g de sel par jour, on utilise l’équation de régression pour prédire sa pression artérielle.  On indique la précision de cette prédiction par ce qu’on appelle un intervalle de prédiction.

Bien qu’on présente souvent la régression comme un outil de prédiction, le fait est que cet objectif est souvent secondaire. Plusieurs études scientifiques cherchent avant tout à montrer que deux variables sont liées. Le seul fait de rejeter Ho est une découverte scientifiquement intéressante. Mais pour des raisons pratiques, on s’intéressera également à β1.  Il ne suffit pas de conclure que β1 ≠ 0.  Si on estime que β1 = 0,01, cela veut dire qu’un gramme de sel de plus entraîne une augmentation de pression de 0,01 mmHg.  La relation est statistiquement significative, mais négligeable et pratiquement sans intérêt. Les deux dernières questions importent moins.