PDF

La régression linéaire simple permet d’établir un lien entre une variable endogène Y et une variable exogène x. Dans ce chapitre, nous développons le modèle de régression multiple, qui permet d’exprimer Y en fonction de plusieurs variables exogènes. Un des cas particuliers du modèle est la régression polynomiale.

Si l’intention est de prédire Y, il est évident qu’on a intérêt à utiliser toutes les variables avec lesquelles elle est liée : la prédiction ne peut qu’en être plus précise. Le modèle permet d’évaluer l’apport de chaque variable exogène, c’est-à-dire, sa contribution à la précision des prédictions, ainsi que la validité globale du modèle.

Mais le but d’une régression n’est pas toujours de faire des prédictions; c’est parfois de savoir s’il existe réellement un lien et quelle en est sa nature. La régression multiple permet — jusqu’à un certain point — de s’assurer qu’une relation observée n’est pas le fruit de facteurs externes qui causent une dépendance artificielle. Un seul exemple pour l’instant. Une étude sur plusieurs villes américaines a montré que le taux Y de cancers de poumons est lié au degré de pollution de l’air de la ville: un taux plus élevé dans les villes les plus polluées. Mais on a constaté aussi que les villes les plus polluées sont celles où la population est plus âgée. Est-ce possible que ce soit l’âge et non la pollution qui cause le cancer? La question est délicate et les analyses à faire pour y répondre exigent un certain discernement, mais un début de réponse émerge dans la mesure où le modèle permet d’estimer la dépendance conditionnelle entre le taux de cancer et la pollution étant donné un âge fixe; ou la dépendance conditionnelle entre le taux de cancer et l’âge étant donné un niveau de pollution fixe.