Introduction

Ce recueil a été conçu pour le cours STT1000 du département de mathématiques de l’UQAM, le premier cours de statistique destiné aux étudiants en actuariat, en mathématiques et en statistique. Il respecte les objectifs du cours et la vocation de la discipline qui, de par ses origines, est un domaine appliqué. Mais ce recueil, bien qu’il soit appliqué dans sa finalité, et qu’il traite en détail de plusieurs techniques, consacre un espace important à la théorie qui sous-tend les techniques. Car bien s’il soit aisé d’apprendre à appliquer une technique à un problème donné, le choix d’une approche à un problème donné est loin d’être banal. Une technique ne s’applique que dans certaines conditions. Or ces conditions ne peuvent être clairement définies que dans un langage théorique. Il y a bien sûr moyen de définir—en des termes assez concrets—certains contextes qui satisfont les conditions. Mais cela restreint la portée des techniques aux seuls contextes définis, alors qu’une connaissance théorique permet de savoir si une technique particulière est applicable à un contexte nouveau. C’est cette plus large portée des connaissances théoriques qui permet d’unifier les concepts et de les lier à ceux traités dans les cours subséquents (par exemple, Crédibilité, Modèles de survie, Modèles de prévision, etc.) La statistique traitée ici repose sur une base mathématique dont la plus importante est la théorie des probabilités. Le cours tient pour acquis que le lecteur possède ce prérequis. On remarquera cependant, que le recueil consacre deux chapitres (2 et 3) à un rappel de la théorie des probabilités. Une explication est de mise.

Deux chapitres sur les probabilités

Ces deux chapitres servent minimalement à introduire le langage et la notation utilisés dans la suite. Pour ceux qui en ont besoin, ils servent aussi à rafraîchir la mémoire sur les parties de la théorie des probabilités qui seront utilisées dans la suite. Mais les chapitres 2 et 3 ont aussi un autre objectif, à notre avis plus important: celui de préparation pédagogique. Deux notions fondamentales en statistique, l’estimation et les tests d’hypothèses, sont traités formellement tout au long du cours. Ce sont deux aspects de ce qu’on appelle inférence statistique, qui consiste à passer d’un échantillon à la population duquel il a été tiré, et de déterminer dans quelle mesure ce qui est observé dans l’échantillon, est également vrai de la population.

Exemple: Un article annonce que « l’usage d’une tablette électronique favorise l’apprentissage ». Cette conclusion découlerait d’une expérience de type classique: deux groupes constitués au hasard à partir d’un échantillon d’élèves suivent un même cours, le premier assisté d’une tablette, l’autre pas. On constate que le taux de succès du premier groupe (avec tablette) est supérieur à celui du deuxième. La conclusion citée est-elle justifiée? Il existe des procédures bien établies, basées sur la théorie des probabilités et certains principes statistiques, qui mènent à une réponse nuancée à cette question. Nous en présenterons dans ce recueil. Mais à la base, au cœur de ces procédures et formules polies et parachevées, se trouve une question plutôt simple concernant l’écart entre les deux groupes: est-ce une coïncidence? Ou est-ce qu’il trop grand pour rendre cette hypothèse crédible? Une réflexion—rudimentaire—peut être amorcée à ce stade et il est pédagogiquement avantageux qu’elle le soit. Un contexte expérimental réaliste est parfois complexe, entraîne des calculs compliqués, et par conséquent risque de faire perdre de vue le sens élémentaire de la question posée, la façon dont on s’y prend pour avoir une réponse, ainsi que le sens de la conclusion tirée. C’est pourquoi j’ai cru bon, dans les chapitres 2 et 3 traitant de lois de probabilités, de proposer des exercices qui font plus que rappeler les lois de probabilités: ils invitent à les appliquer, de façon intuitive et sans appel à des théories évoluées, à des questions essentiellement statistiques. La prémisse étant qu’il est souhaitable d’aborder le plus tôt possible, dans un contexte simple et clair, les notions qui seront plus tard élaborées formellement. Et d’éviter ainsi que les détails techniques d’un développement formel n’ensevelissent et fassent oublier les notions simples à la base de l’inférence statistique. Une réflexion à ce stade devrait se révéler rentable à long terme. Il appartiendra aux lexteur de décider dans quelle mesure s’y investir.

Les calculs

Les exercices appliqués comportent inévitablement des calculs, parfois fastidieux. Il sera utile, voire nécessaire, d'utiliser un logiciel de calcul. La lectrice pourra choisir le logiciel qui lui convient. Le logiciel Excel, évoqué ici et là dans le recueil est un choix adéquat, dans la mesure où il est très répandu et assez versatile. Ce n'est pas un logiciel statistique, et c'est tant mieux, car au stade d'un premier cour il est préférable d'appliquer les formules soi-même, en utilisant les seules facilités de calcul arithmétique d'Excel. Ce qui suffit pour tous les exercices du recueil, à l'exception quelques-uns du chapitre 10. Excel offre en plus certaines fonctions statistiques. Elles sont utiles, elles permettent d'épargner du temps, et il n'y a pas de raison de s'en passer. Il est recommandé, cependant, de n'y recourir qu'après avoir, au moins une fois, effectué les calculs à l'aide des fonctions arithmétiques. Dans le cas du chapitre 10, exceptionnellement, certaines opérations (peu nombreuses) exigent un peu plus que ce qu'offre Excel. Ces opérations peuvent être effectuées par un programme nommé MegaStat, un additif d'Excel qui peut être téléchargé de l'Internet (gratuitement).