Statistique (STT1000)

Statistique (STT1000) 2018-05-20T00:38:01+00:00

Ce recueil a été conçu pour le cours STT1000 du département de mathématiques de l’UQAM, le premier cours de statistique destiné aux étudiants en actuariat, en mathématiques et en statistique. Il respecte les objectifs du cours ainsi que la vocation de la discipline, une discipline foncièrement appliquée de par ses origines.

Cela dit, si le présent document est résolument appliqué dans sa finalité, et à cette fin comprend un grand nombre d’exemples concrets discutés en détail, il consacre néanmoins une place importante à la théorie,  présentée comme au service des applications, car une application compétente des méthodes statistiques repose nécessairement sur une bonne compréhension de la théorie qui les sous-tend : c’est elle qui permet de définir clairement les situations auxquelles elles s’appliquent.

Il est vrai que certaines de ces situations peuvent s’exprimer dans un langage relativement concret, comme il se fait dans les cours destinés à des clientèles spécialisées. Mais une description trop concrète est contraignante; elle limite la portée d’une méthode et ne révèle pas la totalité des situations nouvelles auxquelles elle pourrait s’appliquer. Or la capacité de faire face à des situations nouvelles est indispensable à ceux dont la profession fait de la statistique un des outils principaux. Ceux-là doivent développer l’autonomie qui permet de modéliser une situation en la décrivant sous ses aspects fondamentaux, donc en termes de variables aléatoires, de lois de probabilité et de paramètres, faisant ainsi ressortir, dans des situations superficiellement différentes, les similitudes en vertu desquelles elles obéissent à un même modèle mathématique.

Le rôle de la théorie

La théorie, donc, joue un rôle important dans ce recueil. Le défi est de présenter des applications susceptibles de motiver les discussions théoriques, comme celles, par exemple, qui portent sur les propriétés d’un estimateur, et sur la recherche d’un estimateur. Leur utilité n’est pas évidente si elles ne servent, en bout de ligne, qu’à justifier les méthodes présentées et conclure, par exemple, que la moyenne et la variance d’un échantillon sont de bons estimateurs de la moyenne et de la variance d’une population.

Face à une conclusion aussi prévisible et intuitivement raisonnable, il est difficile de convaincre que la théorie est indispensable pour la justifier.  C’est pour cela que de nombreux exercices invitent le lecteur à déterminer des estimateurs et à évaluer leurs propriétés dans des situations non familières. Des situations dont j’aurais voulu qu’elles soient aussi réalistes que possible mais qui, je le reconnais, ne le sont pas toutes. Pour ces dernières, je sollicite l’indulgence du lecteur, qui reconnaîtra, je l’espère, que leur valeur pédagogique justifie leur inclusion.

À terme, l’étudiante doit pouvoir unifier les concepts et les lier à ceux traités dans les cours subséquents : par exemple, Crédibilité, Modèles de survie, Modèles de prévision, etc.

Le niveau du cours

Ajuster le niveau d’un texte ou d’un cours à celui d’une classe a toujours été un défi. Aucun livre ou recueil ne peut convenir parfaitement à tous. Celui-ci non plus. D’aucuns trouveront que tel sujet n’a pas sa place dans un cours d’introduction, alors que d’autres diront que tel autre sujet ne devrait pas y être. Pour que le recueil puisse être utile au plus grand nombre, j’ai préféré en mettre trop plutôt que pas assez. De même, j’inclus plusieurs exercices qui exigent une maturité mathématique qu’on ne peut attendre des étudiants de ce niveau. L’enseignant devra donc faire des choix. J’ai tenté d’aider en classant les exercices de base selon la technique utilisée. Ceux-là sont accessibles si la technique a été étudiée. Ceux de la classe « divers » sont plus exigeants, ne serait-ce que parce qu’ils ne soufflent pas l’approche à suivre.
Deux chapitres sur les probabilités

Le lecteur est présumé avoir une connaissance suffisante de la théorie des probabilités, mais on le sait : il n’aura pas tout appris ou tout retenu. Il sentira le besoin de se mettre à jour ou de se rafraîchir la mémoire. Je consacre à cette fin—et aussi pour établir le langage et la notation utilisés tout au long — deux chapitre (2 et 3) à un résumé de la théorie des probabilités.

Mais un autre objectif, plus important à mes yeux, m’a guidé dans la rédaction de ces chapitres : ils devraient servir avant tout à introduire progressivement les idées qui seront traitées formellement dans les chapitres suivants. Ces notions sont parfois complexes et subtiles et ne peuvent pas toutes être maîtrisées instantanément : elles prennent un certain temps à mûrir dans la tête. Il est bon d’y penser à l’avance et de les appréhender dans leur état embryonnaire. C’est le cas, par exemple, de la notion de test d’hypothèse, traitée formellement sur plusieurs chapitres. En voici un exemple :

Exemple: Un article annonce que « l’usage d’une tablette électronique favorise l’apprentissage ». Cette conclusion découlerait d’une expérience de type classique: deux groupes constitués au hasard à partir d’un échantillon d’élèves suivent un même cours, le premier assisté d’une tablette, l’autre pas. On constate que le taux de succès du premier groupe (avec tablette) est supérieur à celui du deuxième. La conclusion citée est-elle justifiée?

Il existe des procédures bien établies, basées sur la théorie des probabilités et certains principes statistiques, qui mènent à une réponse nuancée à cette question. Nous en présenterons dans ce recueil. Mais à la base, au cœur de ces procédures et formules polies et parachevées, se trouve une question plutôt simple concernant l’écart entre les deux groupes: est-ce une coïncidence? Ou est-ce qu’il trop grand pour rendre cette hypothèse crédible? Une réflexion—rudimentaire—peut être amorcée à ce stade et il est bon qu’elle le soit.

Un contexte expérimental réaliste est parfois complexe, entraîne des calculs complexes, et par conséquent risque de faire perdre de vue le sens élémentaire de la question posée, ainsi que le sens de la conclusion tirée. C’est pourquoi j’ai jugé bon, dans les chapitres 2 et 3 traitant de lois de probabilités, de proposer des exercices qui font plus que rappeler les lois de probabilités: ils invitent à les appliquer, de façon intuitive et sans appel à des théories évoluées, à des questions essentiellement statistiques. La prémisse étant qu’en abordant ces notions le plus tôt possible, dans un contexte simple et clair, on évite que les détails techniques d’un développement formel n’ensevelissent et fassent oublier les idées simples qui en constituent la base. Une réflexion à ce stade devrait se révéler rentable à long terme. Il appartiendra à la lectrice de décider dans quelle mesure s’y investir.

Les calculs

Les exercices appliqués réalistes comportent inévitablement des calculs, parfois fastidieux. Il sera utile, voire nécessaire, de recourir à un logiciel de calcul. La lectrice peut choisir le logiciel qui lui convient. Le logiciel Excel, évoqué ici et là dans le recueil est un choix adéquat, dans la mesure où il est très répandu et assez versatile. Ce n’est pas un logiciel statistique, et en un sens c’est tant mieux, car au stade d’un premier cour il est préférable d’appliquer les formules soi-même, en utilisant seules les facilités de calcul arithmétique d’Excel. Ce qui suffit pour tous les exercices du recueil, à l’exception de quelques-uns du chapitre 10.

Excel offre en plus certaines fonctions statistiques. Elles sont utiles, elles permettent d’épargner du temps, et il n’y a pas de raison de s’en passer. Il est recommandé, cependant, de n’y recourir qu’après avoir, au moins une fois, effectué les calculs à l’aide des seules fonctions arithmétiques.  Dans le cas du chapitre 10, exceptionnellement, certaines opérations (peu nombreuses) exigent un peu plus que ce qu’offre Excel. Ces opérations peuvent être effectuées par un programme nommé MegaStat, un additif d’Excel qui peut être téléchargé de l’Internet.
Il existe aussi un logiciel particulièrement bien adapté aux calculs exigés par ce recueil.  Ce logiciel, du nom de « R », peut lui aussi être téléchargé de l’Internet sans frais. Dans une version révisée de ce recueil j’ajouterai quelques instructions sur l’utilisation de R.