Partager :

Concepts Fondamentaux en Statistique

Puissance de Test

Taille d'Échantillon Optimale et Intervalles de Confiance



Sommaire :


Principes Fondamentaux

Le module Puissance de Test vous propose différentes techniques de calculs de puissance statistique, d'estimation de la taille d'échantillon optimale ainsi que diverses techniques avancées d'estimation d'intervalles de confiance. L'objectif principal des deux premières techniques consiste à vous permettre de déterminer, lors de la conception d'une expérience, (a) la taille nécessaire de l'échantillon pour que vos conclusions statistiques soient précises et fiables, et (b) dans quelle mesure votre test statistique va vous permettre de détecter des effets d'une certaine taille dans une situation donnée. La troisième technique permet de mettre en oeuvre les objectifs (a) et (b) ci-dessus, et d'estimer en pratique l'importance des effets expérimentaux.

L'analyse de la puissance statistique d'un test et l'estimation de la taille d'échantillon optimale constituent des aspects essentiels des plans d'expériences, car sans ces calculs, la taille de votre échantillon pourrait être insuffisante ou au contraire, inutilement grande. Si la taille de l'échantillon est trop faible, l'expérience manquera de précision pour répondre avec fiabilité aux questions que vous vous posez. Si la taille de l'échantillon est au contraire trop grande, ce seront des ressources et du temps gaspillés pour un gain minime.

Le module Puissance de Test met à votre disposition un certain nombre d'outils analytiques et graphiques permettant d'évaluer précisément les facteurs affectant la puissance et la taille d'échantillon dans la plupart des analyses statistiques traditionnelles. Cette information peut s'avérer cruciale pour concevoir une étude financièrement économique et scientifiquement utile.

Les procédures d'estimation d'intervalles non-centrés et autres procédures sophistiquées d'intervalles de confiance proposées dans le module Puissance de Test mettent à votre disposition diverses méthodes élaborées d'intervalles de confiance pour analyser l'importance des résultats d'une expérience observée. De plus en plus de statisticiens renommés affirment que l'estimation des intervalles de confiance doit compléter voire remplacer les approches traditionnelles de tests d'hypothèses dans l'analyse de données expérimentales.

Théorie de l'Échantillonnage et Logique des Tests d'Hypothèses

Dans la plupart des cas d'analyse statistique, nous n'avons pas accès à toute la population statistique qui nous intéresse, soit parce que la population est trop grande, soit parce qu'elle ne veut pas être mesurée, soit enfin parce que le processus de mesure serait trop long ou trop coûteux pour permettre davantage que l'exploration d'une petite fraction de la population. En conséquence, nous prenons fréquemment d'importantes décisions concernant une population statistique en nous appuyant sur une quantité relativement faible de données contenue dans un échantillon. Généralement, nous allons tirer un échantillon qui va nous permettre de calculer une quantité appelée statistique afin d'estimer une certaine caractéristique dans la population appelée paramètre.

Par exemple, prenons de cas d'un politicien qui se demande quelle est la part de la population qui soutient sa position sur une question d'actualité particulière. Sa circonscription est une agglomération importante constituée de 1.500.000 personnes inscrites sur les listes électorales. Dans ce cas,le paramètre qui nous intéresse, et que nous appellerons P, est la part de personnes dans la population toute entière qui soutient la position de cet homme politique. Cet homme politique va donc commander une enquête d'opinion auprès d'un institut qui va tirer un échantillon aléatoire de personnes et leur demander s'ils soutiennent ou non la position défendue par le politicien. Le nombre (N) de personnes à interroger est relativement faible par rapport à la taille de la population. Une fois ces personnes interrogées, l'institut de sondage va calculer la part de personnes en faveur de la proposition du politicien. Nous appellerons cette proportion, qui est une statistique, p.

Une chose dont nous pouvons avoir la certitude avant même de commencer notre étude, c'est que la proportion dans la population (P) sera différente de la proportion dans l'échantillon (p).  Dans la mesure où la proportion dans l'échantillon (p) fait appel à une certaine part de "chance de tirage", elle va s'écarter de la proportion dans la population (P). L'écart entre la proportion dans l'échantillon (p) et la proportion dans la population (P) est appelé erreur d'échantillonnage.

Dans tout échantillon, nous sommes quasiment assurés d'avoir une certaine dose d'erreur d'échantillonnage (sauf dans certains cas très exceptionnels), et nous ne pouvons pas connaître avec certitude l'importance de cette erreur. Si nous connaissions l'importance de l'erreur d'échantillonnage, cela voudrait dire que nous connaissons également la valeur exacte du paramètre, et que par conséquent, l'enquête d'opinion serait tout bonnement inutile.

D'une manière générale, plus la taille d'échantillon N est grande, plus l'erreur d'échantillonnage tend vers zéro (nous ne pouvons toutefois jurer de rien pour une expérience particulière). Si nous voulons prendre une décision précise concernant un paramètre p, nous devons prendre un N suffisamment grand afin que l'erreur d'échantillonnage soit "raisonnablement faible". Si N est trop petit, il devient inutile de collecter des données, puisque les résultats seront tellement imprécis qu'ils ne serviront finalement à rien.

À l'inverse, il existe également un moment à partir duquel l'augmentation du N n'apporte plus grand chose. Lorsque le N est "suffisamment grand" pour atteindre un degré de précision satisfaisant, son augmentation ne constitue qu'un gaspillage de temps et d'argent.

Certaines décisions importantes doivent être prises lors de la conception d'une expérience, et nous pouvons les formuler ainsi : "Quelle précision dans l'estimation de mes paramètres vais-je obtenir si je choisis une taille d'échantillon particulière ?" et "Quelle est la taille d'échantillon à utiliser pour atteindre un niveau souhaitable de précision ?"

L'objectif du module Puissance de Test est de vous fournir les méthodes statistiques pour répondre à ces questions de façon simple, rapide et précise. Le module est constitué de boîte de dialogue simples destinées à calculer la puissance et estimer la taille d'échantillon requise pour la plupart des procédures statistiques traditionnelles, et offre un certain nombre de routines spécialisées de distributions non-centrées permettant aux utilisateurs experts de réaliser toute une gamme de calculs complémentaires.

Supposons qu'un homme politique cherche à savoir si l'une de ses propositions électorales reçoit le soutient d'une majorité de l'électorat. En termes statistiques, nous pouvons exprimer sa problématique sous la forme "est-ce que p > 0,50 ?" De nature optimiste, notre homme politique pense que c'est le cas.

En statistiques, il est courant d'utiliser la stratégie suivante. Nous exprimons une "hypothèse statistique nulle" qui est à l'exact opposé de ce que nous pensons. Nous appelons cette hypothèse H0. Nous collectons ensuite les données. Puis, en nous appuyant sur la théorie statistique, nous allons chercher à démontrer à partir des données que H0 est probablement fausse, et qu'elle doit être rejetée.

En rejetant H0, nous défendons la thèse que nous soutenons. Ce type de situation, que nous retrouvons dans de nombreux domaines de recherche, est parfois appelé "test de rejet" car en rejetant l'hypothèse nulle, nous soutenons la théorie de l'expérimentateur.

L'hypothèse nulle est soit vraie, soit fausse, et le processus de décision statistique est construit de sorte à ne pas avoir "d'ex-aequos". Nous pouvons soit rejeter l'hypothèse nulle, soit ne pas la rejeter. Ainsi, avant de réaliser l'expérience, nous savons que nous pouvons nous retrouver dans 4 situations particulières. Ces dernières sont synthétisées dans le tableau ci-dessous :

 

Réalité

HO

H1

Décision

H0

Acceptation correcte

b

Erreur de deuxième espèce

H1

Erreur de première espèce

Rejet correct

Remarque : ce tableau représente deux types d'erreurs. La plupart des ouvrages de statistiques présentent un point de vue commun en sciences sociales, c'est-à-dire que a, le taux d'erreur de première espèce, ne doit pas dépasser 0,05, et que, dans la mesure du possible, b, le taux d'erreur de deuxième espèce, doit également être aussi faible que possible. La "Puissance statistique" qui est égale à 1 - b, doit donc être aussi élevée que possible. Idéalement, la puissance doit être au moins égale à 0,80 pour permettre de détecter un écart raisonnable à l'hypothèse nulle.

Les conventions sont, bien évidemment, beaucoup plus rigides pour a que pour b. Par exemple, en sciences sociales, ne va jamais (ou très exceptionnellement) dépasser la barre fatidique de 0,05. Arrêtons nous un instant sur les origines de ce seuil.

Dans le cadre des tests de significativité, nous pouvons définir deux types de situations, celle des tests de rejet (évoquée précédemment) et celle des tests d'acceptation. Dans les tests de rejet, l'hypothèse nulle est en fait l'opposé de ce que le chercheur pense, et le rejet de l'hypothèse nulle conforte la théorie du chercheur. Dans une expérience de rejet portant sur deux groupes où l'on cherche à comparer les moyennes d'un groupe expérimental par rapport à un groupe témoin (de contrôle), l'expérimentateur suppose que le traitement a un effet, et va chercher à le démontrer à l'aide d'un test de significativité qui va rejeter l'hypothèse nulle.

Dans le cas des tests de rejet, l'erreur de première espèce, représente d'une certaine manière une "fausse joie" pour la théorie du chercheur. Ces fausses alertes sont, du point de vue de la société, tout à fait indésirables. Elles s'accompagnent d'efforts vains, en particulier lorsque ces fausses alertes sont intéressantes d'un point de vue théorique ou politique (ou les deux), et qu'elles suscitent donc un certain nombre de recherche complémentaires. Ces recherches complémentaires ne vont généralement pas permettre de conforter les conclusions originales (incorrectes), et vont générer confusion et frustration.

Dans les tests de rejet, l'erreur b de seconde espèce est une tragédie pour le chercheur, car une théorie qui est vraie, ne sera pas confirmée alors qu'elle aurait dû l'être. Ainsi, imaginons qu'un traitement d'amélioration de la condition physique soit trouvé mais qu'il ne permette pas d'améliorer la condition physique dans un groupe de contrôle particulier ; c'est un traitement efficace qui va être abandonné, du moins de façon temporaire, et une idée intéressante de l'expérimentateur qui ne sera pas approfondie.

En conséquence, dans les tests de rejets, la société, au travers des éditorialistes et des autres professionnels, insistent sur la nécessité de maintenir à un niveau faible. Le chercheur consciencieux va également chercher à maintenir b à un niveau aussi faible que possible. Dans l'idéal bien entendu, tout le monde gagnerait à ce que les deux probabilités d'erreur soient maintenues à un niveau faible, mais malheureusement dans la pratique, il faut souvent effectuer un arbitrage entre ces deux types d'erreurs.

Les test de rejet sont de loin les plus utilisés, et les conventions qui en découlent se sont largement imposées dans les tests statistiques. En conséquence, le courant de pensée dominant par rapport aux taux d'erreur est qu'il est inconcevable de voir a dépasser un certain seuil, et il appartient au chercheur de s'assurer que la puissance statistique est adéquate. On peut se demander si ces conventions sont adaptées dans le cadre des tests de rejet, mais il apparaît qu'elles ne sont nullement déraisonnables.

Dans les tests d'acceptation au contraire, les conventions énoncées ci-dessus par rapport aux taux d'erreur ne sont plus du tout applicables. Dans les tests d'acceptation, H0 correspond à la thèse que le chercheur défend, et le fait d'accepter l'hypothèse nulle ne fait que confirmer la théorie du chercheur. Dans ce cas, l'erreur de première espèce correspond au rejet de la théorie du chercheur en se trompant, et l'erreur b de deuxième espèce constitue une acceptation de la théorie du chercheur en se trompant. En conséquence, si nous respectons les conventions vertueuses énoncées pour les tests de rejet, et que nous maintenons par exemple l'erreur de première espèce à un niveau très bas, disons 0,001, nous allons en fait favoriser illégitimement la théorie du chercheur dans un test d'acceptation.

Dans les tests d'acceptation comme dans les tests de rejet, il est facile de trouver des exemples où le test de significativité apparaît exagéré ou irréaliste. Considérons tout d'abord le cas des tests de rejet. Dans certaines situations, il est tout simplement impossible de travailler sur des échantillon de taille suffisante. Citons notamment la recherche en sciences sociales ou en psychologie clinique où les chercheurs ont parfois besoin de passer plusieurs jours à interviewer un même sujet. Une année entière de recherche peut alors ne permettre d'obtenir dans certains cas des données valides que pour une cinquantaine d'individus. Les tests de corrélations en particulier, ont une très faible puissance lorsque les échantillons sont de cette taille. Dans ce cas précis, il sera sans doute raisonnable d'assouplir le seuil au delà de 0,05, s'il permet d'obtenir une puissance raisonnable.

À l'inverse, il est également possible de se trouver confronté à une puissance trop importante. Par exemple, nous pouvons souhaiter tester l'hypothèse selon laquelle la moyenne dans deux population est égale (c'est-à-dire Mu1 = Mu2) avec une taille d'échantillon d'un million dans chaque groupe. Dans ce cas, même avec des différences évidentes entre les groupes, nous allons presque toujours rejeter l'hypothèse nulle.

La situation devient encore plus anormale dans les tests d'acceptation. En effet, si N est trop grand, le chercheur va presque inévitablement prendre une décision contre sa théorie, même s'il s'agit d'une excellente approximation des données. Il semble paradoxal dans ce contexte que la précision de l'expérience joue plutôt en défaveur du chercheur.

Pour résumer, dans les tests de rejet :

  1. Le chercheur souhaite rejeter l'hypothèse H0.

  2. La société souhaite contrôler l'erreur de première espèce.

  3. Le chercheur doit porter une attention particulière au risque de deuxième espèce.

  4. Une taille d'échantillon élevée joue en faveur du chercheur.

  5. Si la puissance est "trop élevée", les effets évidents deviennent "très significatifs".

Dans les tests d'acceptation :

  1. Le chercheur souhaite accepter l'hypothèse H0.

  2. La société doit s'inquiéter de l'erreur de deuxième espèce, mais se trompe parfois et utilise les conventions applicables aux tests de rejet.

  3. Le chercheur doit porter une attention particulière au risque de première espèce.

  4. Une taille d'échantillon élevée joue contre le chercheur.

  5. Si la puissance est "trop élevée", la théorie du chercheur pourra être "rejetée" par un test de significativité même si les données sont presque parfaitement ajustées.

Calculer la Puissance d'un Test

Les expériences bien conçues doivent garantir une puissance suffisante pour pouvoir détecter des écarts raisonnables par rapport à l'hypothèse nulle. Sans quoi, l'expérience même risque de présenter peu d'intérêt. La plupart des ouvrages élémentaires contiennent une présentation des facteurs qui influencent la puissance d'un test statistique. Il s'agit en particulier des éléments suivants :

  1. Quel type de test mettons-nous en oeuvre. Certains test statistiques sont naturellement plus puissants que d'autres.

  2. La taille de l'échantillon. D'une manière générale, plus la taille d'échantillon est grande, plus la puissance est élevée. Toutefois, lorsque nous augmentons la taille de l'échantillon, nous voyons simultanément une augmentation significative des coûts, à la fois en temps, en argent et en efforts. Par conséquent, il faut que la taille de l'échantillon soit "suffisamment grande", mais pas trop.

  3. La taille des effets de l'expérience. Si l'hypothèse nulle est "très fausse", la puissance sera supérieure par rapport au cas où l'hypothèse nulle n'est que "à peine fausse".

  4. Le niveau d'erreur dans les mesures expérimentales. L'erreur de mesure fait office de "bruit" qui peut masquer le "signal" des véritables effets de l'expérience. Par conséquent, tout ce qui est de nature à améliorer la précision et la cohérence des mesures ne peut qu'augmenter la puissance statistique.

Calculer la Taille d'Échantillon Requise

Pour garantir qu'un test statistique va posséder la puissance requise, il est généralement nécessaire de réaliser des analyses spécifiques avant de réaliser l'expérience, afin de connaître la taille de l'échantillon N à utiliser.

Examinons rapidement la théorie statistique qui sert de fondement aux calculs d'estimation de puissance et de taille d'échantillon. Revenons à notre exemple original d'un politicien qui se demande quelle doit être la taille de l'échantillon à utiliser pour réaliser une enquête d'opinion visant à conforter ses propositions.

La théorie statistique, bien évidemment, ne peut pas nous dire ce qui va se passer avec une enquête d'opinion particulière. En revanche, au travers du concept de distribution d'échantillonnage, elle peut nous apprendre ce qui risque de se produire et dégager des tendances si nous réalisons plusieurs enquêtes d'opinion d'une certaine taille.

Une distribution d'échantillonnage est la distribution d'une statistique sur des échantillons répétés. Considérons la proportion p d'un échantillon résultant d'une enquête d'opinion sur un échantillon de taille N, dans le cas où la proportion p dans la population est égale exactement à 0,50. La théorie de la distribution d'échantillonnage nous apprend que p possède une distribution que nous pouvons calculer à partir théorème binomial. Cette distribution, pour une taille N suffisamment grande, et pour des valeurs de p qui ne sont pas trop proches de 0 ni de 1, tend vers une distribution normale de moyenne p et d'écart-type (appelé "erreur-type de la proportion") :

sp = racine carrée[p(1-p)/N]

Supposons par exemple que notre politicien a commandé une enquête d'opinion sur la base de N = 100. La distribution de p, sur différents échantillons répétés, va alors avoir l'aspect suivant si p = 0,5.

Les valeurs sont centrées autour de 0,5, mais nous avons un faible pourcentage de valeurs supérieures à 0,6 ou inférieures à 0,4. Cette distribution des valeurs révèle q'une enquête d'opinion basée sur un échantillon de taille 100 est un indicateur imparfait de la proportion p dans la population.

Si p était un estimateur "parfait" de p, l'erreur-type de la proportion serait nul, et la distribution d'échantillonnage serait matérialisée par une simple barre positionnée sur la valeur 0,5. La dispersion de la distribution d'échantillonnage nous révèle la quantité de "bruit" qui est mélangée au "signal" généré par le paramètre.

Vous remarquez dans l'équation de l'erreur-type de la proportion qu'à mesure que N augmente, l'erreur-type de la proportion diminue. Si N devient suffisamment grand, nous avons la certitude que notre estimation, p, sera très précise.

Supposons que notre politicien utilise la règle de décision suivante : si la valeur observée de p est supérieure à 0,58, il va décider que l'hypothèse nulle selon laquelle p est inférieur ou égal à 0,50 est fausse. Cette règle de rejet est illustrée ci-dessous.

Nous pouvons, en additionnant toutes les probabilités (issues de la distribution binomiale), déterminer que la probabilité de rejeter l'hypothèse nulle lorsque p = 0,50 est de 0,044. Par conséquent, cette règle de décision va déterminer un taux d'erreur de première espèce, a, inférieur ou égal à 0,044. Il s'avère qu'il s'agit du plus petit critère de décision permettant d'obtenir un a inférieur ou égal à 0,05.

Cependant, notre politicien s'intéresse également à la puissance dans ce cas, parce que c'est en rejetant l'hypothèse nulle qu'il est en mesure de défendre l'idée qui a le soutien de l'opinion publique.

Supposons que 55% des électeurs soutiennent le politicien, c'est-à-dire que p = 0,55 et que l'hypothèse nulle est en fait fausse. Dans ce cas, la bonne décision consiste à rejeter l'hypothèse nulle. Quelle probabilité avons-nous d'obtenir une proportion dans l'échantillon supérieure au seuil de décision de 0,58 qui nous est nécessaire pour rejeter l'hypothèse nulle ?

Dans l'illustration ci-dessous, nous avons superposé la distribution d'échantillonnage de p lorsque p = 0,55. Très clairement, le politicien ne va prendre la bonne décision d'avoir le soutien majoritaire de l'opinion qu'un faible pourcentage de fois. La probabilité d'obtenir un p supérieur à 0,58 n'est que de 0,241.

Inutile de dire qu'il ne sert à rien de conduire une expérience dans laquelle, si notre position est correcte, elle ne sera vérifiée que dans 24,1% des cas ! Un statisticien dirait que le test de significativité possède "une puissance inadaptée pour détecter un écart de 5 points par rapport à la valeur testée sous l'hypothèse nulle".

Le problème tient à la dispersion des deux distributions dans l'illustration précédente. Si nous avions pris une taille d'échantillon plus grande, l'erreur-type de la proportion aurait été plus faible, et la zone sur laquelle les deux distributions se chevauchent auraient été plus petite. Il aurait alors été possible de trouver un seuil de décision permettant d'obtenir un a faible et une puissance élevée.

La question qui se pose est la suivante : "Quelle est la taille d'échantillon N nécessaire pour atteindre une puissance raisonnablement élevée" dans notre cas, tout en maintenant a à une valeur suffisamment faible.

Vous pourriez bien évidemment réaliser un certain nombre de calculs répétitifs et laborieux pour parvenir à déterminer cette taille d'échantillon. Toutefois, le module STATISTICA Puissance de Test va effectuer ces calculs automatiquement, en quelques clics seulement. En outre, pour chaque situation analytique qu'il traite, le module STATISTICA Puissance de Test offres de nombreuses possibilités pour analyser et représenter les relations théoriques entre la puissance du test, la taille d'échantillon et les variables qui les affectent. Le module Puissance de Test considère que vous utiliser le test bien connu du Chi², et non le test exact binomial. Si notre politicien décide qu'il lui faut une puissance de 0,80 pour détecter un p de 0,55 il s'avère qu'une taille d'échantillon de 607 permet d'obtenir une puissance de 0,8009 exactement (la valeur Alpha de ce test, pour un niveau nominal de 0,05, est de 0,0522 dans ce cas).

Approches Graphiques de la Puissance d'un Test

Dans la rubrique Calculer la Taille d'Échantillon Requise, nous sommes arrivés à une taille d'échantillon nécessaire de 607 sous l'hypothèse que p prend précisément la valeur 0,80. En pratique, il serait stupide de ne faire qu'un seul calcul de puissance, sur la base d'une valeur hypothétique. Par exemple, supposons que la fonction qui met en relation la taille d'échantillon requise à p possède une pente particulièrement forte dans ce cas. Il est tout à fait possible que la taille d'échantillon requise pour un p de 0,70 soit très différente de la taille d'échantillon requise pour détecter avec fiabilité un p de 0,80.

Une analyse intelligente de la puissance d'un test et de la taille d'échantillon requise nécessite la construction et l'examen attentif des graphiques relatifs à la puissance, à la taille d'échantillon, la force du rejet de l'hypothèse nulle (c'est-à-dire, l'effet expérimental), et d'autres facteurs comme le taux d'erreur de première espèce. Le module Puissance de Test vous permet de construire simplement une large gamme de graphiques de puissance et de taille d'échantillon.

Dans l'exemple évoqué dans la section précédente, l'objectif de notre homme politique consistait à mettre en place une étude visant à décider, avec une faible probabilité d'erreur, si l'opinion publique soutenait sa position, c'est-à-dire si la frange de la population en faveur de ses propositions était supérieure à 0,50. L'analyse graphique peut nous apprendre énormément de choses dans ce cas quant aux possibilités d'un test statistique à fournir l'information désirée.

Par exemple, le chercheur peut représenter la puissance en fonction de la taille d'échantillon, sous l'hypothèse que le véritable niveau est de 0,55, c'est-à-dire que 55% de la population soutient sa proposition. Vous pouvez commencer par produire un graphique couvrant un large éventail de tailles d'échantillon afin d'obtenir une idée générale du comportement du test statistique. Le graphique suivant représente la puissance en fonction de tailles d'échantillon comprises entre 20 et 2000, en utilisant une "approximation normale" de la distribution binomiale exacte.

Le graphique précédent nous montre que la puissance devient acceptable (le seuil considéré comme raisonnable est généralement compris entre 0,80 et 0,90) pour une taille d'échantillon d'environ 600.

Comme indiqué ci-dessus, ces calculs reposent sur l'hypothèse que la véritable valeur p est égale à 0,55. Il se peut que la forme de la courbe mettant en relation la puissance et la taille d'échantillon soit particulièrement sensible à cette valeur. La question qui se pose alors est la suivante : "dans quelle mesure la forme de ce graphique est-elle affectée par la véritable valeur de p ?

Il existe diverses manières de répondre à cette question. Nous pouvons par exemple représenter la puissance en fonction de la taille d'échantillon pour d'autres valeurs de p. Ci-dessous, un graphique de la puissance en fonction de la taille d'échantillon pour p = 0,6.

Comme vous pouvez le constater sur le graphique ci-dessus, nous améliorons beaucoup plus rapidement la puissance à mesure que N augmente pour p = 0,6 que pour p = 0,55. La différence est frappante si nous fusionnons les deux graphiques dans un seul comme illustré ci-dessous :

Lors de la création d'une étude, et en particulier lorsqu'une demande de subvention doit être soumise avec une taille d'échantillon proposée, il faut estimer ce qui constitue l'effet minimum raisonnable à détecter, la puissance minimum pour détecter cet effet, et la taille d'échantillon à mettre en oeuvre pour atteindre cette puissance souhaitée. Vous pouvez obtenir cette taille d'échantillon en analysant les graphiques ci-dessus, mais le module Puissance de Test peut également effectuer ces calculs directement. Par exemple, si vous vous demandez quelle est la taille d'échantillon minimum requise pour obtenir une puissance de 0,90 lorsque p = 0,55, le module va vous donner instantanément la réponse. Le résultat est reporté dans la feuille de données ci-dessous :

Vous pouvez également envoyer les résultats sous une forme déjà rédigée que vous pourrez inclure en l'état dans votre demande de subventions.  Pour ce faire, sélectionnez un rapport STATISTICA ou Microsoft Word à produire dans la boîte de dialogue Options - onglet Gestionnaire de Sorties, et dans la liste déroulante Type d'information supplémentaire, sélectionnez l'option Complète. Lorsque vous produisez la feuille de données, les résultats rédigés en français sont également envoyés dans le rapport.

Pour un niveau de puissance donné, le graphique de la taille d'échantillon en fonction de p nous montre dans quelle mesure la taille d'échantillon requise est sensible à une variation de la véritable valeur de p. Cet indicateur est important pour nous permettre de savoir si l'estimation de la taille d'échantillon requise est sensible ou non. Par exemple, le graphique suivant illustre les valeurs de N qui sont requises pour atteindre une puissance de 0,90 pour différentes valeurs de p, lorsque la valeur testée sous l'hypothèse nulle est p = 0,50

Le graphique précédent nous montre que la taille d'échantillon requise N chute rapidement lorsque p passe de 0,55 à 0,60. Pour être en mesure de détecter avec fiabilité une différence de 0,05 (par rapport à la valeur testée sous l'hypothèse nulle à 0,50) nous avons besoin d'une taille d'échantillon N supérieure à 800, mais la détection fiable d'une différence de 0,10 ne nécessite plus qu'un N de l'ordre de 200. Il est alors délicat de trouver la bonne taille d'échantillon dans ce cas. Il faut donc bien connaître la performance globale du test statistique dans différentes configurations avant de commencer une expérience, plutôt que de se retrouver dans une situation inconfortable après coup. Imaginons par exemple que l'expérimentateur a estimé la taille d'échantillon requise sur la base d'une détection fiable d'un p à 0,6 (pour une puissance de 0,90). L'expérimentateur va par exemple budgéter une taille d'échantillon de 220, en imaginant que de petits écarts de p par rapport à 0,6 ne vont pas nécessiter des différences importantes sur N. Ce n'est qu'après coup que l'expérimentateur va se rendre compte qu'une variation minime de p nécessite en fait une augmentation importante de N, et que le plan de l'expérience était beaucoup trop optimiste. Dans ce cas, une "fenêtre d'opportunités" peut se fermer avant que l'expérimentateur ne puisse revoir la taille d'échantillon à la hausse.

Dans de nombreuses situations analytiques, la puissance de test et le calcul de la taille d'échantillon font intervenir des étapes similaires :

  1. Spécification du type d'analyse et de l'hypothèse nulle

  2. Balayage de la puissance et de la taille d'échantillon requise pour un intervalle raisonnable des effets.

  3. Calcul de la taille d'échantillon requise pour détecter un effet expérimental raisonnable (c'est-à-dire un écart à l'hypothèse nulle), avec un niveau raisonnable de puissance, tout en s'accordant une marge d'erreur raisonnable.

Intervalles de Confiance Non Centrés et Évaluation de Modèles Statistiques

Le module Puissance de test intègre un certain nombre d'intervalles de confiance souvent absent des programmes statistiques généralistes. Certains de ces intervalles sont évoqués dans un cadre théorique appelé "estimation d'intervalles non-centrés" par Steiger et Fouladi (1997). Dans cette section, nous évoquerons rapidement certains fondements de ces intervalles de confiance qui gagnent en popularité. Cliquez sur un lien ci-dessous pour plus d'informations.

Les Avantages des Intervalles de Confiance

La plupart des recherches sont de nature exploratoire. Les questions fondamentales qui se posent en recherche exploratoire consistent à tenter d'approcher au mieux la taille de l'effet dans la population et de savoir avec quelle précision nous avons pu déterminer l'importance d'un effet dans la population à partir de notre échantillon de données. Les tests de significativité ne permettent pas de répondre à ces questions directement. La plupart des chercheurs confrontés à un "rejet sans appel" d'une hypothèse nulle, ne peuvent résister à la tentation de reporter que le test était "significatif bien au delà du seuil 0,001" bien qu'il soit communément admis qu'un niveau p sur un test de significativité est un mauvais indicateur de l'importance des effets dans la population.

L'estimation des intervalles de confiance offre une bonne alternative aux tests de significativité dans la plupart des cas. Considérons une hypothèse bilatérale d'égalité entre deux moyennes. Gardez à l'esprit que le test de significativité va rejeter l'hypothèse nulle au seuil de significativité a si et seulement si l'intervalle de confiance 1 - de la différence entre les moyennes exclut la valeur zéro. Par conséquent, le test de significativité peut s'effectuer au travers de l'intervalle de confiance. La plupart des ouvrages de vulgarisation en statistiques montrent comment calculer ces intervalles de confiance. L'intervalle est exact sous les hypothèses du test t standard. Toutefois, l'intervalle de confiance contient diverses informations concernant la précision de l'expérience qui ne sont pas restitués par un test de significativité. Imaginons que nous soyons raisonnablement confiants dans la métrique utilisée pour nos données, il est alors beaucoup plus parlant de donner un intervalle de confiance sur Mu1 - Mu2 que de donner un niveau p pour le test t sur l'hypothèse que Mu1 - Mu2 = 0. En somme, nous pouvons affirmer que d'une manière générale, l'intervalle de confiance nous donne davantage d'informations, sous une forme beaucoup plus naturellement exploitable, qu'un test de significativité.

Il est beaucoup plus clair de représenter des intervalles de confiance comparant différentes études sur un même graphique comme illustré ci-dessous :

La figure ci-dessus représente les intervalles de confiance de la différence entre deux moyennes pour 3 expériences, toutes réalisées dans le même domaine, en utilisant des mesures avec une dispersion sensiblement homogène. Les expériences 1 et 3 produisent un intervalle de confiance qui n'intègre pas la valeur zéro. Pour ces expériences, nous avons rejeté l'hypothèse nulle. La seconde expérience au contraire est associée à un intervalle de confiance qui intègre la valeur zéro, et nous ne pouvons donc pas rejeter l'hypothèse nulle selon laquelle il n'existe aucune différence entre les moyennes. Un test de significativité donnerait l'impression que la seconde expérience est en contradiction avec les deux autres.

Les intervalles de confiance nous fournissent une interprétation différente. Nous avons réalisé la première expérience sur un très grand échantillon, avec des mesures très précises, qui se traduisent par un intervalle de confiance très étroit. Dans cette expérience, nous avons identifié un petit effet, et avons établi, grâce à la grande précision de notre enquête, que nous pouvions rejeter l'hypothèse nulle selon laquelle il n'existe aucune différence à un seuil de significativité rigoureux.

La second expérience manquait clairement de précision, et se traduit par un intervalle de confiance très large. De toute évidence, la taille d'échantillon était trop faible. Il se peut très bien que le véritable effet testé dans les conditions de la seconde expérience se trouve être plus important que dans la première expérience, mais la précision de l'expérience n'était tout simplement pas en mesure de le détecter.

La troisième expérience a révélé un effet statistiquement significatif, et sans doute sensiblement plus élevé que dans la première expérience, même si cette hypothèse est partiellement masquée par la moindre précision reflétée par un intervalle de confiance qui, bien que plus faible que dans l'expérience 2, n'en demeure pas moins substantiellement plus grand que dans l'expérience 1.

Supposons que les 3 expériences visent à tester les différences de QI entre différents groupes. Dans l'analyse finale, nous pouvons avoir eu recours à une puissance trop importante dans la première expérience, puisque nous déclarons un effet assez insignifiant (potentiellement inférieur à un seul point de QI) comme étant "très significatif". La puissance de la seconde expérience est insuffisante. La troisième expérience semble mieux conçue.

De nombreux arguments développés ici en faveur des intervalles de confiance ont été défendus de façon tout à fait pertinente par d'éminents statisticiens. Malgré tout, les intervalles de confiance demeurent rarement reportés dans la littérature. Plus important, comme nous le démontrerons dans les sections suivantes, certains intervalles de confiance particulièrement intéressants sont quasiment passés sous silence. Dans les autres rubriques de cette Introduction,  nous verrons pourquoi ces intervalles de confiance sont si rarement reportés.

Les Inadéquations de l'Approche des Tests d'Hypothèses

Au sens strict, les résultats d'un test de significativité sont un arbitrage ou une décision dichotomique entre l'acceptation ou le rejet de l'hypothèse nulle. Cette dichotomie est par nature insatisfaisante pour de nombreux scientifiques qui utilisent l'hypothèse nulle comme un postulat d'absence d'effet, et qui s'intéressent davantage à l'importance d'un effet plutôt l'absence de cet effet (précisément égal à zéro). C'est la raison pour laquelle nous voyons apparaître parfois un, deux ou voire même trois astérisques à côté de certains résultats dans les tableaux, ou dans les listes de valeurs p à côté des résultats, alors qu'en fait, ces valeurs entre différentes études (ou parfois même, au sein de la même étude) doivent correspondre aux meilleures estimations de l'importance des effets expérimentaux, et donc, peuvent être extrêmement trompeurs. Certains auteurs (par exemple, Guttman, 1977) considèrent le fait d'ajouter des astérisques tout à fait incohérent avec les fondements de la logique des tests de significativité.

Les tests de probabilité peuvent s'avérer décevants quant à la "force" d'un résultat, notamment lorsqu'il est présenté sans information complémentaire. Par exemple, si dans une table ANOVA, un effet possède un niveau p de 0,019, et qu'un autre possède un niveau p de 0,048, il peut être incorrect de conclure que nous avons la preuve statistique que le premier effet est plus fort que le second. Pour interpréter correctement ces résultats, nous avons besoin de plus d'information. Pour comprendre pourquoi, supposons qu'un article reporte une valeur p de 0,001. Ce niveau p peut être lié à un effet évident dans la population avec une taille d'échantillon importante, ou un effet important dans la population avec une taille d'échantillon modérée, ou encore avec un effet très important dans la population avec une petite taille d'échantillon. De la même manière, un niveau p de 0,075 peut représenter un effet important combiné à une taille d'échantillon faible, ou un effet minuscule avec un échantillon de très grande taille. Il faut donc prendre toutes les précautions nécessaires pour comparer des niveaux p.

Dans les tests d'acceptation, que nous retrouvons fréquemment dans le cadre de l'ajustement de modèles en analyse factorielle ou en "modélisation de causalités", la logique des tests de significativité est clairement inadaptée. Le rejet d'une hypothèse nulle "presque vraie" dans ce cas est souvent accompagnée d'un commentaire indiquant qu'il ne faut pas considérer ce rejet comme définitif. L'impossibilité de rejeter une hypothèse nulle va généralement susciter de la part d'un éditorialiste scrupuleux une demande de calculs de puissance embarrassants. Il est possible d'éviter dans une certaine mesure ces problèmes grâce aux intervalles de confiance.

Les Raisons pour Lesquelles les Intervalles de Confiance sont Rarement

Reportés

Malgré les avantages évidents des estimations d'intervalles, ces derniers demeurent rarement utilisés dans les articles publiés de nombreux domaines scientifiques. Dans les rares cas où ils le sont, il ne s'agit généralement pas des meilleurs. Plusieurs raisons à ce status quo :

Tradition. L'approche traditionnelle des statistiques tend à privilégier les tests de significativité plutôt que les intervalles de confiance.

Pragmatisme. Dans le cas des test de rejet, les intervalles de confiance peuvent parfois s'avérer embarrassants. Lorsqu'ils sont étroits mais proches de zéro, ils suggèrent qu'un résultat "très significatif" est certes statistiquement significatif mais évident. S'ils sont larges, ils trahissent le manque de précision de l'expérience.

Ignorance. Certaines personnes ignorent tout simplement l'existence de procédures très intéressantes d'intervalles de confiance. Par exemple, de nombreux ouvrages d'analyse multivariée ne mentionnent pas la possibilité de calculer un intervalle de confiance sur un coefficient de corrélation multiple au carré.

Indisponibilité. Certaines procédures particulièrement intéressantes d'intervalles de confiance nécessitent de nombreux calculs, et sont absents de certains logiciels statistiques renommés. Cette absence n'est évidemment pas de nature à favoriser leur utilisation.

Remplacer les Tests d'Hypothèses Traditionnels par les Intervalles de

Confiance

Le module STATISTICA Puissance de Test intègre un certain nombre de procédures d'intervalles de confiance pouvant remplace ou du moins compléter les tests d'hypothèses traditionnels utilisés dans les situations classiques. Pour une présentation de ces techniques, voir les travaux de Steiger & Fouladi (1997).

Analyse de la Variance. L'un des domaines dans lesquels les intervalles de confiance sont rarement utilisés est celui où nous cherchons à évaluer la force des effets dans une analyse de variance (ANOVA).

Par exemple, supposons que vous lisiez un article qui indique que pour une ANOVA à un facteur avec 4 groupes et N = 60 par groupe, nous trouvons un F significatif au seuil 0,05 ("F = 2,70, p =0,0464"). Ce résultat est statistiquement significatif, mais comment l'interpréter de manière pratique ? Que savons-nous de la taille des effets expérimentaux ?

Fleischman (1980) propose une technique pour déterminer un intervalle de confiance basé sur la taille globale d'un effet par une Analyse de Variance. Cette technique nous permet de définir un intervalle de confiance sur la RMSSE, la racine carrée moyenne de l'effet centré-réduit. Les effets centrés-réduits sont reportés en unités d'écarts-types, et demeurent donc constants lorsque l'unité de mesure change. Ainsi par exemple, un effet expérimental reporté en degrés celsius serait différent du même effet reporté en degrés farenheit, alors que l'effet centré-réduit serait le même dans les deux cas. Dans le cas des données mentionnées ci-dessus, la statistique du F qui est significative au seuil 0,05 produit un intervalle de confiance à 90% de RMSSE qui varie entre 0,0190 et 0,3139. La limite inférieure de cet intervalle représente un effet véritablement médiocre, inférieur à 1/50ème de l'écart-type. La limite supérieure de cet intervalle représente des effets de l'ordre du tiers de l'écart-type, ce qui est correct sans être écrasant. Il apparaît alors que les résultats de cette étude ne dégagent pas d'effets expérimentaux très marqués, même si les effets sont statistiquement "significatifs".

Régression Multiple. La corrélation multiple au carré est fréquemment reportée comme un indice de la force globale d'une équation de prévision. Après avoir ajusté une équation de régression, il faut se poser les questions suivantes : (a) "Avec quelle efficacité l'équation de régression permet-elle de prévoir le critère ?" et (b) "Avec quelle précision cette efficacité a-t'elle été déterminée ?"

Ainsi, une application statistique très courante qui aurait grand besoin des intervalles de confiance est la régression multiple. Lorsque nous publions un R multiple au carré observé accompagné du résultat du test d'hypothèse selon lequel la corrélation multiple au carré dans la population est nul, nous ne dévoilons qu'une petite partie de l'information statistique disponible. Un intervalle de confiance sur la corrélation multiple au carré dans la population est beaucoup plus informatif.

Le module STATISTICA Puissance de Test va calculer les intervalles de confiance exacts de la corrélation multiple au carré dans la population, conformément aux recommandations de Steiger et Fouladi (1992). Par exemple, supposons qu'un critère soit prévu à partir de 45 observations indépendantes sur 5 variables et que la corrélation multiple au carré observée s'établisse à 0,40. Dans ce cas, l'intervalle de confiance à 95% de la corrélation multiple au carré dans la population varie entre 0,095 et 0,562 !  Simultanément, la valeur de la corrélation multiple au carré est très significative "a delà du seuil 0,001" puisque le niveau p est égal à 0,0009, l'estimateur synthétique vaut 0,327. De toute évidence, il est beaucoup plus frappant de dire que "la valeur du R multiple au carré est significative au seuil 0,001" plutôt que "nous avons 95% de chances pour que la corrélation multiple au carré se situe entre 0,095 et 0,562 dans la population", mais nous pensons que cette dernière affirmation transcrit mieux la qualité et la réalité du résultat statistique que la première.

Certains auteurs, comme Lee (1972), préfèrent citer la limite de confiance inférieure, ou "borne statistique inférieure" de l'intervalle de confiance pour la corrélation multiple au carré. La logique, c'est que nous cherchons généralement à nous assurer que la part de variance "expliquée par" l'équation de la régression dépasse un certain seuil. Nous comprenons la logique de cette démarche, mais ne la cautionnons pas. L'intervalle de confiance contient certes une borne inférieure, mais également une borne supérieure, et entre les deux, une certaine mesure de la précision de l'estimation. Il apparaît alors que l'utilisation de la seule limite de confiance peut conduire à un faux sentiment de sécurité, tout en réduisant la quantité d'information disponible dans le processus d'évaluation du modèle.