Critères de sélection asymptotiques. Notation asymptotique du temps d'exécution des programmes. Des estimations d’en bas, d’en haut, asymptotiquement exactes. La règle de la somme et la règle du produit. Liste recommandée de mémoires

Définition. La direction définie par un vecteur non nul est appelée direction asymptotique par rapport à la deuxième ligne d'ordre, si n'importe lequel la ligne de cette direction (c'est-à-dire parallèle au vecteur ) soit a au plus un point commun avec la ligne, soit est contenue dans cette ligne.

? Combien de points communs une droite du second ordre et une droite de direction asymptotique par rapport à cette droite peuvent-elles avoir ?

Dans la théorie générale des droites du second ordre, il est prouvé que si

Alors le vecteur non nul ( définit la direction asymptotique par rapport à la droite

(critère général pour la direction asymptotique).

Pour les lignes de deuxième commande

si , alors il n’y a pas de directions asymptotiques,

si alors il y a deux directions asymptotiques,

si alors il n’y a qu’une seule direction asymptotique.

Le lemme suivant s’avère utile ( critère de direction asymptotique d'une ligne de type parabolique).

Lemme . Soit une droite de type parabolique.

Un vecteur non nul a une direction asymptotique

relativement . (5)

(Problème. Démontrer le lemme.)

Définition. La droite de direction asymptotique est appelée asymptote lignes du second ordre, si cette ligne ne la coupe pas ou y est contenue.

Théorème . Si a une direction asymptotique par rapport à , alors l'asymptote parallèle au vecteur est déterminée par l'équation

Nous remplissons le tableau.

TÂCHES.

1. Trouvez les vecteurs directeurs asymptotiques pour les droites de second ordre suivantes :

4 - type hyperbolique, deux directions asymptotiques.

Utilisons le critère de direction asymptotique :

A une direction asymptotique par rapport à la droite donnée 4 .

Si =0, alors =0, c'est-à-dire zéro. Puis divisez par Nous obtenons une équation quadratique : , où t = . On résout cette équation quadratique et trouvons deux solutions : t = 4 et t = 1. Alors les directions asymptotiques de la droite .

(Deux manières peuvent être envisagées, puisque la ligne est de type parabolique.)

2. Découvrez si les axes de coordonnées ont des directions asymptotiques par rapport aux droites du second ordre :

3. Écrivez l'équation générale d'une droite du second ordre pour laquelle

a) l'axe des abscisses a une direction asymptotique ;

b) Les deux axes de coordonnées ont des directions asymptotiques ;

c) les axes de coordonnées ont des directions asymptotiques et O est le centre de la ligne.

4. Écrivez les équations asymptotes des droites :

a) ng w:val="EN-US"/>oui=0"> ;

5. Montrer que si une droite du second ordre a deux asymptotes non parallèles, alors leur point d'intersection est le centre de cette droite.

Note: Puisqu’il existe deux asymptotes non parallèles, il existe deux directions asymptotiques, alors et, par conséquent, la droite est centrale.

Notez les équations asymptotes sous forme générale et le système pour trouver le centre. Tout est évident.

6.(№920) Écrivez l'équation d'une hyperbole passant par le point A(0, -5) et ayant des asymptotes x - 1 = 0 et 2x - y + 1 = 0.

indication. Utilisez l’énoncé du problème précédent.

Devoirs. , n° 915 (c, e, e), n° 916 (c, d, e), n° 920 (si vous n’avez pas le temps) ;

Berceaux;

Silaev, Timochenko. Travaux pratiques en géométrie,

1 semestre P.67, questions 1 à 8, p.70, questions 1 à 3 (orale).

DIAMÈTRES DE LIGNES DE DEUXIÈME ORDRE.

DIAMÈTRES ASSOCIÉS.

Un système de coordonnées affine est donné.

Définition. diamètre la droite du second ordre, conjuguée à un vecteur de direction non asymptotique par rapport à , est l'ensemble des milieux de toutes les cordes de la droite parallèle au vecteur .

Lors du cours, il a été prouvé que le diamètre est une droite et son équation a été obtenue

Recommandations: Montrez (sur une ellipse) comment il est construit (définissez une direction non asymptotique ; tracez [deux] lignes droites de cette direction coupant la ligne ; trouvez les milieux des cordes coupées ; tracez une ligne droite passant par les milieux - ceci est le diamètre).

Discuter:

1. Pourquoi un vecteur de direction non asymptotique est-il pris dans la définition du diamètre. S’ils ne peuvent pas répondre, demandez-leur de construire un diamètre, par exemple pour une parabole.

2. Une ligne du deuxième ordre a-t-elle au moins un diamètre ? Pourquoi?

3. Lors du cours, il a été prouvé que le diamètre est une ligne droite. Au milieu de quelle corde se trouve le point M sur la figure ?


4. Regardez les parenthèses dans l'équation (7). Que rappellent-ils ?

Conclusion : 1) chaque centre appartient à chaque diamètre ;

2) s’il existe une ligne droite de centres, alors il existe un seul diamètre.

5. Quelle est la direction des diamètres des lignes paraboliques ? (Asymptotique)

Preuve (probablement dans une conférence).

Soit le diamètre d donné par l'équation (7`) soit conjugué à un vecteur de direction non asymptotique. Alors son vecteur directeur

(-(), ). Montrons que ce vecteur a une direction asymptotique. Utilisons le critère du vecteur directeur asymptotique pour une droite parabolique (voir (5)). Nous remplaçons et nous assurons (n'oubliez pas cela .

6. Combien de diamètres a une parabole ? Leur position relative ? Combien de diamètres ont le reste des lignes paraboliques ? Pourquoi?

7. Comment construire le diamètre total de quelques paires de droites du second ordre (voir questions 30, 31 ci-dessous).

8. Nous remplissons le tableau, assurez-vous de faire des dessins.

1. . Écrivez l'équation de l'ensemble des milieux de toutes les cordes parallèles au vecteur

2. Écrivez une équation pour le diamètre d passant par le point K(1,-2) pour la droite.

Étapes de la solution:

1ère voie.

1. Déterminer le type (pour savoir comment se comportent les diamètres de cette ligne).

Dans ce cas, la droite est centrale, alors tous les diamètres passent par le centre C.

2. On compose l'équation d'une droite passant par deux points K et C. C'est le diamètre souhaité.

2ème voie.

1. Nous écrivons l’équation du diamètre d sous la forme (7`).

2. En substituant les coordonnées du point K dans cette équation, nous trouvons la relation entre les coordonnées du vecteur conjugué au diamètre d.

3. Nous définissons ce vecteur, en tenant compte de la dépendance trouvée, et composons l'équation du diamètre d.

Dans ce problème, il est plus facile de calculer de la deuxième manière.

3. . Écrivez l’équation du diamètre parallèle à l’axe des x.

4. Trouvez le milieu de la corde coupée par la ligne

sur la droite x + 3y – 12 =0.

Suggestion de décision: Bien sûr, vous pouvez trouver les points d'intersection de la ligne et de la ligne données , puis - le milieu du segment résultant. L'envie de le faire disparaît si l'on prend, par exemple, une droite d'équation x + 3y - 2009 = 0.

Il existe un système de notations pour décrire les estimations asymptotiques :

§ On dit que f(n)= Ô(g(n)) s'il existe une constante c>0 et un nombre n0 tel que la condition 0≤f(n)≤c*g(n) est satisfaite pour tout n≥n0. Plus formellement:

(()) { () | 0, } 0 0 O g n= fn$c> $n"n> n£ fn£ cg m

Ô(g(n)) est utilisé pour indiquer des fonctions qui ne sont pas plus d'un nombre constant de fois supérieur à g(n), cette variante est utilisée pour décrire des limites supérieures (dans le sens de « pas pire que »). Lorsqu'il s'agit d'un algorithme spécifique pour résoudre un problème spécifique, l'objectif de l'analyse de la complexité temporelle de cet algorithme est d'obtenir une estimation du pire temps ou du temps moyen, généralement une estimation supérieure asymptotique. Ô(g(n)), et, si possible, une borne inférieure asymptotique W(g(n)), et encore mieux, une borne asymptotiquement exacte Q(g(n)).

Mais en même temps, la question demeure : peut-il exister des algorithmes de solution encore meilleurs pour ce problème ? Cette question pose le problème de trouver une estimation inférieure de la complexité temporelle pour le problème lui-même (pour tous les algorithmes possibles pour le résoudre, et non pour un des algorithmes connus pour le résoudre). Le problème de l’obtention de limites inférieures non triviales est très compliqué. À ce jour, il n’existe pas beaucoup de résultats de ce type, mais des limites inférieures non triviales ont été prouvées pour certains modèles limités de calculatrices, et certains d’entre eux jouent un rôle important dans la programmation pratique. L'un des problèmes pour lesquels une limite inférieure de complexité temporelle est connue est le problème de tri :

§ Étant donné une séquence de n éléments a1,a2,... an choisis dans un ensemble sur lequel un ordre linéaire est donné.

§ Il est nécessaire de trouver une permutation p de ces n éléments qui mappe la séquence donnée en une séquence non décroissante ap(1),ap(2),... ap(n), c'est-à-dire ap(i)≤ap(i+1) pour 1≤i méthode de réduction . Supposons que nous ayons deux problèmes A et B, qui sont connectés de sorte que le problème A puisse être résolu comme suit :

1) Les données d'entrée pour la tâche A sont converties en entrée correspondante

données pour la tâche B.

2) Le problème B est résolu.

3) Le résultat de la solution du problème B est transformé en la solution correcte du problème A .__ Dans ce cas, on dit que tâche UN réduit au problème B. Si les étapes (1) et (3) des informations ci-dessus peuvent être complétées à temps Ô(t(n)), où, comme d’habitude, n – 25 est le « volume » du problème A , alors on dit que A t (n)-réductible à B, et écrivez-le ainsi : A μt (n) B. D'une manière générale, la réductibilité n'est pas une relation symétrique : dans le cas particulier où A et B sont mutuellement réductibles, nous les appellerons équivalents. Les deux évidences suivantes caractérisent la puissance de la méthode de réduction en supposant que cette réduction préserve l'ordre du « volume » du problème.

"Ô" grand Et "o" petit( et ) sont des notations mathématiques permettant de comparer le comportement asymptotique des fonctions. Ils sont utilisés dans diverses branches des mathématiques, mais le plus activement - dans l'analyse mathématique, la théorie des nombres et la combinatoire, ainsi qu'en informatique et en théorie des algorithmes.

, « Ô petit de " signifie "infiniment petit par rapport à" [ , négligeable lorsqu'on le considère. La signification du terme "Big O" dépend de son domaine d'application, mais ne croît toujours pas plus vite que " Ô grand de " (les définitions exactes sont données ci-dessous).

En particulier:

Suite 7

l'expression « la complexité de l'algorithme est » signifie qu'avec une augmentation du paramètre caractérisant la quantité d'informations d'entrée de l'algorithme, le temps d'exécution de l'algorithme ne peut pas être limité par une valeur qui croît plus lentement que n!;

l'expression "la fonction est" o "petite de la fonction au voisinage du point" signifie qu'à mesure que k s'approche, elle diminue plus vite que (le rapport tend vers zéro).

Règle de somme: Soit un ensemble fini M divisé en deux sous-ensembles non sécants M 1 et M 2 (dans l'union de ceux donnant l'ensemble M entier). Alors la cardinalité |M| = |M1 | + |M2|.

Règle du produit: Supposons que dans un ensemble, l'objet a puisse être choisi de n manières, et après cela (c'est-à-dire après avoir choisi l'objet a) l'objet b peut être choisi de m manières. Ensuite, l'objet ab peut être choisi de n*m ​​manières.

Commentaire: Les deux règles permettent une généralisation inductive. Si un ensemble fini M admet une partition en r sous-ensembles disjoints deux à deux M 1 , M 2 ,…,M r , alors la cardinalité de |M| = |M 1 |+|M 2 |+…+|M r |. Si l'objet A 1 peut être choisi de k 1 manières, alors (après que l'objet A 1 a été choisi) l'objet A 2 peut être choisi de k 2 manières, et ainsi de suite et enfin, l'objet AR peut être choisi de kr façons, alors l'objet A 1 A 2 ... Et r peut être choisi de k 1 k 2 …k r façons.

Dans les conditions modernes, l'intérêt pour l'analyse des données augmente constamment et intensément dans des domaines complètement différents, tels que la biologie, la linguistique, l'économie et, bien sûr, l'informatique. La base de cette analyse repose sur les méthodes statistiques, et tout spécialiste du data mining qui se respecte doit les comprendre.

Malheureusement, la littérature de très bonne qualité, capable de fournir à la fois des preuves mathématiquement rigoureuses et des explications intuitives compréhensibles, n’est pas très courante. Et ces conférences, à mon avis, sont particulièrement utiles pour les mathématiciens qui comprennent la théorie des probabilités précisément pour cette raison. Ils sont enseignés en master à l'Université allemande Christian-Albrecht dans les programmes « Mathématiques » et « Mathématiques financières ». Et pour ceux qui s'intéressent à la manière dont cette matière est enseignée à l'étranger, j'ai traduit ces conférences. Il m'a fallu plusieurs mois pour traduire, j'ai dilué les cours avec des illustrations, des exercices et des notes de bas de page pour certains théorèmes. Je précise que je ne suis pas un traducteur professionnel, mais juste un altruiste et amateur dans ce domaine, j'accepterai donc toute critique si elle est constructive.

En bref, les cours portent sur :


Attente conditionnelle

Ce chapitre ne traite pas directement des statistiques, mais il constitue un point de départ idéal pour les étudier. L’espérance conditionnelle est le meilleur choix pour prédire un résultat aléatoire sur la base des informations dont vous disposez déjà. Et c'est aussi aléatoire. Ici, ses différentes propriétés sont prises en compte, telles que la linéarité, la monotonie, la convergence monotone, etc.

Bases de l'estimation de points

Comment évaluer le paramètre de distribution ? Quel est le critère pour cela ? Quelles méthodes faut-il utiliser pour cela ? Ce chapitre vous permet de répondre à toutes ces questions. Ici, les concepts d'estimateur sans biais et d'estimateur uniformément sans biais avec variance minimale sont introduits. Explique d'où proviennent la distribution du chi carré et la distribution de Student et pourquoi elles sont importantes pour estimer les paramètres d'une distribution normale. On explique ce que sont l'inégalité de Rao-Kramer et les informations de Fisher. Le concept de famille exponentielle est également introduit, ce qui facilite grandement l'obtention d'une bonne estimation.

Estimation des paramètres bayésiens et minimax

Une approche philosophique différente de l’évaluation est décrite ici. Dans ce cas, le paramètre est considéré comme inconnu car il s’agit d’une réalisation d’une variable aléatoire avec une distribution connue (a priori). En observant le résultat de l'expérience, nous calculons la distribution dite postérieure du paramètre. Sur cette base, nous pouvons obtenir une estimation bayésienne, où le critère est la perte minimale en moyenne, ou une estimation minimax, qui minimise la perte maximale possible.

Suffisance et exhaustivité

Ce chapitre est d’une grande importance pratique. Une statistique suffisante est fonction de l'échantillon, de sorte qu'il suffit de stocker uniquement le résultat de cette fonction pour estimer le paramètre. Il existe de nombreuses fonctions de ce type, parmi lesquelles figurent les statistiques dites minimales suffisantes. Par exemple, pour estimer la médiane d'une distribution normale, il suffit de stocker un seul nombre : la moyenne arithmétique sur l'ensemble de l'échantillon. Cela fonctionne-t-il également pour d'autres distributions, comme la distribution Cauchy ? Comment des statistiques suffisantes aident-elles à choisir des estimations ? Ici vous pouvez trouver des réponses à ces questions.

Propriétés asymptotiques des estimations

La propriété la plus importante et la plus nécessaire d'une estimation est peut-être sa cohérence, c'est-à-dire la tendance vers le paramètre réel avec une augmentation de la taille de l'échantillon. Ce chapitre décrit les propriétés des estimations connues, obtenues par les méthodes statistiques décrites dans les chapitres précédents. Les concepts d'impartialité asymptotique, d'efficacité asymptotique et de distance de Kullback-Leibler sont introduits.

Bases des tests

En plus de la question de savoir comment évaluer un paramètre qui nous est inconnu, il faut en quelque sorte vérifier s'il satisfait aux propriétés requises. Par exemple, une expérience est en cours dans laquelle un nouveau médicament est testé. Comment savoir si vous avez plus de chances de vous rétablir qu'avec des médicaments plus anciens ? Ce chapitre explique comment de tels tests sont construits. Vous apprendrez quel est le test uniformément le plus puissant, le test de Neyman-Pearson, le niveau de signification, l'intervalle de confiance, et également d'où viennent le fameux test gaussien et le test t.

Propriétés asymptotiques des critères

Comme les estimations, les critères doivent satisfaire à certaines propriétés asymptotiques. Parfois, des situations peuvent survenir lorsqu'il est impossible de construire le critère requis, cependant, en utilisant le théorème central limite bien connu, nous construisons un critère qui tend asymptotiquement vers le critère nécessaire. Ici, vous apprendrez quel est le niveau de signification asymptotique, la méthode du rapport de vraisemblance et comment le test de Bartlett et le test d'indépendance du chi carré sont construits.

Modèle linéaire

Ce chapitre peut être considéré comme un complément, à savoir l'application des statistiques dans le cas de la régression linéaire. Vous comprendrez quelles notes sont bonnes et dans quelles conditions. Vous apprendrez d'où vient la méthode des moindres carrés, comment construire des critères et pourquoi vous avez besoin d'une distribution F.

Comme indiqué dans la section précédente, l'étude des algorithmes classiques peut dans de nombreux cas être réalisée à l'aide de méthodes asymptotiques de statistiques mathématiques, en particulier en utilisant les méthodes d'héritage CLT et de convergence. La séparation des statistiques mathématiques classiques des besoins de la recherche appliquée s'est manifestée notamment par le fait que les monographies populaires manquent de l'appareil mathématique nécessaire, notamment, à l'étude des statistiques à deux échantillons. L'essentiel est que vous devez aller à la limite non pas d'un paramètre, mais de deux - les volumes de deux échantillons. J'ai dû développer une théorie appropriée - la théorie de l'héritage de la convergence, exposée dans notre monographie.

Toutefois, les résultats d’une telle étude devront être appliqués à des tailles d’échantillon finies. Une telle transition pose de nombreux problèmes. Certains d'entre eux ont été discutés dans le cadre de l'étude des propriétés des statistiques construites à partir d'échantillons issus de distributions spécifiques.

Cependant, lorsqu’on examine l’influence des écarts par rapport aux hypothèses initiales sur les propriétés des procédures statistiques, des problèmes supplémentaires surgissent. Quels écarts sont considérés comme typiques ? Faut-il se concentrer sur les écarts les plus « nuisibles » qui déforment le plus les propriétés des algorithmes, ou faut-il se concentrer sur les écarts « typiques » ?

Avec la première approche, nous obtenons un résultat garanti, mais le « prix » de ce résultat peut être inutilement élevé. A titre d'exemple, nous citons l'inégalité universelle de Berry-Esseen pour l'erreur dans le CLT. Souligne à juste titre A.A. Borovkov que "le taux de convergence des problèmes réels s'avère généralement meilleur".

Dans la deuxième approche, la question se pose de savoir quels écarts sont considérés comme « typiques ». Vous pouvez essayer de répondre à cette question en analysant un large éventail de données réelles. Il est tout à fait naturel que les réponses des différents groupes de recherche diffèrent, comme le montrent par exemple les résultats présentés dans l’article.

L'une des idées fausses est l'utilisation dans l'analyse des écarts possibles uniquement d'une famille paramétrique spécifique - les distributions de Weibull-Gnedenko, la famille à trois paramètres des distributions gamma, etc. En 1927, acad. Académie des sciences de l'URSS S.N. Bernstein a discuté de l'erreur méthodologique consistant à réduire toutes les distributions empiriques à une famille de Pearson à quatre paramètres. Cependant, les méthodes statistiques paramétriques restent très populaires, en particulier parmi les scientifiques appliqués, et la faute de cette idée fausse incombe principalement aux enseignants de méthodes statistiques (voir ci-dessous, ainsi que l'article).

15. Choisir l'un des nombreux critères pour tester une hypothèse particulière

Dans de nombreux cas, de nombreuses méthodes ont été développées pour résoudre un problème pratique spécifique, et un spécialiste des méthodes de recherche mathématique est confronté au problème : laquelle doit-on proposer à une personne appliquée pour analyser des données spécifiques ?

A titre d'exemple, considérons le problème de la vérification de l'homogénéité de deux échantillons indépendants. Comme vous le savez, pour sa solution, vous pouvez proposer de nombreux critères : Student, Cramer-Welch, Lord, chi carré, Wilcoxon (Mann-Whitney), Van - der - Waerden, Savage, N.V. Smirnov, tels que les oméga- place (Lehmann -Rosenblatt), G.V. Martynova et autres. Lequel choisir ?

L'idée du « vote » vient naturellement à l'esprit : tester selon de nombreux critères, puis décider « à la majorité des voix ». Du point de vue de la théorie statistique, une telle démarche conduit simplement à la construction d’un autre critère, a priori pas meilleur que les précédents, mais plus difficile à étudier. En revanche, si les solutions sont les mêmes pour tous les critères statistiques considérés basés sur des principes différents, alors, conformément au concept de stabilité, cela augmente la confiance dans la solution globale obtenue.

Il existe une opinion fausse et préjudiciable largement répandue, notamment parmi les mathématiciens, sur la nécessité de rechercher des méthodes, des solutions optimales, etc. Le fait est que l’optimalité disparaît généralement lorsqu’il y a un écart par rapport aux hypothèses initiales. Ainsi, la moyenne arithmétique en tant qu'estimation de l'espérance mathématique n'est optimale que lorsque la distribution d'origine est normale, alors qu'une estimation cohérente l'est toujours, si seulement l'espérance mathématique existe. D'autre part, pour toute méthode arbitraire d'estimation ou de test d'hypothèses, on peut généralement formuler le concept d'optimalité de telle sorte que la méthode considérée devienne optimale - de ce point de vue spécialement choisi. Prenons, par exemple, la médiane de l'échantillon comme estimation de l'espérance mathématique. Elle est bien entendu optimale, bien que dans un sens différent de la moyenne arithmétique (optimale pour une distribution normale). À savoir, pour la distribution de Laplace, la médiane de l'échantillon est l'estimation du maximum de vraisemblance, et donc optimale (au sens spécifié dans la monographie).

Les critères d'homogénéité ont été analysés dans une monographie. Il existe plusieurs approches naturelles pour comparer les critères - basées sur l'efficacité relative asymptotique selon Bahadur, Hodges-Lehman, Pitman. Et il s’est avéré que chaque critère est optimal avec l’alternative correspondante ou une répartition adaptée sur l’ensemble des alternatives. Dans le même temps, les calculs mathématiques utilisent généralement l'alternative du décalage, ce qui est relativement rare dans la pratique de l'analyse de données statistiques réelles (en relation avec le critère de Wilcoxon, cette alternative a été discutée et critiquée par nous dans ). Le résultat est triste - la brillante technique mathématique démontrée dans , ne nous permet pas de donner des recommandations pour choisir un test d'homogénéité lors de l'analyse de données réelles. En d'autres termes, du point de vue du travailleur chargé de l'application, c'est-à-dire analyse de données spécifiques, la monographie est inutile. La brillante maîtrise des mathématiques et la grande diligence démontrée par l'auteur de cette monographie n'ont hélas rien apporté à la pratique.

Bien entendu, tout statisticien en activité résout d'une manière ou d'une autre lui-même le problème du choix d'un critère statistique. Sur la base d'un certain nombre de considérations méthodologiques, nous avons opté pour le critère de type oméga-carré (Lehmann-Rosenblatt) qui est cohérent par rapport à toute alternative. Il existe cependant un sentiment d’insatisfaction dû au manque de validité de ce choix.

Exact Tests fournit deux méthodes supplémentaires pour calculer les niveaux de signification des statistiques disponibles via les procédures Tableaux croisés et Tests non paramétriques. Ces méthodes, les méthodes exacte et Monte Carlo, permettent d'obtenir des résultats précis lorsque vos données ne répondent à aucune des hypothèses sous-jacentes nécessaires à l'obtention de résultats fiables à l'aide de la méthode asymptotique standard. Disponible uniquement si vous avez acheté les options de tests exacts.

exemple. Les résultats asymptotiques obtenus à partir de petits ensembles de données ou de tableaux clairsemés ou déséquilibrés peuvent être trompeurs. Les tests exacts vous permettent d'obtenir un niveau de signification précis sans vous fier à des hypothèses qui pourraient ne pas être satisfaites par vos données. Par exemple, les résultats d'un examen d'entrée pour 20 pompiers dans une petite commune montrent que les cinq candidats blancs ont obtenu un résultat réussi, tandis que les résultats des candidats noirs, asiatiques et hispaniques sont mitigés. Un chi carré de Pearson testant l'hypothèse nulle selon laquelle les résultats sont indépendants de la race produit un niveau de signification asymptotique de 0,07. Ce résultat conduit à la conclusion que les résultats des examens sont indépendants de la race du candidat. Cependant, comme les données ne contiennent que 20 cas et que les cellules s’attendent à des fréquences inférieures à 5, ce résultat n’est pas fiable. La signification exacte du chi carré de Pearson est de 0,04, ce qui conduit à la conclusion opposée. Sur la base de la signification exacte, vous concluriez que les résultats de l’examen et la race du candidat sont liés. Cela démontre l’importance d’obtenir des résultats exacts lorsque les hypothèses de la méthode asymptotique ne peuvent être satisfaites. La signification exacte est toujours fiable, quelle que soit la taille, la distribution, la rareté ou l’équilibre des données.

statistiques. signification asymptomatique. approximation de Monte Carlo avec niveau de confiance ou signification exacte.

  • asymptotique. Le niveau de signification basé sur la distribution asymptotique d’une statistique de test. Généralement, une valeur inférieure à 0,05 est considérée comme significative. La signification asymptotique repose sur l’hypothèse que l’ensemble de données est volumineux. Si l’ensemble de données est petit ou mal distribué, cela peut ne pas être une bonne indication de son importance.
  • Estimation Monte-Carlo. Une estimation impartiale du niveau de signification exact, calculée par échantillonnage répété à partir d'un ensemble de référence de tableaux ayant les mêmes dimensions et marges de lignes et de colonnes que le tableau observé. La méthode Monte Carlo vous permet d'estimer la signification exacte sans vous fier aux hypothèses requises pour la méthode asymptotique. Cette méthode est particulièrement utile lorsque l’ensemble de données est trop volumineux pour calculer la signification exacte, mais que les données ne répondent pas aux hypothèses de la méthode asymptotique.
  • Exact. La probabilité du résultat observé ou d’un résultat plus extrême est calculée avec précision. En règle générale, un niveau de signification inférieur à 0,05 est considéré comme significatif, ce qui indique qu'il existe une certaine relation entre les variables de ligne et de colonne.