Pamantayan sa pagpili ng asymptotic. Asymptotic notation para sa oras ng pagpapatupad ng mga programa. Mga pagtatantya mula sa ibaba, mula sa itaas, asymptotically exact. Ang tuntunin ng kabuuan at ang tuntunin ng produkto. Inirerekomendang listahan ng mga disertasyon

Kahulugan. Ang direksyon na tinukoy ng isang di-zero na vector ay tinatawag asymptotic na direksyon kaugnay sa pangalawang linya ng pagkakasunud-sunod, kung anuman ang linya ng direksyong ito (iyon ay, parallel sa vector ) alinman ay may hindi hihigit sa isang karaniwang punto sa linya, o nasa linyang ito.

? Gaano karaming mga karaniwang punto ang maaaring magkaroon ng isang linya ng pangalawang pagkakasunud-sunod at isang tuwid na linya ng asymptotic na direksyon na may kaugnayan sa linyang ito?

Sa pangkalahatang teorya ng second-order lines, napatunayan na kung

Pagkatapos ay ang non-zero vector ( ay tumutukoy sa asymptotic na direksyon na may paggalang sa linya

(pangkalahatang criterion para sa asymptotic na direksyon).

Para sa mga linya ng pangalawang order

kung , kung gayon ay walang mga direksyong asymptotic,

kung pagkatapos ay mayroong dalawang asymptotic na direksyon,

kung pagkatapos ay mayroon lamang isang asymptotic na direksyon.

Ang sumusunod na lemma ay naging kapaki-pakinabang ( criterion para sa asymptotic na direksyon ng isang linya ng parabolic type).

Lemma . Hayaan ay isang linya ng parabolic type.

Ang isang non-zero vector ay may asymptotic na direksyon

medyo . (5)

(Problema. Patunayan ang lemma.)

Kahulugan. Ang tuwid na linya ng asymptotic na direksyon ay tinatawag asymptote mga linya ng pangalawang pagkakasunud-sunod, kung ang linyang ito ay alinman sa hindi sumasalubong o nakapaloob dito.

Teorama . Kung may asymptotic na direksyon na may kinalaman sa , kung gayon ang asymptote parallel sa vector ay tinutukoy ng equation

Pinuno namin ang mesa.

MGA GAWAIN.

1. Hanapin ang mga asymptotic na vector ng direksyon para sa mga sumusunod na linya ng pangalawang order:

4 - hyperbolic type, dalawang asymptotic na direksyon.

Gamitin natin ang asymptotic direction criterion:

May asymptotic na direksyon na may paggalang sa ibinigay na linya 4 .

Kung =0, kung gayon =0, iyon ay, zero. Pagkatapos Divide by Nakukuha namin ang isang quadratic equation: , kung saan t = . Niresolba namin ang quadratic equation na ito at nakahanap ng dalawang solusyon: t = 4 at t = 1. Pagkatapos ay ang asymptotic na direksyon ng linya .

(Dalawang paraan ang maaaring isaalang-alang, dahil ang linya ay parabolic type.)

2. Alamin kung ang mga coordinate axes ay may mga asymptotic na direksyon na nauugnay sa mga linya ng pangalawang order:

3. Isulat ang pangkalahatang equation ng pangalawang linya ng pagkakasunod-sunod kung saan

a) ang abscissa axis ay may asymptotic na direksyon;

b) Ang parehong coordinate axes ay may asymptotic na direksyon;

c) ang mga coordinate axes ay may mga asymptotic na direksyon at O ​​ang sentro ng linya.

4. Isulat ang asymptote equation para sa mga linya:

a) ng w:val="EN-US"/>y=0"> ;

5. Patunayan na kung ang isang pangalawang-order na linya ay may dalawang hindi magkatulad na asymptotes, ang kanilang intersection point ay ang sentro ng linyang ito.

Tandaan: Dahil mayroong dalawang hindi magkatulad na asymptotes, mayroong dalawang asymptotic na direksyon, pagkatapos , at, samakatuwid, ang linya ay nasa gitna.

Isulat ang mga asymptote equation sa pangkalahatang anyo at ang sistema para sa paghahanap ng sentro. Lahat ay halata.

6.(#920) Isulat ang equation ng hyperbola na dumadaan sa point A(0, -5) at pagkakaroon ng asymptotes x - 1 = 0 at 2x - y + 1 = 0.

indikasyon. Gamitin ang pahayag ng nakaraang suliranin.

Takdang aralin. , No. 915 (c, e, e), No. 916 (c, d, e), No. 920 (kung wala kang oras);

Mga kuna;

Silaev, Timoshenko. Mga praktikal na gawain sa geometry,

1 semestre P.67, tanong 1-8, p.70, tanong 1-3 (oral).

SECOND-ORDER LINE DIAMETERS.

MATED DIAMETERS.

Isang affine coordinate system ang ibinibigay.

Kahulugan. diameter linya ng pangalawang pagkakasunud-sunod, conjugate sa isang vector ng non-asymptotic direksyon na may paggalang sa , ay ang hanay ng mga midpoints ng lahat ng chords ng linya parallel sa vector .

Sa lecture, napatunayan na ang diameter ay isang tuwid na linya at nakuha ang equation nito

Mga rekomendasyon: Ipakita (sa isang ellipse) kung paano ito itinayo (magtakda ng isang di-asymptotic na direksyon; gumuhit ng [dalawang] tuwid na linya ng direksyon na ito na nagsasalubong sa linya; hanapin ang mga midpoint ng cut off chords; gumuhit ng isang tuwid na linya sa pamamagitan ng mga midpoint - ito ay ang diameter).

Talakayin:

1. Bakit kinuha ang isang vector ng di-asymptotic na direksyon sa kahulugan ng diameter. Kung hindi sila makasagot, hilingin sa kanila na bumuo ng diameter, halimbawa, para sa isang parabola.

2. Ang alinmang linya ng pangalawang pagkakasunud-sunod ay may hindi bababa sa isang diameter? Bakit?

3. Sa lecture ay napatunayan na ang diameter ay isang tuwid na linya. Sa gitna ng aling chord ang point M sa figure?


4. Tingnan ang mga bracket sa equation (7). Ano ang ipinaaalala nila?

Konklusyon: 1) ang bawat sentro ay kabilang sa bawat diameter;

2) kung mayroong isang tuwid na linya ng mga sentro, pagkatapos ay mayroong isang solong diameter.

5. Ano ang direksyon ng parabolic line diameters? (Asymptotic)

Patunay (marahil sa isang lecture).

Hayaang ang diameter d na ibinigay ng equation (7`) ay maging conjugate sa isang vector na hindi asymptotic na direksyon. Pagkatapos ang vector ng direksyon nito

(-(), ). Ipakita natin na ang vector na ito ay may asymptotic na direksyon. Gamitin natin ang criterion ng asymptotic direction vector para sa isang parabolic line (tingnan ang (5)). Pinapalitan namin at tinitiyak (huwag kalimutan na .

6. Ilang diameters mayroon ang isang parabola? Ang kanilang kamag-anak na posisyon? Gaano karaming mga diameter ang mayroon ang natitirang mga parabolic na linya? Bakit?

7. Paano bumuo ng kabuuang diameter ng ilang pares ng second-order lines (tingnan ang mga tanong 30, 31 sa ibaba).

8. Pinupuno namin ang talahanayan, siguraduhing gumawa ng mga guhit.

1. . Isulat ang equation para sa hanay ng mga midpoint ng lahat ng chord na kahanay sa vector

2. Sumulat ng equation para sa diameter d na dumadaan sa puntong K(1,-2) para sa linya.

Mga hakbang sa solusyon:

1st way.

1. Tukuyin ang uri (upang malaman kung paano kumikilos ang mga diameter ng linyang ito).

Sa kasong ito, ang linya ay nasa gitna, pagkatapos ang lahat ng mga diameter ay dumadaan sa gitnang C.

2. Binubuo namin ang equation ng isang tuwid na linya na dumadaan sa dalawang puntos na K at C. Ito ang nais na diameter.

2nd way.

1. Isinulat namin ang equation para sa diameter d sa anyo (7`).

2. Ang pagpapalit ng mga coordinate ng point K sa equation na ito, makikita natin ang relasyon sa pagitan ng mga coordinate ng vector conjugate sa diameter d.

3. Itinakda namin ang vector na ito, na isinasaalang-alang ang nahanap na pagtitiwala, at binubuo ang equation para sa diameter d.

Sa problemang ito, mas madaling kalkulahin sa pangalawang paraan.

3. . Isulat ang equation para sa diameter parallel sa x-axis.

4. Hanapin ang gitna ng chord na pinutol ng linya

sa linyang x + 3y – 12 =0.

Mungkahi para sa isang desisyon: Siyempre, mahahanap mo ang mga punto ng intersection ng ibinigay na linya at linya , at pagkatapos - sa gitna ng nagresultang segment. Ang pagnanais na gawin ito ay nawawala kung kukuha tayo, halimbawa, ng isang tuwid na linya na may equation na x + 3y - 2009 = 0.

Mayroong isang sistema ng mga notasyon para sa paglalarawan ng mga pagtatantya na walang sintomas:

§ Sinasabi nila na f(n)= O(g(n)) kung mayroong isang pare-parehong c>0 at isang numerong n0 na ang kundisyong 0≤f(n)≤c*g(n) ay nasiyahan para sa lahat ng n≥n0. Mas pormal:

(()) { () | 0, } 0 0 O g n= f n$c> $n"n> n£ f n£ cg n

O Ang (g(n)) ay ginagamit upang ipahiwatig ang mga function na hindi hihigit sa isang pare-parehong bilang ng beses na mas malaki kaysa sa g(n), ang variant na ito ay ginagamit upang ilarawan ang mga upper bounds (sa kahulugan ng "hindi mas malala kaysa"). Pagdating sa isang partikular na algorithm para sa paglutas ng isang partikular na problema, ang layunin ng pagsusuri sa pagiging kumplikado ng oras ng algorithm na ito ay upang makakuha ng isang pagtatantya para sa pinakamasama o average na oras, karaniwang isang asymptotic na itaas na pagtatantya O(g(n)), at, kung maaari, isang asymptotic lower bound W(g(n)), at mas mabuti, isang asymptotically exact bound Q(g(n)).

Ngunit sa parehong oras, nananatili ang tanong - maaari bang magkaroon ng mas mahusay na mga algorithm ng solusyon para sa problemang ito? Ang tanong na ito ay nagdudulot ng problema sa paghahanap ng mas mababang pagtatantya ng pagiging kumplikado ng oras para sa problema mismo (para sa lahat ng posibleng mga algorithm para sa paglutas nito, at hindi para sa isa sa mga kilalang algorithm para sa paglutas nito). Ang problema sa pagkuha ng hindi mahalaga na mas mababang mga hangganan ay napakakumplikado. Sa ngayon, wala pang ganoong mga resulta, ngunit napatunayan na ang mga hindi maliit na mas mababang hangganan para sa ilang limitadong modelo ng mga calculator, at ang ilan sa mga ito ay may mahalagang papel sa praktikal na programming. Ang isa sa mga problema kung saan nalalaman ang mas mababang limitasyon sa pagiging kumplikado ng oras ay ang problema sa pag-uuri:

§ Dahil sa pagkakasunod-sunod ng n elemento a1,a2,... isang pinili mula sa isang set kung saan binibigyan ang isang linear na pagkakasunud-sunod.

§ Kinakailangang maghanap ng permutation p ng mga n elementong ito na nagmamapa sa ibinigay na sequence sa isang hindi bumababa na sequence ap(1),ap(2),... ap(n), i.e. ap(i)≤ap(i+1) para sa 1≤i paraan ng pagbabawas . Ipagpalagay na mayroon tayong dalawang problema A at B, na magkakaugnay upang ang problema A ay malutas tulad ng sumusunod:

1) Ang input data para sa gawain A ay na-convert sa kaukulang input

datos para sa gawain B.

2) Nalutas ang problema B.

3) Ang resulta ng solusyon ng problema B ay binago sa tamang solusyon ng problema A .__ Sa kasong ito, sinasabi natin na gawain A nabawasan sa problema B. Kung ang mga hakbang (1) at (3) ng impormasyon sa itaas ay maaaring makumpleto sa oras O(t(n)), kung saan, gaya ng dati, n – 25 ang “volume” ng problema A , pagkatapos ay sasabihin natin na A t (n)-nababawasan sa B, at isulat ito ng ganito: A μt (n) B. Sa pangkalahatan, ang reducibility ay hindi isang simetriko na ugnayan, sa partikular na kaso kapag ang A at B ay kapwa mababawasan, tatawagin natin silang katumbas. Ang sumusunod na dalawang maliwanag na pahayag ay nagpapakilala sa kapangyarihan ng paraan ng pagbabawas sa pagpapalagay na ang pagbabawas na ito ay nagpapanatili ng pagkakasunud-sunod ng "volume" ng problema.

"O" malaki At "o" maliit( at ) ay mga mathematical notation para sa paghahambing ng asymptotic na pag-uugali ng mga function. Ginagamit ang mga ito sa iba't ibang sangay ng matematika, ngunit pinaka-aktibo - sa pagsusuri sa matematika, teorya ng numero at kombinatorika, pati na rin sa agham ng computer at teorya ng mga algorithm.

, « O small of » ay nangangahulugang "walang hanggan maliit na may kinalaman sa » [ , bale-wala kapag isinasaalang-alang. Ang kahulugan ng terminong "Big O" ay nakasalalay sa larangan ng aplikasyon nito, ngunit palaging lumalaki nang hindi mas mabilis kaysa sa, " O malaki ng " (ibinigay ang mga eksaktong kahulugan sa ibaba).

Sa partikular:

Karugtong 7

ang pariralang "ang pagiging kumplikado ng algorithm ay" ay nangangahulugan na sa isang pagtaas sa parameter na nagpapakilala sa dami ng impormasyon ng input ng algorithm, ang oras ng pagtakbo ng algorithm ay hindi maaaring limitahan ng isang halaga na lumalaki nang mas mabagal kaysa sa n!;

ang pariralang "ang function ay" o "maliit ng function sa paligid ng punto" ay nangangahulugan na habang ang k ay nilapitan, ito ay bumababa nang mas mabilis kaysa sa (ang ratio ay may posibilidad na zero).

Panuntunan ng kabuuan: Hayaang hatiin ang isang may hangganan na hanay ng M sa dalawang hindi magkakasalubong na subset na M 1 at M 2 (sa unyon ng mga nagbibigay ng buong hanay ng M). Tapos yung cardinality |M| = |M 1 | + |M 2 |.

tuntunin ng produkto: Hayaan sa ilang set object a ay maaaring mapili sa n mga paraan, at pagkatapos nito (iyon ay, pagkatapos pumili ng object a) object b ay maaaring mapili sa m paraan. Pagkatapos ay mapipili ang object ab sa n*m na paraan.

Magkomento: Ang parehong mga panuntunan ay nagbibigay-daan sa inductive generalization. Kung ang isang finite set M ay tinatanggap ang partition sa r pairwise disjoint subsets M 1 , M 2 ,…,M r , kung gayon ang cardinality ng |M| = |M 1 |+|M 2 |+…+|M r |. Kung ang object A 1 ay maaaring piliin sa k 1 na mga paraan, pagkatapos (pagkatapos ng object A 1 ay pinili) object A 2 ay maaaring mapili sa k 2 na paraan, at iba pa at sa wakas, object AR ay maaaring mapili sa kr na paraan, pagkatapos ay object A 1 A 2 ... At maaaring mapili ang r sa k 1 k 2 …k r na paraan.

Sa modernong mga kondisyon, ang interes sa pagsusuri ng data ay patuloy at masinsinang lumalaki sa ganap na magkakaibang mga lugar, tulad ng biology, linguistics, economics, at, siyempre, IT. Ang batayan ng pagsusuring ito ay mga istatistikal na pamamaraan, at ang bawat may paggalang sa sarili na espesyalista sa pagmimina ng data ay kailangang maunawaan ang mga ito.

Sa kasamaang-palad, ang talagang mahusay na literatura, upang makapagbigay ito ng parehong mathematically rigorous proofs at understandable intuitive explanations, ay hindi masyadong karaniwan. At ang mga lektura na ito, sa aking palagay, ay hindi pangkaraniwang mabuti para sa mga mathematician na nakakaintindi ng probability theory para sa kadahilanang ito. Itinuro sila sa mga masters sa German Christian-Albrecht University sa mga programang "Mathematics" at "Financial Mathematics". At para sa mga interesado kung paano itinuturo ang paksang ito sa ibang bansa, isinalin ko ang mga lekturang ito. Kinailangan ako ng ilang buwan upang magsalin, pinalabnaw ko ang mga lektura gamit ang mga ilustrasyon, pagsasanay at talababa sa ilang mga theorems. Pansinin ko na hindi ako isang propesyonal na tagasalin, ngunit isang altruista at baguhan lamang sa larangang ito, kaya't tatanggapin ko ang anumang pagpuna kung ito ay nakabubuo.

Sa madaling salita, ang mga lektura ay tungkol sa:


May kondisyong inaasahan

Ang kabanatang ito ay hindi direktang tumatalakay sa mga istatistika, gayunpaman, ito ay isang mainam na panimulang punto para sa pag-aaral nito. Ang kondisyong inaasahan ay ang pinakamahusay na pagpipilian para sa paghula ng isang random na resulta batay sa impormasyong mayroon ka na. At ito ay random din. Dito, isinasaalang-alang ang iba't ibang katangian nito, tulad ng linearity, monotonicity, monotonikong convergence, at iba pa.

Mga Pangunahing Kaalaman sa Pagtataya ng Punto

Paano suriin ang parameter ng pamamahagi? Ano ang pamantayan para dito? Anong mga pamamaraan ang dapat gamitin para dito? Ang kabanatang ito ay nagpapahintulot sa iyo na sagutin ang lahat ng mga tanong na ito. Dito ipinakilala ang mga konsepto ng walang pinapanigan na estimator at pantay na walang pinapanigan na may pinakamababang pagkakaiba. Ipinapaliwanag kung saan nagmula ang chi-squared distribution at ang distribution ng Student at kung bakit mahalaga ang mga ito sa pagtantya ng mga parameter ng isang normal na distribution. Sinasabi kung ano ang hindi pagkakapantay-pantay ni Rao-Kramer at ang impormasyon ni Fisher. Ang konsepto ng isang exponential na pamilya ay ipinakilala din, na ginagawang maraming beses na mas madaling makakuha ng isang mahusay na pagtatantya.

Bayesian at Minimax Parameter Estimation

Ang ibang pilosopikal na diskarte sa pagsusuri ay inilarawan dito. Sa kasong ito, ang parameter ay itinuturing na hindi alam dahil ito ay isang pagsasakatuparan ng ilang random na variable na may kilalang (a priori) na distribusyon. Ang pagmamasid sa resulta ng eksperimento, kinakalkula namin ang tinatawag na posterior distribution ng parameter. Batay dito, makakakuha tayo ng isang pagtatantya ng Bayesian, kung saan ang pamantayan ay ang pinakamababang pagkawala sa karaniwan, o isang pagtatantya ng minimax, na nagpapaliit sa pinakamataas na posibleng pagkawala.

Sapat at pagkakumpleto

Ang kabanatang ito ay may seryosong praktikal na kahalagahan. Ang isang sapat na istatistika ay isang function ng sample, kung kaya't sapat na upang iimbak lamang ang resulta ng function na ito upang matantya ang parameter. Mayroong maraming mga naturang pag-andar, at kabilang sa mga ito ay ang tinatawag na minimal na sapat na istatistika. Halimbawa, upang matantya ang median ng isang normal na distribusyon, sapat na upang mag-imbak lamang ng isang numero - ang arithmetic mean sa buong sample. Gumagana rin ba ito para sa iba pang mga pamamahagi, tulad ng pamamahagi ng Cauchy? Paano nakakatulong ang sapat na istatistika sa pagpili ng mga pagtatantya? Dito mahahanap mo ang mga sagot sa mga tanong na ito.

Asymptotic na katangian ng mga pagtatantya

Marahil ang pinakamahalaga at kinakailangang pag-aari ng isang pagtatantya ay ang pagkakapare-pareho nito, iyon ay, ang pagkahilig sa totoong parameter na may pagtaas sa laki ng sample. Inilalarawan ng kabanatang ito ang mga katangian ng mga pagtatantya na alam sa amin, na nakuha ng mga istatistikal na pamamaraan na inilarawan sa mga nakaraang kabanata. Ang mga konsepto ng asymptotic unbiasedness, asymptotic na kahusayan, at distansya ng Kullback-Leibler ay ipinakilala.

Mga Pangunahing Kaalaman sa Pagsubok

Bilang karagdagan sa tanong kung paano suriin ang isang parameter na hindi alam sa amin, dapat nating suriin kung natutugunan nito ang mga kinakailangang katangian. Halimbawa, ang isang eksperimento ay isinasagawa kung saan ang isang bagong gamot ay sinusuri. Paano mo malalaman kung mas malamang na gumaling ka dito kaysa sa mas lumang mga gamot? Ipinapaliwanag ng kabanatang ito kung paano binuo ang mga naturang pagsubok. Malalaman mo kung ano ang pantay-pantay na pinakamakapangyarihang pagsubok, ang Neyman-Pearson test, antas ng kahalagahan, agwat ng kumpiyansa, at kung saan nagmula ang kilalang-kilalang Gaussian test at t-test.

Asymptotic na katangian ng pamantayan

Tulad ng mga pagtatantya, dapat matugunan ng pamantayan ang ilang partikular na asymptotic na katangian. Minsan maaaring lumitaw ang mga sitwasyon kung imposibleng buuin ang kinakailangang pamantayan, gayunpaman, gamit ang kilalang central limit theorem, bumuo kami ng criterion na asymptotically ay may posibilidad na kinakailangan. Dito ay malalaman mo kung ano ang antas ng asymptotic significance, ang paraan ng ratio ng posibilidad, at kung paano binuo ang pagsubok ng Bartlett at ang pagsubok sa kalayaan ng chi-square.

Linear na modelo

Ang kabanatang ito ay maaaring ituring bilang karagdagan, ibig sabihin, ang aplikasyon ng mga istatistika sa kaso ng linear regression. Mauunawaan mo kung anong mga grado ang maganda at sa ilalim ng anong mga kondisyon. Matututuhan mo kung saan nanggaling ang paraan ng least squares, kung paano bumuo ng pamantayan at kung bakit kailangan mo ng F-distribution.

Tulad ng nabanggit sa nakaraang seksyon, ang pag-aaral ng mga klasikal na algorithm sa maraming mga kaso ay maaaring isagawa gamit ang mga asymptotic na pamamaraan ng mga istatistika ng matematika, sa partikular, gamit ang CLT at convergence inheritance method. Ang paghihiwalay ng mga klasikal na istatistika ng matematika mula sa mga pangangailangan ng inilapat na pananaliksik ay nagpakita mismo, sa partikular, sa katotohanan na ang mga sikat na monograp ay kulang sa mathematical apparatus na kinakailangan, lalo na, para sa pag-aaral ng dalawang-sample na istatistika. Ang ilalim na linya ay kailangan mong pumunta sa limitasyon hindi sa pamamagitan ng isang parameter, ngunit sa pamamagitan ng dalawa - ang mga volume ng dalawang sample. Kinailangan kong bumuo ng isang naaangkop na teorya - ang teorya ng mana ng tagpo, na itinakda sa aming monograph.

Gayunpaman, ang mga resulta ng naturang pag-aaral ay kailangang ilapat sa may hangganang laki ng sample. Mayroong isang buong grupo ng mga problema na nauugnay sa naturang paglipat. Ang ilan sa mga ito ay tinalakay na may kaugnayan sa pag-aaral ng mga katangian ng mga istatistika na binuo mula sa mga sample mula sa mga tiyak na distribusyon.

Gayunpaman, kapag tinatalakay ang impluwensya ng mga paglihis mula sa mga paunang pagpapalagay sa mga katangian ng mga istatistikal na pamamaraan, ang mga karagdagang problema ay lumitaw. Anong mga paglihis ang itinuturing na tipikal? Dapat bang tumuon ang isang tao sa pinaka "nakakapinsalang" mga paglihis na sumisira sa mga katangian ng mga algorithm sa pinakamalawak na lawak, o dapat bang tumuon ang isa sa "karaniwang" mga paglihis?

Sa unang diskarte, nakakakuha kami ng garantisadong resulta, ngunit ang "presyo" ng resultang ito ay maaaring hindi kinakailangang mataas. Bilang halimbawa, itinuturo namin ang unibersal na hindi pagkakapantay-pantay ng Berry-Esseen para sa error sa CLT. Tamang-tama na binibigyang-diin ang A.A. Borovkov na "ang rate ng convergence sa mga totoong problema, bilang panuntunan, ay lumalabas na mas mahusay."

Sa pangalawang diskarte, ang tanong ay lumitaw kung aling mga paglihis ang itinuturing na "karaniwan". Maaari mong subukang sagutin ang tanong na ito sa pamamagitan ng pagsusuri sa malalaking hanay ng totoong data. Ito ay medyo natural na ang mga sagot ng iba't ibang mga grupo ng pananaliksik ay magkakaiba, tulad ng makikita, halimbawa, mula sa mga resulta na ipinakita sa artikulo.

Ang isa sa mga maling ideya ay ang paggamit sa pagsusuri ng mga posibleng paglihis lamang ng anumang partikular na pamilyang parametric - ang mga pamamahagi ng Weibull-Gnedenko, ang tatlong-parameter na pamilya ng mga pamamahagi ng gamma, atbp. Noong 1927, acad. USSR Academy of Sciences S.N. Tinalakay ni Bernstein ang metodolohikal na pagkakamali ng pagbabawas ng lahat ng empirikal na distribusyon sa isang apat na parameter na pamilyang Pearson. Gayunpaman, ang mga parametric na pamamaraan ng mga istatistika ay napakapopular pa rin, lalo na sa mga inilapat na siyentipiko, at ang kasalanan para sa maling kuru-kuro na ito ay pangunahing nakasalalay sa mga guro ng mga pamamaraan ng istatistika (tingnan sa ibaba, pati na rin ang artikulo).

15. Pagpili ng isa sa maraming pamantayan upang subukan ang isang partikular na hypothesis

Sa maraming mga kaso, maraming mga pamamaraan ang binuo upang malutas ang isang partikular na praktikal na problema, at ang isang espesyalista sa mga pamamaraan ng pananaliksik sa matematika ay nahaharap sa problema: alin ang dapat ihandog sa isang inilapat na tao para sa pagsusuri ng partikular na data?

Bilang halimbawa, isaalang-alang ang problema ng pagsuri sa homogeneity ng dalawang independiyenteng sample. Tulad ng alam mo, para sa solusyon nito, maaari kang mag-alok ng maraming pamantayan: Mag-aaral, Cramer-Welch, Lord, chi-square, Wilcoxon (Mann-Whitney), Van - der - Waerden, Savage, N.V. Smirnov, tulad ng omega- square (Lehmann -Rosenblatt), G.V. Martynova at iba pa. Alin ang pipiliin?

Ang ideya ng "pagboto" ay natural na pumapasok sa isip: upang subukan sa pamamagitan ng maraming pamantayan, at pagkatapos ay magpasya "sa pamamagitan ng karamihan ng mga boto". Mula sa pananaw ng teorya ng istatistika, ang gayong pamamaraan ay humahantong lamang sa pagbuo ng isa pang pamantayan, na isang priori na hindi mas mahusay kaysa sa mga nauna, ngunit mas mahirap pag-aralan. Sa kabilang banda, kung ang mga solusyon ay pareho para sa lahat ng itinuturing na istatistikal na pamantayan batay sa iba't ibang mga prinsipyo, kung gayon, alinsunod sa konsepto ng katatagan, pinatataas nito ang kumpiyansa sa kabuuang solusyon na nakuha.

Mayroong isang laganap, lalo na sa mga mathematician, mali at nakakapinsalang opinyon tungkol sa pangangailangan na maghanap ng mga pinakamainam na pamamaraan, solusyon, atbp. Ang katotohanan ay ang pinakamainam ay karaniwang nawawala kapag mayroong isang paglihis mula sa mga paunang pagpapalagay. Kaya, ang arithmetic mean bilang isang pagtatantya ng mathematical na inaasahan ay pinakamainam lamang kapag ang orihinal na distribusyon ay normal, habang ang isang pare-parehong pagtatantya ay palaging, kung umiiral lamang ang matematikal na inaasahan. Sa kabilang banda, para sa anumang di-makatwirang paraan ng pagtatantya o pagsubok ng mga hypotheses, kadalasang mabubuo ng isa ang konsepto ng optimality sa paraan na ang pamamaraang isinasaalang-alang ay nagiging pinakamainam - mula sa espesyal na piniling punto ng view. Kunin, halimbawa, ang sample na median bilang isang pagtatantya ng inaasahan sa matematika. Ito ay, siyempre, pinakamainam, bagaman sa ibang kahulugan kaysa sa arithmetic mean (pinakamainam para sa isang normal na pamamahagi). Ibig sabihin, para sa pamamahagi ng Laplace, ang sample na median ay ang maximum na pagtatantya ng posibilidad, at samakatuwid ay pinakamainam (sa kahulugang tinukoy sa monograph).

Ang pamantayan ng homogeneity ay nasuri sa isang monograp. Mayroong ilang mga natural na diskarte sa paghahambing ng pamantayan - batay sa asymptotic relative efficiency ayon kay Bahadur, Hodges-Lehman, Pitman. At lumabas na ang bawat criterion ay pinakamainam sa kaukulang alternatibo o angkop na pamamahagi sa hanay ng mga alternatibo. Kasabay nito, karaniwang ginagamit ng mga kalkulasyon sa matematika ang alternatibong shift, na medyo bihira sa pagsasagawa ng pagsusuri ng totoong istatistikal na data (kaugnay ng pamantayan ng Wilcoxon, ang alternatibong ito ay tinalakay at pinuna namin sa ). Ang resulta ay malungkot - ang napakatalino na pamamaraan ng matematika na ipinakita sa , ay hindi nagpapahintulot sa amin na magbigay ng mga rekomendasyon para sa pagpili ng isang pagsubok para sa homogeneity kapag sinusuri ang totoong data. Sa madaling salita, mula sa punto ng view ng manggagawa ng aplikasyon, i.e. pagsusuri ng mga tiyak na data, ang monograp ay walang silbi. Ang napakatalino na kasanayan sa matematika at mahusay na kasipagan na ipinakita ng may-akda ng monograp na ito, sayang, ay walang dinala sa pagsasanay.

Siyempre, ang bawat praktikal na nagtatrabaho na istatistika sa isang paraan o iba pa ay malulutas para sa kanyang sarili ang problema sa pagpili ng isang istatistikal na pamantayan. Batay sa ilang metodolohikal na pagsasaalang-alang, pinili namin ang omega-square type criterion (Lehmann-Rosenblatt) na pare-pareho laban sa anumang alternatibo. Gayunpaman, mayroong isang pakiramdam ng kawalang-kasiyahan dahil sa hindi sapat na bisa ng pagpipiliang ito.

Ang Exact Tests ay nagbibigay ng dalawang karagdagang pamamaraan para sa pagkalkula ng mga antas ng kahalagahan para sa mga istatistikang magagamit sa pamamagitan ng mga pamamaraan ng Crosstabs at Nonparametric Tests. Ang mga pamamaraang ito, ang eksaktong at mga pamamaraan ng Monte Carlo, ay nagbibigay ng paraan para sa pagkuha ng mga tumpak na resulta kapag nabigo ang iyong data na matugunan ang alinman sa mga pinagbabatayan na pagpapalagay na kinakailangan para sa maaasahang mga resulta gamit ang karaniwang asymptotic na pamamaraan. Available lang kung binili mo ang Exact Tests Options.

halimbawa. Ang mga asymptotic na resulta na nakuha mula sa maliliit na dataset o kalat-kalat o hindi balanseng mga talahanayan ay maaaring mapanlinlang. Nagbibigay-daan sa iyo ang mga eksaktong pagsubok na makakuha ng tumpak na antas ng kahalagahan nang hindi umaasa sa mga pagpapalagay na maaaring hindi matugunan ng iyong data. Halimbawa, ang mga resulta ng pagsusulit sa pasukan para sa 20 bumbero sa isang maliit na bayan ay nagpapakita na ang lahat ng limang puting aplikante ay nakatanggap ng resulta ng pass, samantalang ang mga resulta para sa mga aplikanteng Black, Asian at Hispanic ay magkakahalo. Ang isang Pearson chi-square na sumusubok sa null hypothesis na ang mga resulta ay independiyente sa lahi ay gumagawa ng asymptotic significance level na 0.07. Ang resultang ito ay humahantong sa konklusyon na ang mga resulta ng pagsusulit ay independiyente sa lahi ng examinee. Gayunpaman, dahil naglalaman lang ang data ng 20 kaso at ang mga cell ay may inaasahang frequency na mas mababa sa 5, hindi mapagkakatiwalaan ang resultang ito. Ang eksaktong kahalagahan ng Pearson chi-square ay 0.04, na humahantong sa kabaligtaran na konklusyon. Batay sa eksaktong kahalagahan, mahihinuha mong magkakaugnay ang mga resulta ng pagsusulit at lahi ng nagsusuri. Ito ay nagpapakita ng kahalagahan ng pagkuha ng eksaktong mga resulta kapag ang mga pagpapalagay ng asymptotic na pamamaraan ay hindi matugunan. Ang eksaktong kahalagahan ay palaging maaasahan, anuman ang laki, distribusyon, kalat, o balanse ng data.

mga istatistika. asymptomatic na kahalagahan. Monte Carlo approximation na may antas ng kumpiyansa, o eksaktong kahalagahan.

  • asymptotic. Ang antas ng kabuluhan batay sa asymptotic distribution ng isang test statistic. Karaniwan, ang isang halaga na mas mababa sa 0.05 ay itinuturing na makabuluhan. Ang asymptotic significance ay batay sa pag-aakalang malaki ang set ng data. Kung ang set ng data ay maliit o hindi maganda ang pagkakabahagi, maaaring hindi ito magandang indikasyon ng kahalagahan.
  • Monte Carlo Estimate. Isang walang pinapanigan na pagtatantya ng eksaktong antas ng kahalagahan, na kinakalkula sa pamamagitan ng paulit-ulit na pagsa-sample mula sa isang reference na hanay ng mga talahanayan na may parehong mga dimensyon at mga margin ng row at column gaya ng naobserbahang talahanayan. Ang paraan ng Monte Carlo ay nagbibigay-daan sa iyo upang tantyahin ang eksaktong kahalagahan nang hindi umaasa sa mga pagpapalagay na kinakailangan para sa asymptotic na pamamaraan. Ang pamamaraang ito ay pinaka-kapaki-pakinabang kapag ang set ng data ay masyadong malaki upang makalkula ang eksaktong kahalagahan, ngunit ang data ay hindi nakakatugon sa mga pagpapalagay ng asymptotic na pamamaraan.
  • Eksakto. Eksaktong kinakalkula ang probabilidad ng naobserbahang kinalabasan o isang resultang mas matinding. Karaniwan, ang antas ng kabuluhan na mas mababa sa 0.05 ay itinuturing na makabuluhan, na nagpapahiwatig na mayroong ilang ugnayan sa pagitan ng mga variable ng row at column.