Články

5.2: Používanie centrálnej limitnej vety - matematika


Je dôležité, aby ste pochopili, kedy použiť centrálnu limitnú vetu (clt). Ak sa od vás žiada, aby ste zistili pravdepodobnosť priemeru, použite priemer pre priemer. Ak sa od vás žiada, aby ste zistili pravdepodobnosť súčtu alebo súčtu, použite pre súčty príkazový riadok. To platí aj pre percentily prostriedkov a súm.

Ak sa od vás žiada, aby ste zistili pravdepodobnosť individuálnej hodnoty, nepoužívajte clt. Použite rozdelenie jeho náhodnej premennej.

Zákon veľkých čísel

Zákon veľkých čísel hovorí, že ak odoberáte vzorky väčšej a väčšej veľkosti z ľubovoľnej populácie, potom priemer ( bar {x} ) vzorky má tendenciu sa čoraz viac približovať ( mu ). Z centrálnej limitnej vety vieme, že keď sa (n ) zväčšuje a zväčšuje, vzorové prostriedky sa riadia normálnym rozdelením. Čím väčšie (n ) bude, tým menšia bude smerodajná odchýlka. (Pamätajte, že štandardná odchýlka pre ( bar {X} ) je ( dfrac { sigma} { sqrt {n}} ).) To znamená, že vzorka znamená ( bar {x} ) musí byť blízko k priemernému počtu obyvateľov ( mu ). Môžeme povedať, že ( mu ) je hodnota, ktorú vzorka znamená priblížiť, keď sa (n ) zväčšuje. Centrálna limitná veta ilustruje zákon veľkých čísel.

Príklad ( PageIndex {1} )

Štúdia zahŕňajúca stres sa uskutočňuje medzi študentmi na univerzitnom kampuse. Stresové skóre sleduje rovnomerné rozdelenie s najnižším stresovým skóre rovným jednej a najvyšším rovným päť. Na vzorke 75 študentov nájdite:

  1. Pravdepodobnosť, že stredné skóre stresu pre 75 študentov je menej ako dvaja.
  2. 90. rokyth percentil pre stredné skóre stresu pre 75 študentov.
  3. Pravdepodobnosť, že celkovo 75 stresových skóre je menej ako 200.
  4. 90. rokyth percentil pre skóre celkového stresu pre 75 študentov.

Riešenia

Nech (X = ) jedno stresové skóre.

Problémy a a b vás žiadajú, aby ste priemerne našli pravdepodobnosť alebo percentil. Problémy ca ad požadujú, aby ste našli pravdepodobnosť alebo percentil pre a súčet alebo súčet. Veľkosť vzorky (n ) sa rovná 75.

Pretože jednotlivé stresové skóre sledujú rovnomerné rozdelenie, (X sim U (1, 5) ) kde (a = 1 ) a (b = 5 ).

[ mu_ {x} = dfrac {a + b} {2} = dfrac {1 + 5} {2} = 3 ]

[ sigma_ {x} = sqrt { dfrac {(ba) ^ {2}} {12}} = sqrt { dfrac {(5-1) ^ {2}} {12}} = 1,15 ]

Pri problémoch 1. a 2. nechajte ( bar {X} = ) stredné skóre stresu pre 75 študentov. Potom,

[ bar {X} sim N vľavo (3, dfrac {1,15} { sqrt {75}} vpravo) ]

kde (n = 75 ).

  1. Nájdite (P ( bar {x} <2) ). Nakreslite graf.
  2. Nájdite 90th percentil pre priemer 75 skóre stresu. Nakreslite graf.
  3. Nájdite (P ( súčet x <2000) ). Nakreslite graf.
  4. Nájdite 90th percentil pre celkových 75 stresových skóre. Nakreslite graf.

Odpovede

a. (P ( bar {x} <2) = 0 )

Pravdepodobnosť, že stredné skóre stresu je menšie ako dve, je asi nulová.

Obrázok 7.4.1.

normalcdf ( doľava (1,2,3, dfrac {1,15} { sqrt {75}} doprava) = 0 )

Najmenšie skóre stresu je jedno

b. Nech (k = ) je 90th percentil.

Nájdite (k ), kde (P ( bar {x}

(k = 3,2 )

Obrázok 7.4.2.

90. rokyth percentil pre priemer 75 skóre je asi 3,2. To nám hovorí, že 90% všetkých priemerných hodnôt 75 stresových skóre je najviac 3,2 a že 10% je najmenej 3,2.

invNorm ( doľava (0,90,3,1. dfrac {1,15} { sqrt {75}} doprava) = 3,2 )

Pri problémoch c a d nech ( súčet X = ) predstavuje súčet 75 stresových skóre. Potom,

[ sum X sim N [(75) (3) ), ( sqrt {75}) (1,15) ]

c. Priemer súčtu 75 stresových skóre je ((75) (3) = 225 )

Štandardná odchýlka súčtu 75 stresových skóre je (( sqrt {75}) (1,15) = 9,96 )

(P ( súčet x <200) )

Obrázok 7.4.3.

Pravdepodobnosť, že celkovo je 75 bodov menej ako 200, je približne nulová.

normalcdf (75 200, (75) (3), ( sqrt {75}) (1,15) ).

Najmenšie celkové skóre 75 stresu je 75, pretože najmenšie jednotlivé skóre je jedno.

d. Nech (k = ) je 90th percentil.

Nájdite (k ) kde (P ( súčet x

(k = 237,8 )

Obrázok 7.4.4.

90. rokyth percentil pre súčet 75 skóre je asi 237,8. To nám hovorí, že 90% všetkých súčtov skóre 75 nie je viac ako 237,8 a 10% nie je menej ako 237,8.

invNorm ( doľava (0,90, (75) (3), ( sqrt {75}) (1,15) doprava) = 237,8 )

Cvičenie ( PageIndex {1} )

Použite informácie v príklade ( PageIndex {1} ), ale na zodpovedanie nasledujúcich otázok použite veľkosť vzorky 55.

  1. Nájdite (P ( bar {x} <7) ).
  2. Nájdite (P ( súčet x <7) ).
  3. Nájdite 80th percentil pre priemer 55 skóre.
  4. Nájdite 85th percentil pre súčet 55 skóre.

Odpoveď

  1. 0.0265
  2. 0.2789
  3. 3.13
  4. 173.84

Príklad ( PageIndex {2} )

Predpokladajme, že analytik prieskumu trhu pre spoločnosť zaoberajúcu sa mobilnými telefónmi vykoná štúdiu o svojich zákazníkoch, ktorí prekročili časovú lehotu uvedenú v ich základnej zmluve o mobilnom telefóne; analytik zistí, že pre tých ľudí, ktorí presiahnu čas zahrnutý v ich základnej zmluve, použitý nadbytočný čas sleduje exponenciálne rozdelenie s priemerom 22 minút.

Zvážte náhodnú vzorku 80 zákazníkov, ktorí prekročili časovú dotáciu uvedenú v ich základnej zmluve o mobilnom telefóne.

Nech (X = ) je nadbytočný čas používaný jedným JEDNOTLIVÝM zákazníkom mobilného telefónu, ktorý prekročí svoju zmluvnú časovú dotáciu.

(X sim Exp doľava ( dfrac {1} {22} doprava) ). Z predchádzajúcich kapitol vieme, že ( mu = 22 ) a ( sigma = 22 ).

Nech ( bar {X} ) = priemerný nadbytočný čas používaný vzorkou (n = 80 ) zákazníkov, ktorí prekročia zmluvnú časovú dotáciu.

[ bar {X} sim N vľavo (22, dfrac {22} { sqrt {80}} vpravo) ]

centrálnou medznou vetou pre vzorové prostriedky

  1. Zistite pravdepodobnosť, že priemerný nadbytočný čas použitý 80 zákazníkmi vo vzorke je dlhší ako 20 minút. Toto nás žiada, aby sme našli (P ( bar {x}> 20) ). Nakreslite graf.
  2. Predpokladajme, že je náhodne vybraný jeden zákazník, ktorý prekročí časový limit svojej zmluvy o mobilnom telefóne. Nájdite pravdepodobnosť, že nadbytočný čas tohto individuálneho zákazníka je dlhší ako 20 minút. Toto nás žiada, aby sme našli (P (x> 20) ).
  3. Vysvetlite, prečo sú pravdepodobnosti v častiach a a b odlišné.
  4. Nájdite 95th percentil pre vzorka znamená nadbytočný čas pre vzorky 80 zákazníkov, ktorí prekročili svoje základné zmluvné časové úľavy. Nakreslite graf.

Odpoveď

  1. Nájsť: (P ( bar {x}> 20) )

    (P ( bar {x}> 20) = 0,79199 ) pomocounormalcdf ( doľava (20,1 text {E} 99,22, dfrac {22} { sqrt {80}} doprava) )

    Pravdepodobnosť je 0,7919, že priemerný použitý nadbytočný čas je viac ako 20 minút pre vzorku 80 zákazníkov, ktorí prekročili zmluvne dohodnutú časovú dotáciu.

    Obrázok 7.4.5.

    1E99 = 1099 a –1E99 = –1099. Stlačte tlačidloEEkľúč pre E. Alebo jednoducho použite 1099 namiesto 1E99.

  2. Nájdite (P (x> 20) ). Nezabudnite použiť exponenciálne rozdelenie pre jednotlivec: (X sim Exp doľava ( dfrac {1} {22} doprava)).

    (P (x> 20) = e ^ {(- doľava ( dfrac {1} {22} doprava) (20))} ) alebo (e ^ {(- 0,04545 (20))} = 0,4029 )
    1. (P (x> 20) = 0,4029 ) ale (P ( bar {x}> 20) = 0,7919 )
    2. Pravdepodobnosti nie sú rovnaké, pretože na výpočet pravdepodobnosti pre jednotlivcov a pre prostriedky používame rôzne rozdelenia.
    3. Keď ste požiadaní o zistenie pravdepodobnosti individuálnej hodnoty, použite uvedené rozdelenie jej náhodnej premennej; nepoužívaj klt. Použite príkazový riadok s normálnym rozdelením, keď sa od vás vyžaduje, aby ste zistili pravdepodobnosť strednej hodnoty.
  3. Nech (k ) = 95th percentil. Nájdite (k ) kde (P ( bar {x}

    (k = 26,0 ) pomocouinvNorm ( doľava (0,95,22, dfrac {22} { sqrt {80}} doprava) = 26,0 )

    Obrázok 7.4.6.

    95th percentil pre použitá priemerná vzorka nadbytočného času je asi 26,0 minút pre náhodné vzorky 80 zákazníkov, ktorí prekročia zmluvne povolený čas.

    Deväťdesiatpäť percent takýchto vzoriek by malo prostriedky do 26 minút; iba päť percent z týchto vzoriek by malo prostriedky nad 26 minút.

Cvičenie ( PageIndex {2} )

Použite informácie z príkladu ( PageIndex {2} ), veľkosť vzorky však zmeňte na 144.

  1. Nájdite (P (20 < bar {x} <30) ).
  2. Nájdite (P ( sum x text {je minimálne} 3 000) ).
  3. Nájdite 75th percentil pre vzorku znamená nadbytočný čas 144 zákazníkov.
  4. Nájdite 85th percentil pre sumu 144 nadmerných časov použitých zákazníkmi.

Odpoveď

  1. 0.8623
  2. 0.7377
  3. 23.2
  4. 3,441.6

Príklad ( PageIndex {3} )

Podľa mnohých štúdií je v Spojených štátoch v priemere niekto sexuálne napadnutý každé dve minúty. Predpokladajme, že štandardná odchýlka je 0,5 minúty a veľkosť vzorky je 100.

  1. Nájdite medián, prvý kvartil a tretí kvartil pre strednú dobu vzorky sexuálnych útokov v USA.
  2. Nájdite medián, prvý kvartil a tretí kvartil pre súčet časov vzorkovania sexuálnych útokov v Spojených štátoch.
  3. Nájdite pravdepodobnosť, že dôjde k sexuálnemu útoku, v priemere od 1,75 do 1,85 minúty.
  4. Nájdite hodnotu, ktorá je o dve štandardné odchýlky nad priemerom vzorky.
  5. Nájsť IQR pre súčet časov vzorkovania.

Odpoveď

  1. Máme ( mu_ {x} = mu = 2 ) a ( sigma_ {x} = dfrac { sigma} { sqrt {n}} = dfrac {0,5} {10} = 0,05 ). Preto:
    1. 50th percentil (= mu_ {x} = mu = 2 )
    2. 25th percentil (= text {invNorm} (0,25,2,0,05) = 1,97 )
    3. 75th percentil (= text {invNorm} (0,75,2,0,05) = 2,03 )
  2. Máme ( mu _ { sum X} = n ( mu_ {x}) = 100 (2) ) a ( sigma _ { mu X} = sqrt {n} ( sigma_ {x}) = 10 (0,5) = 5 ). Preto
    1. 50th percentil = ( mu _ { suma X} = n ( mu_ {X}) = 100 (2) = 200 )
    2. 25th percentil (= text {invNorm} (0,25 200,5) = 196,63 )
    3. 75th percentil (= text {invNorm} (0,75 200,5) = 203,37 )
  3. (P (1,75 normalcdf((1.75,1.85,2,0.05) = 0.0013)
  4. Pomocou rovnice (z ) - skóre, (z = dfrac { bar {x} - mu _ { bar {x}}} { sigma _ { bar {x}}} ) a riešenia pre (x ) máme (x = 2 (0,05) + 2 = 2,1 )
  5. (IQR ) je 75th percentil - 25th percentil (= 203,37 - 196,63 = 6,74 )

Cvičenie ( PageIndex {3} )

Na základe údajov z Národného prieskumu zdravia majú ženy vo veku od 18 do 24 rokov priemerný systolický krvný tlak (v mm Hg) 114,8 so štandardnou odchýlkou ​​13,1. Systolický krvný tlak u žien vo veku od 18 do 24 rokov sa riadi normálnym rozdelením.

  1. Ak je náhodne vybraná jedna žena z tejto populácie, zistite pravdepodobnosť, že jej systolický krvný tlak je vyšší ako 120.
  2. Ak je náhodne vybraných 40 žien z tejto populácie, zistite pravdepodobnosť, že ich stredný systolický krvný tlak je vyšší ako 120.
  3. Ak išlo o vzorku štyroch žien vo veku od 18 do 24 rokov a nepoznali by sme pôvodné rozdelenie, mohla by sa použiť centrálna limitná veta?

Odpoveď

  1. (P (x> 120) ) =normalcdf ((120 999 114,8 13,1) = 0,0272 ). Existujú asi 3%, že náhodne vybraná žena bude mať systolický krvný tlak vyšší ako 120.
  2. (P ( bar {x}> 120) = )normalcdf ( doľava (120 114,8, dfrac {13,1} { sqrt {40}} doprava) = 0,006 ). Existuje iba 0,6% šanca, že priemerný systolický krvný tlak pre náhodne vybranú skupinu je vyšší ako 120.
  3. Centrálnu limitnú vetu nebolo možné použiť, ak by veľkosť vzorky bola štyri a nevedeli sme, že pôvodné rozdelenie je normálne. Veľkosť vzorky by bola príliš malá.

Príklad ( PageIndex {4} )

Uskutočnila sa štúdia o násilí páchanom na prostitútkach a o príznakoch posttraumatického stresu, ktorý sa u nich prejavil. Vekové rozpätie prostitútok bolo 14 až 61 rokov. Priemerný vek bol 30,9 roka so štandardnou odchýlkou ​​deväť rokov.

  1. Aká je pravdepodobnosť, že je priemerný vek prostitútok na vzorke 25 prostitútok menej ako 35?
  2. Je pravdepodobné, že priemerný vek výberovej skupiny môže byť viac ako 50 rokov? Interpretujte výsledky.
  3. Aká je pravdepodobnosť, že na vzorke 49 prostitútok bude súčet vekov najmenej 1 600?
  4. Je pravdepodobné, že súčet vekových skupín 49 prostitútok je najviac 1 595? Interpretujte výsledky.
  5. Nájdite 95th percentil v prípade vzorky predstavuje priemerný vek 65 prostitútok. Interpretujte výsledky.
  6. Nájdite 90th percentil pre súčet vekových skupín 65 65 prostitútok. Interpretujte výsledky.

Odpoveď

  1. (P ( bar {x} <35) = )normalcdf ((- E99,35,30,9,1,8) = 0,9886 )
  2. (P ( bar {x}> 50) = )normalcdf ((50, E99,30,9,1,8) približne 0 ). Pre túto skupinu vzoriek je takmer nemožné, aby priemerný vek skupiny bol viac ako 50 rokov. Je však stále možné, aby jednotlivec v tejto skupine mal vek vyšší ako 50 rokov.
  3. (P ( súčet x geq 1 600) = )normalcdf ((1600, E99,1514,10,63) = 0,0864 )
  4. (P ( súčet x leq 1 595) = )normalcdf ((- E99 1595 1514 10,63) = 0,9005 ). To znamená, že existuje 90% pravdepodobnosť, že súčet vekov pre skupinu vzoriek (n = 49 ) je najviac 1595.
  5. 95. percentil =invNorm ((0,95,30,9,1,1) = 32,7 ). To naznačuje, že 95% prostitútok vo vzorke 65 osôb je v priemere mladších ako 32,7 rokov.
  6. 90. percentil =invNorm ((0,90,2008,5,72,56) = 2101,5 ). To naznačuje, že 90% prostitútok vo vzorke 65 osôb má súčet vekov menej ako 2 101,5 roka.

Cvičenie ( PageIndex {4} )

Podľa údajov spoločnosti Boeing dopravné lietadlo 757 prepravuje 200 cestujúcich a má dvere so strednou výškou 72 palcov. Predpokladajme, že pre určitú populáciu mužov máme priemer 69,0 palca a štandardnú odchýlku 2,8 palca.

  1. Čo znamená priemerná výška dverí, ktorá by umožnila 95% mužov vstúpiť do lietadla bez ohýbania?
  2. Predpokladajme, že polovica z 200 cestujúcich sú muži. Aká priemerná výška dverí spĺňa podmienku s pravdepodobnosťou 0,95, že je táto výška vyššia ako priemerná výška 100 mužov?
  3. Pre inžinierov navrhujúcich model 757 je výsledok relevantnejší: výška od časti a alebo časti b? Prečo?

Odpoveď

  1. Poznáme to ( mu_ {x} = mu = 69 ) a máme ( sigma_ {x} = 2,8 ). Zistí sa, že výška dverí jeinvNorm((0.95,69,2.8) = 73.61)
  2. Poznáme to ( mu_ {x} = mu = 69 ) a máme ( sigma_ {x} = 2,8 ). TakžeinvNorm((0.95,69,0.28) = 69.49)
  3. Pri navrhovaní výšky dverí je potrebné zohľadniť čo najväčšiu variabilitu, aby sa do nej zmestilo čo najviac cestujúcich. Preto musíme použiť výsledok založený na časti a.

Príklad ( PageIndex {5} )

Predpokladajme, že v miestnej materskej škole do 12 rokovth školský obvod (K - 12), 53 percent populácie uprednostňuje charterovú školu pre ročníky K až 5. Zisťuje sa jednoduchá náhodná vzorka 300.

  1. Nájdite pravdepodobnosť, že najmenej 150 uprednostniť charterovú školu.
  2. Nájdite pravdepodobnosť, že najviac 160 uprednostniť charterovú školu.
  3. Nájdite pravdepodobnosť, že viac ako 155 uprednostniť charterovú školu.
  4. Nájdite pravdepodobnosť, že menej ako 147 uprednostniť charterovú školu.
  5. Nájdite pravdepodobnosť, že presne 175 uprednostniť charterovú školu.

Nech (X = ) číslo, ktoré uprednostňuje charterovú školu pre ročníky K, koryto 5. (X sim B (n, p) ) kde (n = 300 ) a (p = 0,53 ). Pretože (np> 5 ) a (nq> 5 ), použite normálnu aproximáciu k binomickému číslu. Vzorce pre strednú a štandardnú odchýlku sú ( mu = np ) a ( sigma = sqrt {npq} ). Priemer je 159 a štandardná odchýlka je 8,6447. Náhodná premenná pre normálne rozdelenie je (X ). (Y sim N (159, 8 6447) ). Pokyny pre kalkulačku nájdete v časti Normálna distribúcia.

Pre časť a vy zahrnúť 150 takže (P (X geq 150) ) má normálnu aproximáciu (P (Y geq 149,5) = 0,8641 ).

normalcdf((149.5,10^{99},159,8.6447) = 0.8641).

Pre časť b vy zahrnúť 160 takže (P (X leq 160) ) má normálnu aproximáciu (P (Y leq 160.5) = 0,5689 ).

normalcdf((0,160.5,159,8.6447) = 0.5689)

Pre časť c vy vylúčiť 155 takže (P (X> 155) ) má normálnu aproximáciu (P (y> 155,5) = 0,6572 ).

normalcdf((155.5,10^{99},159,8.6447) = 0.6572).

Pre časť d vy vylúčiť 147 takže (P (X <147) ) má normálnu aproximáciu (P (Y <146,5) = 0,0741 ).

normalcdf((0,146.5,159,8.6447) = 0.0741)

Pre časť e má (P (X = 175) ) normálnu aproximáciu (P (174,5

normalcdf((174.5,175.5,159,8.6447) = 0.0083)

Kvôli kalkulačkám a počítačovému softvéru ktoré umožňujú ľahký výpočet binomických pravdepodobností pre veľké hodnoty (n ), nie je potrebné používať normálnu aproximáciu k binomickému rozdeleniu za predpokladu, že máte prístup k týmto technologickým nástrojom. Väčšina školských laboratórií má program Microsoft Excel, príklad počítačového softvéru, ktorý počíta binomické pravdepodobnosti. Mnoho študentov má prístup k kalkulačkám série TI-83 alebo 84 a ľahko vypočítajú pravdepodobnosti binomického rozdelenia. Ak v internetovom prehliadači zadáte „výpočet výpočtu binomickej pravdepodobnosti rozdelenia“, môžete nájsť aspoň jednu online kalkulačku pre binomiku.

Napríklad sa pravdepodobnosti počítajú pomocou tohto binomického rozdelenia: ( (n = 300 ap = 0,53 )). Porovnajte binomické a normálne rozdelenie odpovedí. V časti Diskrétne náhodné premenné nájdete pomoc s pokynmi kalkulačky pre dvojčlen.

(P (X geq 150) ):1 - binomialcdf((300,0.53,149) = 0.8641)

(P (X leq 160) ):binomialcdf((300,0.53,160) = 0.5684)

(P (X> 155) ):1 - binomialcdf((300,0.53,155) = 0.6576)

(P (X <147) ):binomialcdf((300,0.53,146) = 0.0742)

(P (X = 175) ): (Používate dvojčlen pdf.)binomialpdf((300,0.53,175) = 0.0083)

Cvičenie ( PageIndex {5} )

V meste 46 percent obyvateľov uprednostňuje súčasného starostu Dawn Morgana. Odoberá sa jednoduchá náhodná vzorka 500. Pomocou korekčného faktora kontinuity nájdite pravdepodobnosť, že najmenej 250 uprednostňuje Dawn Morgan pre starostu.

Odpoveď

0.0401

Referencie

  • Údaje z Wall Street Journal.
  • „Národný prieskum zdravia a výživy.“ Centrum pre kontrolu a prevenciu chorôb. Dostupné online na http://www.cdc.gov/nchs/nhanes.htm (sprístupnené 17. mája 2013).

Glosár

Exponenciálne rozdelenie
spojitá náhodná premenná (RV), ktorá sa objaví, keď nás zaujímajú časové intervaly medzi niektorými náhodnými udalosťami, napríklad dĺžka času medzi urgentnými príchodmi do nemocnice, notácia: (X sim Exp (m) ) . Priemerná hodnota je ( mu = dfrac {1} {m} ) a štandardná odchýlka je ( sigma = dfrac {1} {m} ).Funkcia hustoty pravdepodobnosti je (f (x) = me ^ {- mx} ), (x geq 0 ) a funkcia kumulatívneho rozdelenia je (P (X leq x) = 1 - e ^ { -mx} ).
Zlý
číslo, ktoré meria ústrednú tendenciu; bežný názov pre priemer je „priemerný“. Termín „priemer“ je skrátená forma „aritmetického priemeru“. Podľa definície je priemer vzorky (označený ( bar {x} )) ( bar {x} = dfrac { text {súčet všetkých hodnôt vo vzorke}} { text {číslo hodnôt vo vzorke}} ) a priemer pre populáciu (označený ( mu )) je ( mu = dfrac { text {súčet všetkých hodnôt v populácii}} { text {Počet hodnôt v populácii}} ).
Normálne rozdelenie
spojitá náhodná premenná (RV) s pdf (f (x) = dfrac {1} { sigma sqrt {2 pi}} e ^ { dfrac {(x - mu) ^ {2}} { 2 sigma ^ {2}}} ), kde ( mu ) je stredná hodnota distribúcie a ( sigma ) je štandardná odchýlka .; notácia: (X sim N ( mu, sigma) ). Ak ( mu = 0 ) a ( sigma = 1 ), RV sa nazýva štandardné normálne rozdelenie.
Rovnomerné rozdelenie
spojitá náhodná premenná (RV), ktorá má rovnako pravdepodobné výsledky v rámci domény, (a ); často označovaný ako Obdĺžnikové rozdelenie pretože graf pdf má tvar obdĺžnika. Zápis: (X sim U (a, b) ). Stredná hodnota je ( mu = dfrac {a + b} {2} ) a štandardná odchýlka je ( sigma = sqrt { dfrac {(ba) ^ {2}} {12}} ) . Funkcia hustoty pravdepodobnosti je (f (x) = dfrac {a + b} {2} ) pre (a

Centrálna medzná veta (CLT)

Pri štúdiu teórie pravdepodobnosti centrálna limitná veta (CLT) uvádza, že distribúcia vzorky sa približuje normálnemu rozdeleniu (tiež známemu ako „zvonová krivka“), pretože veľkosť vzorky sa zväčšuje, za predpokladu, že všetky vzorky sú identické, a bez ohľadu na tvar distribúcie populácie.

Povedané iným spôsobom, CLT je štatistická teória, ktorá tvrdí, že pri dostatočne veľkej veľkosti vzorky z populácie s konečnou úrovňou rozptylu bude priemer všetkých vzoriek z tej istej populácie približne rovnaký ako priemer populácie. Ďalej budú všetky vzorky sledovať približný vzor normálneho rozdelenia, pričom všetky odchýlky sa budú približne rovnať rozptylu populácie vydelenej veľkosťou každej vzorky.

Kľúčové jedlá

  • Centrálna limitná veta (CLT) uvádza, že distribúcia vzoriek znamená približné normálne rozdelenie, keď sa veľkosť vzorky zväčšuje.
  • Veľkosti vzoriek rovné alebo väčšie ako 30 sa považujú za dostatočné na to, aby ich CLT zadržala.
  • Kľúčovým aspektom CLT je, že priemer výberových priemerov a štandardných odchýlok sa bude rovnať populačnému priemeru a štandardnej odchýlke.
  • Dostatočne veľká veľkosť vzorky dokáže presne predpovedať charakteristiky populácie.

Aj keď tento koncept prvýkrát vytvoril Abraham de Moivre v roku 1733, formálny názov dostal až v roku 1930, keď ho maďarský matematik George Polya oficiálne pomenoval Central Limit Theorem. Okrúhly prsteň s kvetinovým vzorom.

Centrálna limitná veta


Zákon veľkých čísel

Zákon veľkých čísel hovorí, že ak odoberáte vzorky väčšej a väčšej veľkosti z ľubovoľnej populácie, potom priemer ( bar) vzorky má tendenciu sa čoraz viac približovať ( mu ). Z centrálnej limitnej vety vieme, že keď sa (n ) zväčšuje a zväčšuje, vzorové prostriedky sa riadia normálnym rozdelením. Čím väčšie (n ) bude, tým menšia bude smerodajná odchýlka. (Pamätajte, že štandardná odchýlka pre ( bar) je ( dfrac < sigma> < sqrt> ).) To znamená, že vzorka znamená ( bar) musí byť blízko k priemernému počtu obyvateľov ( mu ). Môžeme povedať, že ( mu ) je hodnota, ktorú vzorka znamená priblížiť, keď sa (n ) zväčšuje. Centrálna limitná veta ilustruje zákon veľkých čísel.

Štúdia zahŕňajúca stres sa uskutočňuje medzi študentmi na univerzitnom kampuse. Stresové skóre sleduje rovnomerné rozdelenie s najnižším stresovým skóre rovným jednej a najvyšším rovným päť. Na vzorke 75 študentov nájdite:

  1. Pravdepodobnosť, že stredné skóre stresu pre 75 študentov je menej ako dvaja.
  2. 90. percentil pre stredné skóre stresu pre 75 študentov.
  3. Pravdepodobnosť, že celkovo 75 stresových skóre je menej ako 200.
  4. 90. percentil pre skóre celkového stresu pre 75 študentov.

Problémy a a b vás žiadajú, aby ste priemerne našli pravdepodobnosť alebo percentil. Problémy ca ad požadujú, aby ste našli pravdepodobnosť alebo percentil pre a súčet alebo súčet. Veľkosť vzorky (n ) sa rovná 75.

Pretože jednotlivé stresové skóre sledujú rovnomerné rozdelenie, (X sim U (1, 5) ) kde (a = 1 ) a (b = 5 ).

Pri problémoch 1. a 2. nechajme ( bar = ) priemerné skóre stresu pre 75 študentov. Potom,

  1. Nájdite (P ( bar & lt 2) ). Nakreslite graf.
  2. Nájdite 90. percentil pre priemer 75 skóre stresu. Nakreslite graf.
  3. Nájdite (P ( súčet x & lt 2000) ). Nakreslite graf.
  4. Nájdite 90. percentil z celkového počtu 75 stresových skóre. Nakreslite graf.

a. (P ( bar & lt 2) = 0 )

Pravdepodobnosť, že stredné skóre stresu je menšie ako dve, je asi nulová.

Obrázok ( PageIndex <1> ).

Najmenšie skóre stresu je jedno

b. Nech (k = ) 90. percentil.

Nájdite (k ), kde (P ( bar & lt k) = 0,90 ).

Obrázok ( PageIndex <2> ).

90. percentil pre priemer 75 skóre je asi 3,2. To nám hovorí, že 90% všetkých priemerných hodnôt 75 stresových skóre je najviac 3,2 a že 10% je najmenej 3,2.

Pri problémoch c a d nech ( súčet X = ) predstavuje súčet 75 stresových skóre. Potom,

c. Priemer súčtu 75 stresových skóre je ((75) (3) = 225 )

Štandardná odchýlka súčtu 75 stresových skóre je (( sqrt <75>) (1,15) = 9,96 )

Obrázok ( PageIndex <3> ).

Pravdepodobnosť, že celkovo je 75 bodov menej ako 200, je približne nulová.

Najmenšie celkové skóre 75 stresu je 75, pretože najmenšie jednotlivé skóre je jedno.

d. Nech (k = ) 90. percentil.

Nájdite (k ) kde (P ( súčet x & lt k) = 0,90 ).

Obrázok ( PageIndex <4> ).

90. percentil pre súčet 75 skóre je asi 237,8. To nám hovorí, že 90% všetkých súčtov skóre 75 nie je viac ako 237,8 a 10% nie je menej ako 237,8.

invNorm ( doľava (0,90; (75) (3); ( sqrt <75>) (1,15) doprava) = 237,8 )

Použite informácie v príklade ( PageIndex <1> ), ale na zodpovedanie nasledujúcich otázok použite veľkosť vzorky 55.

  1. Nájdite (P ( bar & lt 7) ).
  2. Nájdite (P ( súčet x & lt 7) ).
  3. Nájdite 80. percentil pre priemer 55 skóre.
  4. Nájdite 85. percentil pre súčet 55 skóre.

Predpokladajme, že analytik prieskumu trhu pre spoločnosť zaoberajúcu sa mobilnými telefónmi vykoná štúdiu o svojich zákazníkoch, ktorí prekročia časovú dotáciu uvedenú v ich základnej zmluve o mobilnom telefóne, analytik zistí, že pre tých ľudí, ktorí prekročia čas zahrnutý v ich základnej zmluve, použitý nadbytočný čas sleduje exponenciálne rozdelenie s priemerom 22 minút.

Zvážte náhodnú vzorku 80 zákazníkov, ktorí prekročili časovú dotáciu uvedenú v ich základnej zmluve o mobilnom telefóne.

Nech (X = ) je nadbytočný čas používaný jedným JEDNOTLIVÝM zákazníkom mobilného telefónu, ktorý prekročí svoju zmluvnú časovú dotáciu.

(X sim Exp doľava ( dfrac <1> <22> doprava) ). Z predchádzajúcich kapitol vieme, že ( mu = 22 ) a ( sigma = 22 ).

Nech ( bar) = priemerný nadbytočný čas používaný vzorkou (n = 80 ) zákazníkov, ktorí prekročili zmluvnú časovú dotáciu.

centrálnou medznou vetou pre vzorové prostriedky

  1. Zistite pravdepodobnosť, že priemerný nadbytočný čas použitý 80 zákazníkmi vo vzorke je dlhší ako 20 minút. To nás žiada, aby sme našli (P ( bar & gt 20) ). Nakreslite graf.
  2. Predpokladajme, že je náhodne vybraný jeden zákazník, ktorý prekročí časový limit svojej zmluvy o mobilnom telefóne. Nájdite pravdepodobnosť, že nadbytočný čas tohto individuálneho zákazníka je dlhší ako 20 minút. Toto nás žiada, aby sme našli (P (x> 20) ).
  3. Vysvetlite, prečo sú pravdepodobnosti v častiach a a b odlišné.
  4. Nájdite 95. percentil pre vzorka znamená nadbytočný čas pre vzorky 80 zákazníkov, ktorí prekročili svoje základné zmluvné časové úľavy. Nakreslite graf.

(P ( bar & gt 20) = 0,79199 ) pomocou normalcdf ( left (20,1 text.)99,22, dfrac <22> < sqrt <80>> vpravo) )

Pravdepodobnosť je 0,7919, že priemerný použitý nadbytočný čas je viac ako 20 minút pre vzorku 80 zákazníkov, ktorí prekročili zmluvne dohodnutú časovú dotáciu.

Obrázok ( PageIndex <5> ).

1E99 = 10 99 a & ndash 1E99 = & ndash10 99 . Stlačte kláves EE pre E. Alebo jednoducho použite 10 99 namiesto 1E99.

  1. (P (x> 20) = 0,4029 ) ale (P ( bar & gt 20) = 0,7919 )
  2. Pravdepodobnosti nie sú rovnaké, pretože na výpočet pravdepodobnosti pre jednotlivcov a pre prostriedky používame rôzne rozdelenia.
  3. Keď ste požiadaní o zistenie pravdepodobnosti individuálnej hodnoty, použite uvedené rozdelenie jej náhodnej premennej nepoužívajte clt. Použite príkazový riadok s normálnym rozdelením, keď sa od vás vyžaduje, aby ste zistili pravdepodobnosť strednej hodnoty.

(k = 26.0 ) pomocou invNorm ( left (0.95,22, dfrac <22> < sqrt <80>> right) = 26.0 )

Obrázok ( PageIndex <6> ).

95. percentil pre použitá priemerná vzorka nadbytočného času je asi 26,0 minút pre náhodné vzorky 80 zákazníkov, ktorí prekročia zmluvne povolený čas.

Deväťdesiatpäť percent takýchto vzoriek by malo prostriedky pod 26 minút, iba päť percent z týchto vzoriek by malo prostriedky nad 26 minút.

Použite informácie v príklade ( PageIndex <2> ), veľkosť vzorky však zmeňte na 144.

  1. Nájdite (P (20 & lt bar.) & lt 30) ).
  2. Nájdite (P ( sum x text 3 000) ).
  3. Nájdite 75. percentil pre priemernú nadbytočnú dobu vzorky 144 zákazníkov.
  4. Nájdite 85. percentil pre sumu 144 nadmerných časov použitých zákazníkmi.

Podľa mnohých štúdií je v Spojených štátoch v priemere niekto sexuálne napadnutý každé dve minúty. Predpokladajme, že štandardná odchýlka je 0,5 minúty a veľkosť vzorky je 100.

  1. Nájdite medián, prvý kvartil a tretí kvartil pre strednú dobu vzorky sexuálnych útokov v USA.
  2. Nájdite medián, prvý kvartil a tretí kvartil pre súčet časov vzorkovania sexuálnych útokov v Spojených štátoch.
  3. Nájdite pravdepodobnosť, že dôjde k sexuálnemu útoku, v priemere od 1,75 do 1,85 minúty.
  4. Nájdite hodnotu, ktorá je o dve štandardné odchýlky nad priemerom vzorky.
  5. Nájsť IQR pre súčet časov vzorkovania.
  1. Máme, ( mu_ = mu = 2 ) a ( sigma_ = dfrac < sigma> < sqrt> = dfrac <0,5> <10> = 0,05 ). Preto:
    1. 50. percentil (= mu_ = mu = 2 )
    2. 25. percentil (= text(0.25,2,0.05) = 1.97)
    3. 75. percentil (= text(0.75,2,0.05) = 2.03)
    1. 50. percentil = ( mu_ < sum X> = n ( mu_) = 100(2) = 200)
    2. 25. percentil (= text(0.25,200,5) = 196.63)
    3. 75. percentil (= text(0.75,200,5) = 203.37)

    Na základe údajov z Národného prieskumu zdravia majú ženy vo veku od 18 do 24 rokov priemerný systolický krvný tlak (v mm Hg) 114,8 so štandardnou odchýlkou ​​13,1. Systolický krvný tlak u žien vo veku od 18 do 24 rokov sa riadi normálnym rozdelením.

    1. Ak je náhodne vybraná jedna žena z tejto populácie, zistite pravdepodobnosť, že jej systolický krvný tlak je vyšší ako 120.
    2. Ak je náhodne vybraných 40 žien z tejto populácie, zistite pravdepodobnosť, že ich stredný systolický krvný tlak je vyšší ako 120.
    3. Ak išlo o vzorku štyroch žien vo veku od 18 do 24 rokov a nepoznali by sme pôvodné rozdelenie, mohla by sa použiť centrálna limitná veta?
    1. (P (x> 120) ) = normalcdf ((120 999 114,8,13,1) = 0,0272 ). Existujú asi 3%, že náhodne vybraná žena bude mať systolický krvný tlak vyšší ako 120.
    2. (P ( bar & gt 120) = ) normalcdf ( left (120 114,8, dfrac <13,1> < sqrt <40>> right) = 0,006 ). Existuje iba 0,6% šanca, že priemerný systolický krvný tlak pre náhodne vybranú skupinu je vyšší ako 120.
    3. Centrálnu limitnú vetu nebolo možné použiť, ak by veľkosť vzorky bola štyri a nevedeli sme, že pôvodné rozdelenie je normálne. Veľkosť vzorky by bola príliš malá.

    Uskutočnila sa štúdia o násilí páchanom na prostitútkach a o príznakoch posttraumatického stresu, ktorý sa u nich prejavil. Vekové rozpätie prostitútok bolo 14 až 61 rokov. Priemerný vek bol 30,9 roka so štandardnou odchýlkou ​​deväť rokov.

    1. Aká je pravdepodobnosť, že je priemerný vek prostitútok na vzorke 25 prostitútok menej ako 35?
    2. Je pravdepodobné, že priemerný vek výberovej skupiny môže byť viac ako 50 rokov? Interpretujte výsledky.
    3. Aká je pravdepodobnosť, že na vzorke 49 prostitútok bude súčet vekov najmenej 1 600?
    4. Je pravdepodobné, že súčet vekových skupín 49 prostitútok je najviac 1 595? Interpretujte výsledky.
    5. Nájdite 95. percentil pre priemerný vek vzorky 65 prostitútok. Interpretujte výsledky.
    6. Nájdite 90. percentil pre súčet vekových skupín 65 prostitútok. Interpretujte výsledky.
    1. (P ( bar & lt 35) = ) normalcdf ((- - E99,35,30,9,1,8) = 0,9886 )
    2. (P ( bar & gt 50) = ) normalcdf ((50, E99,30,9,1,8) približne 0 ). Pre túto skupinu vzoriek je takmer nemožné, aby priemerný vek skupiny bol viac ako 50. Je však stále možné, aby jednotlivec v tejto skupine mal vek vyšší ako 50 rokov.
    3. (P ( sum x geq 1 600) = ) normalcdf ((1600, E99,1514,10,63) = 0,0864 )
    4. (P ( sum x leq 1 595) = ) normalcdf ((- E99,1595,1514,10,63) = 0,9005 ). To znamená, že existuje 90% pravdepodobnosť, že súčet vekov pre skupinu vzoriek (n = 49 ) je najviac 1595.
    5. 95. percentil = invNorm ((0,95,30,9,1,1) = 32,7 ). To naznačuje, že 95% prostitútok vo vzorke 65 osôb je v priemere mladších ako 32,7 rokov.
    6. 90. percentil = invNorm ((0,90,2008,5,72,56) = 2101,5 ). To naznačuje, že 90% prostitútok vo vzorke 65 osôb má súčet vekov menej ako 2 101,5 roka.

    Podľa údajov spoločnosti Boeing dopravné lietadlo 757 prepravuje 200 cestujúcich a má dvere so strednou výškou 72 palcov. Predpokladajme, že pre určitú populáciu mužov máme priemer 69,0 palca a štandardnú odchýlku 2,8 palca.

    1. Čo znamená priemerná výška dverí, ktorá by umožnila 95% mužov vstúpiť do lietadla bez ohýbania?
    2. Predpokladajme, že polovica z 200 cestujúcich sú muži. Aká priemerná výška dverí spĺňa podmienku s pravdepodobnosťou 0,95, že je táto výška vyššia ako priemerná výška 100 mužov?
    3. Pre inžinierov navrhujúcich model 757 je výsledok relevantnejší: výška od časti a alebo časti b? Prečo?
    1. Vieme, že ( mu_ = mu = 69 ) a máme ( sigma_ = 2,8 ). Zistí sa, že výška dverí je invNorm ((0,95,69,2,8) = 73,61 )
    2. Vieme, že ( mu_ = mu = 69 ) a máme ( sigma_ = 2,8 ). Takže invNorm ((0,95,69,0,28) = 69,49 )
    3. Pri navrhovaní výšky dverí je potrebné zohľadniť čo najväčšiu variabilitu, aby sa do nej zmestilo čo najviac cestujúcich. Preto musíme použiť výsledok založený na časti a.

    Historická poznámka: Normálna aproximácia k binomickému číslu

    Historicky bola schopnosť vypočítať binomické pravdepodobnosti jednou z najdôležitejších aplikácií centrálnej limitnej vety. Binomické pravdepodobnosti s malou hodnotou pre (n ) (povedzme 20) boli zobrazené v tabuľke v knihe. Na výpočet pravdepodobností s veľkými hodnotami (n ) ste museli použiť binomický vzorec, ktorý by mohol byť veľmi komplikovaný. Použitie normálnej aproximácie na binomické rozdelenie zjednodušilo postup. Na výpočet normálnej aproximácie k binomickému rozdeleniu odoberte z populácie jednoduchú náhodnú vzorku. Musíte splniť podmienky pre binomickú distribúciu:

    • existuje určitý počet (n ) nezávislých pokusov
    • výsledkom akejkoľvek skúšky je úspech alebo neúspech
    • každá skúška má rovnakú pravdepodobnosť úspechu (p )

    Pripomeňme, že ak (X ) je binomická náhodná premenná, potom (X sim B (n, p) ). Tvar binomického rozdelenia musí byť podobný tvaru normálneho rozdelenia. Aby to bolo zabezpečené, množstvá (np ) a (nq ) musia byť obidve väčšie ako päť ( (np & gt 5 ) a (nq & gt 5 )), aproximácia je lepšia, ak sú obidve väčšie ako alebo rovné 10). Potom možno dvojčlen odhadnúť normálnym rozdelením so strednou hodnotou ( mu = np ) a štandardnou odchýlkou ​​ ( sigma = sqrt). Pamätajte, že (q = 1 - p ). Ak chcete získať najlepšiu aproximáciu, pridajte 0,5 k (x ) alebo odčítajte 0,5 od (x ) (použite (x + 0,5 ) alebo (x - 0,5 )). Číslo 0,5 sa nazýva faktor korekcie spojitosti a používa sa v nasledujúcom príklade.

    Predpokladajme, že v miestnej materskej škole v školskom obvode 12. ročníka (K - 12) uprednostňuje 53 percent populácie charterovú školu pre ročníky K až 5. Prieskumuje sa jednoduchá náhodná vzorka 300.

    1. Nájdite pravdepodobnosť, že najmenej 150 uprednostniť charterovú školu.
    2. Nájdite pravdepodobnosť, že najviac 160 uprednostniť charterovú školu.
    3. Nájdite pravdepodobnosť, že viac ako 155 uprednostniť charterovú školu.
    4. Nájdite pravdepodobnosť, že menej ako 147 uprednostniť charterovú školu.
    5. Nájdite pravdepodobnosť, že presne 175 uprednostniť charterovú školu.

    Nech (X = ) číslo, ktoré uprednostňuje charterovú školu pre ročníky K, koryto 5. (X sim B (n, p) ) kde (n = 300 ) a (p = 0,53 ). Pretože (np & gt 5 ) a (nq & gt 5 ), použite normálnu aproximáciu na binomické číslo. Vzorce pre strednú a štandardnú odchýlku sú ( mu = np ) a ( sigma = sqrt). Priemer je 159 a štandardná odchýlka je 8,6447. Náhodná premenná pre normálne rozdelenie je (X ). (Y sim N (159, 8 6447) ). Pokyny pre kalkulačku nájdete v časti Normálna distribúcia.

    Pre časť a vy zahrnúť 150 takže (P (X geq 150) ) má normálnu aproximáciu (P (Y geq 149,5) = 0,8641 ).

    normalcdf ((149,5,10 ^ <99>, 159,8,6447) = 0,8641 ).

    Pre časť b vy zahrnúť 160 takže (P (X leq 160) ) má normálnu aproximáciu (P (Y leq 160.5) = 0,5689 ).

    normalcdf ((0,160,5,159,8,6447) = 0,5689 )

    Pre časť c vy vylúčiť 155 takže (P (X> gt 155) ) má normálnu aproximáciu (P (y> gt 155,5) = 0,6572 ).

    normalcdf ((155,5,10 ^ <99>, 159,8,6447) = 0,6572 ).

    Pre časť d vy vylúčiť 147 takže (P (X & lt 147) ) má normálnu aproximáciu (P (Y & lt 146,5) = 0,0741 ).

    normalcdf ((0,146,5 159,8,6447) = 0,0741 )

    Pre časť e má (P (X = 175) ) normálnu aproximáciu (P (174,5 & lt Y & lt 175,5) = 0,0083 ).

    normalcdf ((174,5 175,5 159,8,6447) = 0,0083 )

    Kvôli kalkulačkám a počítačovému softvéru ktoré umožňujú ľahký výpočet binomických pravdepodobností pre veľké hodnoty (n ), nie je potrebné používať normálnu aproximáciu k binomickému rozdeleniu za predpokladu, že máte prístup k týmto technologickým nástrojom. Väčšina školských laboratórií má program Microsoft Excel, príklad počítačového softvéru, ktorý počíta binomické pravdepodobnosti. Mnoho študentov má prístup k kalkulačkám série TI-83 alebo 84 a ľahko vypočítajú pravdepodobnosti binomického rozdelenia. Ak zadáte & quotbinomiálny výpočet rozdelenia pravdepodobnosti & quot v internetovom prehliadači, môžete nájsť aspoň jednu online kalkulačku pre binomiál.

    Napríklad sa pravdepodobnosti počítajú pomocou tohto binomického rozdelenia: ( (n = 300 ap = 0,53 )). Porovnajte binomické a normálne rozdelenie odpovedí. V časti Diskrétne náhodné premenné nájdete pomoc s pokynmi kalkulačky pre dvojčlen.

    (P (X geq 150) ): 1 - binomialcdf ((300,0,53,149) = 0,8641 )

    (P (X leq 160) ): binomialcdf ((300,0,53,160) = 0,5684 )

    (P (X a> 155) ): 1 - binomialcdf ((300,0,53,155) = 0,6576 )

    (P (X & lt 147) ): binomialcdf ((300,0,53,146) = 0,0742 )

    (P (X = 175) ): (Používate binomický formát pdf.) Binomialpdf ((300,0,53,175) = 0,0083 )

    V meste 46 percent obyvateľov uprednostňuje súčasného starostu Dawn Morgana. Odoberá sa jednoduchá náhodná vzorka 500. Pomocou korekčného faktora kontinuity nájdite pravdepodobnosť, že najmenej 250 uprednostňuje Dawn Morgan pre starostu.


    5.2: Používanie centrálnej limitnej vety - matematika

    V aktivite The Central Limit Theorem (1. časť) sme uzavreli nasledujúcimi pozorovaniami o The Central Limit Theorem.

    1. Ak čerpáte vzorky z normálneho rozloženia, potom je rozloženie vzorkových prostriedkov tiež normálne.
    2. Priemerná distribúcia priemerov vzorky je rovnaká ako priemerná hodnota „rodičovskej populácie“, populácie, z ktorej sa vzorky odoberajú.
    3. Čím vyššia je veľkosť vzorky, ktorá sa nakreslí, tým „užšie“ bude rozšírenie distribúcie vzoriek.

    Uviedli sme, že toto tvrdenie o Centrálnej limitnej vete doladíme v ďalších činnostiach. Teraz k tomu pristúpime.

    Čo ak rodičovská distribúcia nie je normálna?

    V aktivite The Central Limit Theorem (1. časť) sme zhromaždili náhodné vzorky z „materskej“ populácie, ktorej distribúcia bola „normálna“. V tejto aktivite vyberieme rodičovské populácie, ktoré nie sú normálne, potom zistíme, či závery z Centrálnej limitnej vety stále platia.

    V aktivite Nepretržité distribúcie sme zaviedli Exponenciálne rozdelenie definované nasledujúcou funkciou hustoty pravdepodobnosti.

    Funkcia hustoty exponenciálnej pravdepodobnosti

    Postava 1. Funkcia exponenciálnej hustoty pravdepodobnosti má priemernú aj štandardnú odchýlku rovnú 1 / lambda.

    Ľahko môžeme vykresliť distribúciu pre & lambda = 1.

    Niektoré komentáre sú v poradí pre príkaz krivka.

    • Syntax krivka (expr, od =, do =) načrtáva graf expr na intervale (od, do).
    • V tomto príklade od = 0 do = 4.

    The krivka vyššie uvedený príkaz vytvorí krivku hustoty pravdepodobnosti pre exponenciálne rozdelenie znázornené na obrázku 2.

    Obrázok 2. Načrtnutie funkcie hustoty pravdepodobnosti pre exponenciálne rozdelenie (& lambda = 1).

    Všimnite si, že exponenciálne rozdelenie zobrazené na obrázku 2 je nie normálne.

    Písmeno r & mdash kreslenie náhodných čísel

    V predchádzajúcich činnostiach (napr. Normálne rozdelenie a Kontinuálne rozdelenie) sme zaviedli použitie písmen d, p a q vo vzťahu k rôznym rozdeleniam (napr. Normálne, rovnomerné a exponenciálne). Nasleduje pripomenutie ich použitia:

    • „d“ je pre „hustotu“. Používa sa na vyhľadanie hodnôt funkcie hustoty pravdepodobnosti.
    • „p“ znamená „pravdepodobnosť“. Slúži na zistenie pravdepodobnosti náhodnej premennej leží vľavo daného čísla.
    • „q“ je pre „kvantil“. Používa sa na nájdenie kvantilov danej distribúcie.

    Existuje štvrté písmeno, a to „r“, ktoré sa používa na nakreslenie náhodných čísel z distribúcie. Použime rexp príkaz náhodne nakresliť 500 čísel z exponenciálneho rozdelenia so strednou hodnotou 1 a štandardnou odchýlkou ​​1.

    Môžeme si pozrieť výsledok, z ktorých niektoré sú uvedené nižšie.

    Keď skúmate čísla uložené v premennej X, je ťažké získať prehľad o rozdelení čísel. Histogram tohto výberu však poskytuje lepšie pochopenie údajov uložených v pamäti X.

    Vyššie uvedený príkaz vytvorí histogram zobrazený na obrázku 3.

    Obrázok 3. Histogram 500 náhodných čísel čerpaných z exponenciálneho rozdelenia s & lambda = 1

    Niekoľko komentárov je usporiadaných k histogramu na obrázku 3:

    1. Histogram je nie normálne. Distribúcia je v skutočnosti rozhodne skreslená doprava.
    2. Vizuálne nie je nerozumné odhadovať, že „rovnovážny bod“ alebo „stred“ distribúcie je blízko 1. Rýchly výpočet však poskytuje presvedčivé dôkazy o tom, že priemer je 1.

    Distribúcia vzorových prostriedkov

    V našich predchádzajúcich príkladoch sme nakreslili 500 náhodných čísel z exponenciálneho rozdelenia so strednou a štandardnou odchýlkou ​​rovnou 1. Toto sa nazýva „nakreslenie vzorky veľkosti 500“ z exponenciálneho rozdelenia so strednou a štandardnou odchýlkou ​​eqyak ti 1. To vedie k vzorka 500 náhodných čísel. Jedna okamžitá otázka, ktorú si môžeme položiť, je „aký je priemer našej vzorky?“

    Priemer tejto vzorky je teda 1,006549.

    Samozrejme, ak vezmeme ďalšiu vzorku 500 náhodných čísel z exponenciálneho rozdelenia so strednou a štandardnou odchýlkou ​​rovnou 1, dostaneme novú vzorku, ktorá má iný priemer.

    V tomto prípade máme novú vzorku 500 náhodne vybraných čísel a priemer tejto vzorky poskytuje iný výsledok, konkrétne 0,9780556. Ďalšou otázkou, ktorú si treba položiť, je „čo sa stane, keď to urobíme opakovane?“

    Vytvorenie vektora vzorových prostriedkov

    V nasledujúcej aktivite budeme opakovane vzorkovať z exponenciálneho rozdelenia. Každá vzorka vyberie päť náhodných čísel z exponenciálneho rozdelenia so strednou a štandardnou odchýlkou ​​rovnou 1. V našej vzorke potom nájdeme priemer piatich čísel. Tento experiment zopakujeme 500 krát, pričom vzorové prostriedky zhromaždíme do vektora xbar ako ideme.

    Začneme deklarovaním rýchlosti exponenciálneho rozdelenia, z ktorej budeme čerpať náhodné čísla. Potom vyhlásime veľkosť vzorky (počet vyžrebovaných náhodných čísel).

    Zakaždým, keď nakreslíme vzorku veľkosti n = 5 z exponenciálneho rozdelenia majúceho strednú hodnotu & mu = 1 a smerodajná odchýlka & sigma = 1, potrebujeme niekde uložiť priemer vzorky. Pretože máme v úmysle zozbierať prostriedky z 500 vzoriek, inicializujeme vektor xbar spočiatku obsahovať 500 núl.

    The rep príkaz "opakuje" zadanie 500 krát. Vo výsledku vektor xbar teraz obsahuje 500 záznamov, z ktorých každý je nulový.

    Je ľahké nakresliť vzorku veľkosti n = 5 z exponenciálneho rozdelenia majúceho strednú hodnotu & mu = 1 a smerodajná odchýlka & sigma = 1. Jednoducho vydáme príkaz exp (n, sadzba = lambda). Aby sme našli priemer tohto výsledku, jednoducho pridáme úpravu priemer (exp (n, sadzba = lambda)). Posledným krokom je uloženie tohto výsledku do vektora xbar. Potom musíme ten istý postup zopakovať ďalších 499-krát, čo predstavuje celkovo 500 vzoriek. To si vyžaduje použitie a pre slučka.

    The pre konštrukcia použitá v R je podobná konštrukcii „for loops“ použitej v mnohých programovacích jazykoch.

    • The i v pre (i v 1: 500) sa nazýva index cyklu „pre“.
    • Index i je najskôr nastavené na 1, potom sa vykoná „telo“ cyklu „for“ (časť medzi zloženými zátvorkami). Pri ďalšej iterácii i je nastavené na hodnotu 2 a telo slučky sa vykoná znova. Smyčka pokračuje týmto spôsobom a zvyšuje index i o 1, konečne nastavenie indexu i na 500, pri ktorom sa telo slučky vykoná naposledy. Potom sa ukončí cyklus „for“.
    • V tele slučky „pre“ máme xbar [i] = priemer (exp (n, sadzba = lambda)). Týmto sa nakreslí vzorka veľkosti n = 5 z exponenciálneho rozdelenia vypočíta priemer vzorky a výsledok uloží do xbar [i], i-tý záznam xbar.
    • Keď "pre cyklus" dokončí 500 iterácií, vektor xbar obsahuje prostriedky na 500 vzoriek veľkosti n = 5 čerpané z exponenciálneho rozdelenia majúce priemer & mu = 1 a smerodajná odchýlka & sigma = 1.

    Je to jednoduchá úloha, načrtnúť histogram vzorových prostriedkov obsiahnutých vo vektore xbar.

    Vyššie uvedený príkaz vytvorí histogram zobrazený na obrázku 4.

    Obrázok 4. Histogram vzorky znamená.

    Existuje niekoľko dôležitých pozorovaní týkajúcich sa histogramu vzorkovacích prostriedkov na obrázku 4, najmä keď sa porovnáva s histogramami na obrázkoch 2 a 3.

    1. Je potrebné si všimnúť štítky na vodorovnej osi. Na obrázkoch 2 a 3 je štítok X. Je to tak preto, lebo histogramy na obrázkoch 2 a 3 jednoducho popisujú tvar 500 náhodných čísel vybraných z exponenciálneho rozdelenia so strednou hodnotou & mu = 1 a smerodajná odchýlka & sigma = 1. Na druhej strane histogram na obrázku 4 popisuje distribúciu 500 vzorové prostriedky, z ktorých každý bol nájdený výberom n = 5 čísla z exponenciálneho rozdelenia s priemerom & mu = 1 a smerodajná odchýlka & sigma = 1, výpočet ich priemeru (priemeru). Horizontálna os na obrázku 4 zdôrazňuje túto skutočnosť so štítkom xbar.
    2. Je dôležité si uvedomiť, že distribúcia xbar na obrázku 4 nie je normálnevo forme. Distribúcia je v skutočnosti rozhodne skreslená doprava.

    Zväčšenie veľkosti vzorky

    Zopakujme si posledný experiment, ale tentokrát nakreslime vzorky o veľkosti n = 10 z tej istej „rodičovskej populácie“, kde exponenciálne rozdelenie má strednú hodnotu & mu = 1 a smerodajná odchýlka & sigma = 1.

    Vyššie uvedené príkazy vytvárajú histogram na obrázku 5.

    Obrázok 5. Zväčšenie veľkosti vzorky na n = 10.

    Histogram na obrázku 5 stále nemá normálny tvar. Opäť je to určite skreslené doprava, aj keď možno nie toľko ako histogram na obrázku 4, ktorý bol vyrobený s menšou veľkosťou vzorky.

    Zväčšime veľkosť vzorky na n = 20 a experiment opakujte.

    Vyššie uvedený kód vytvorí obraz na obrázku 6.

    Obrázok 6. Zväčšenie veľkosti vzorky na n = 20.

    Aha! Histogram na obrázku 6 má vzhľad normálneho rozdelenia. „Pravá šikmosť“ začína miznúť v porovnaní s histogramami na obrázkoch 4 a 5.

    Vyššie uvedený kód vytvorí obraz na obrázku 7.

    Obrázok 7. Zväčšenie veľkosti vzorky na n = 30.

    Histogram na obrázku 7 má symetrický tvar zvonu normálneho rozdelenia.

    Kľúčové pozorovanie: Zdá sa, že distribúcia vzoriek bude mať normálny tvar bez ohľadu na tvar „materskej“ populácie, ak je veľkosť vzorky dostatočne veľká. Na obrázku 7 je veľkosť vzorky n = 30 sa javilo ako dostatočné na to, aby sa zaručilo, že distribúcia vzoriek má normálny tvar, aj keď vzorky boli čerpané z exponenciálneho rozdelenia, ktoré je vysoko skreslené doprava.

    V súvislosti s distribúciou uvedenou vo Fiugre 7 je potrebné urobiť ešte dve dôležité pozorovania:

      Kľúčové pozorovanie: Histogram na obrázku 7 sa javí ako „vyvážený“ alebo „sústredený“ okolo xbar = 1. Naozaj:

    Vzorkovanie z diskrétnej populácie

    Zopakujme experiment znova (zväčšenie veľkosti vzorky), len tentokrát použijeme populáciu „rodiča“, ktorá je diskrétna a zošikmená doľava. Konkrétne:

    Diskrétne rozdelenie
    X p
    1 0.1
    2 0.1
    3 0.1
    4 0.1
    5 0.2
    6 0.4

    Hodnoty náhodnej premennej a ich pravdepodobnosti v R môžeme „načítať“ nasledovne:

    Môžeme poskytnúť „stick“ graf tejto diskrétnej distribúcie s nasledujúcim kódom:

    Vyššie uvedený kód vytvorí diskrétne rozdelenie zobrazené na obrázku 8.

    Obrázok 7. Diskrétne rozdelenie, ktoré je zle vychýlené doľava.

    Určte priemer diskrétneho rozdelenia

    Tu je jednoduchý vzorec na výpočet priemeru diskrétnej distribúcie.

    Vzorec pre stred diskrétneho rozdelenia

    Postava 1.Priemer sa zistí súčtom súčinu hodnôt náhodnej premennej a ich súvisiacich pravdepodobností.

    Môžeme teda nájsť priemer nášho diskrétneho rozdelenia pomocou nasledujúceho výpočtu:

    Tento výpočet je R, čo výrazne zjednodušuje úlohu. Najskôr nájdite súčin vektorov X a p. Poznámka: Keď vezmete súčin dvoch vektorov, R vyprodukuje tretí vektor, pričom každý záznam je produktom zodpovedajúcich záznamov vo vektoroch, ktoré sa vynásobia.

    Sčítajte tieto čísla, aby ste našli priemer.

    Priemer diskrétnej distribúcie je teda & mu = 4,4.

    Kľúčové pozorovanie: Znova sa pozrite na graf „hrotov“ na obrázku 7. Predstavte si „ostrie noža“ na hodnote 4,4 a rozloženie obrázka 7 nastavte na vrchole „hrany noža“. Bude distribučná bilancia? Majte na pamäti „princíp páky“ alebo „efekt balansovania“. Odľahlé hodnoty, ako napr x = 1, umiestnený ďalej od priemeru, ale s nižšou pravdepodobnosťou, môže vyvážiť hodnoty s „masívnejšou“ pravdepodobnosťou, ktorá je zhluknutá bližšie k priemeru. Ak vezmeme do úvahy tieto myšlienky, zdá sa byť priemerná hodnota & mu = 4,4 primeraná.

    Vzorkovanie z diskrétnej distribúcie

    V aktivite Vzorkovanie diskrétnej populácie sa vzorka príkaz bol použitý na nakreslenie vzorky. Syntax vzorka (x, veľkosť, vymeniť =, prob =) naznačuje, že musíme uviesť nasledujúce argumenty:

    • X: vektor obsahujúci hodnoty náhodnej premennej
    • veľkosť: veľkosť vzorky, ktorú chcete nakresliť
    • vymeniť: hodnota TRUE spôsobí, že hodnota diskrétnej premennej bude nahradená predtým, ako sa uskutoční ďalšie vykreslenie.
    • prob: vektor obsahujúci súvisiace pravdepodobnosti pre každú hodnotu náhodnej premennej

    Nakreslíme vzorku s veľkosťou 1000 a z výslednej vzorky vytvoríme histogram.

    Rovnako ako v aktivite Sampling a Discrete Distribution, stôl príkaz poskytuje pekné zhrnutie vzorky.

    Ešte lepšia je vizualizácia, ktorú poskytuje barplot.

    Tento posledný príkaz vytvorí čiarový graf zobrazený na obrázku 8.

    Obrázok 8.Vynesenie vzorky veľkosti 1000 vybranej z diskrétneho rozdelenia.

    Barplot na obrázku 8 je náhodná vzorka z diskrétneho rozdelenia zobrazeného na obrázku 7, ktorej teoretický priemer je 4,4. Pozrime sa, aký je priemer našej vzorky.

    Samozrejme, ak nakreslíme ďalšiu náhodnú vzorku, dostaneme iný priemer vzorky.

    Distribúcia vzorových prostriedkov

    Rovnako ako v poslednom príklade, začnime s veľkosťou vzorky n = 5. Odoberie 500 vzoriek a potom pomocou histogramu vykreslí distribúciu vzoriek.

    Tento posledný príkaz vytvorí čiarový graf zobrazený na obrázku 9.

    Obrázok 9. Vytváranie grafov veľkosti n = 5 vybrané z diskrétnej distribúcie.

    Upozorňujeme, že rozdelenie vzorkových prostriedkov na obrázku 9 nie je normálne. Distribúcia je skutočne skreslená doľava. Dá sa to očakávať, pretože „rodičovská“ populácia je vysoko skreslená doľava a veľkosť vzorky, ktorú používame, je dosť malá. Poďme zväčšiť veľkosť vzorky a uvidíme, čo sa stane.

    Tento posledný príkaz vytvorí čiarový graf zobrazený na obrázku 10.

    Obrázok 10. Vytváranie grafov veľkosti n = 10 vybrané z diskrétnej distribúcie.

    Je tu trochu vylepšenia (začína to vyzerať trochu normálne), ale distribúcia vzorkových prostriedkov na obrázku 10 je stále skreslená doľava. Poďme zväčšiť veľkosť vzorky a uvidíme, čo sa stane.

    Tento posledný príkaz vytvorí čiarový graf zobrazený na obrázku 11.

    Obrázok 11. Vytváranie grafov veľkosti n = 20 vybrané z diskrétnej distribúcie.

    Distribúcia teraz nadobúda symery a „zvonový tvar“ normálneho rozdelenia. Poďme ešte raz zväčšiť veľkosť vzorky a uvidíme, čo sa stane.

    Tento posledný príkaz vytvorí čiarový graf zobrazený na obrázku 12.

    Obrázok 12. Vytváranie grafov veľkosti n = 30 vybrané z diskrétnej distribúcie.

    Histogram na obrázku 7 má symetrický tvar zvonu normálneho rozdelenia.

    Kľúčové pozorovanie: Zdá sa, že distribúcia vzoriek bude mať normálny tvar bez ohľadu na tvar „materskej“ populácie za predpokladu, že veľkosť vzorky je dostatočne veľká. Na obrázku 12 je veľkosť vzorky n = 30 sa zdalo byť dostatočné na to, aby sa zaručilo, že distribúcia vzoriek má normálny tvar, aj keď vzorky boli čerpané z diskrétneho rozdelenia, ktoré je vysoko skreslené doľava.

    Kľúčové pozorovanie: Histogram na obrázku 12 sa javí ako „vyvážený“ alebo „sústredený“ okolo xbar = 4,4. Naozaj:

    Tento priemer je rovnaký ako priemer „rodičovskej“ populácie (diskrétne rozdelenie na obrázku 7 so strednou hodnotou & mu = 4,4), z ktorej boli odobraté naše vzorky.

    Centrálna limitná veta

    Teraz sme v pozícii, aby sme mohli spresniť náš výrok o centrálnej limitnej vete.

    1. Ak čerpáte vzorky z distribúcie, potom je distribúcia vzorkových prostriedkov tiež normálna, za predpokladu, že sa použije dostatočne veľká veľkosť vzorky. Zdá sa, že to magické číslo pre dostatočnú veľkosť vzorky je n = 30. Poznámka: Z tohto dôvodu sa centrálna limitná veta často označuje ako „zákon veľkých čísel“.
    2. Priemerná distribúcia priemerov vzorky je rovnaká ako priemerná hodnota „rodičovskej populácie“, populácie, z ktorej sa vzorky odoberajú.
    3. Čím vyššia je veľkosť vzorky, ktorá sa nakreslí, tým „užšie“ bude rozšírenie distribúcie vzoriek.

    Toto tvrdenie o centrálnej limitnej vete stále nie je úplné. Stále musíme diskutovať o tom, ako sa štandardná odchýlka vzoriek líši s veľkosťou vzorky.Na túto otázku zaútočíme v neskoršej aktivite.

    Užite si to!

    Dúfame, že sa vám druhá aktivita v systéme Central Limit Theorem páčila. Odporúčame vám, aby ste ich preskúmali ďalej. Môžete skúsiť opakovať experimenty v tejto aktivite s rôznymi „nadradenými“ distribúciami.


    Pre kohokoľvek, kto študuje v odbore Data Science, Statistics alebo Machine Learning, to uvádza "Je potrebné vedieť, že Centrálna limitná veta (CLT)" je podhodnotenie. Najmä z pohľadu matematickej štatistiky je vo väčšine prípadov CLT tým, čo robí z obnovenia platného inferenčného pokrytia okolo odhadov parametrov prijateľný a riešiteľný problém.

    Existuje niekoľko článkov o strednej platforme týkajúcich sa CLT. Všimol som si však ani jeden článok (pokiaľ viem), ktorý by sa ponoril do matematiky vety, alebo dokonca správne špecifikoval predpoklady, za ktorých platí CLT. Z môjho pohľadu je to obrovská služba. Toto sú matematické základy, ktoré by mal poznať každý odborník v uvedených oblastiach.

    Nie je dôležité len pochopiť matematické základy, na ktorých sedí CLT, ale pochopiť podmienky, za ktorých CLT nie držať. Napríklad, ak máme sériu n i.i.d. Cauchyove distribuované RV, ich stredná stredná hodnota a stredná odchýlka priemeru štandardnej odchýlky nie konvergujú v distribúcii na štandardné normálne a CLT sa neuplatňuje, ak máme iba „múdro-mydlové a vlnité“ chápanie CLT, bolo by ťažké pochopiť vyššie uvedený Cauchyov príklad. Dúfam, že informácie v tomto článku môžu prekonať túto medzeru vo vedomostiach pre zainteresované strany.

    Tento článok je rozdelený do troch častí:

    1. CLT - matematická definícia (konkrétne Lindeberg – Lévy CLT), a prečo by nás to malo zaujímať?
    2. Matematické prípravy na preukázanie CLT
    3. Dôkaz CLT Lindeberg – Lévy

    Všimnite si, že Centrálna limitná veta nie je vlastne jedna veta, ale je to zoskupenie súvisiacich viet. Tieto vety sa spoliehajú na rôzne množiny predpokladov a obmedzení, ktoré platia. V tomto článku budeme osobitne pracovať prostredníctvom Lindeberg – Lévy CLT. Toto je najbežnejšia verzia CLT a je to konkrétna veta, na ktorú sa väčšina ľudí skutočne odvoláva, keď hovorovo odkazuje na CLT.


    5.2: Používanie centrálnej limitnej vety - matematika

    Jedna z najdôležitejších viet vo všetkých štatistikách sa nazýva Centrálna limitná veta alebo Zákon veľkých čísel. Zavedenie Centrálnej limitnej vety si vyžaduje preskúmanie množstva nových konceptov a zavedenie množstva nových príkazov v programovacom jazyku R. V dôsledku toho rozdelíme naše predstavenie Centrálnej limitnej vety na niekoľko častí.

    V tejto prvej časti úvodu do Centrálnej limitnej vety si ukážeme, ako nakresliť a vizualizovať vzorku náhodných čísel z distribúcie. Odtiaľ preskúmame strednú a štandardnú odchýlku vzorky a potom preskúmame distribúciu priemerov vzorky.

    Začneme tým, že sa naučíme kresliť náhodné čísla z distribúcie.

    Písmeno r & mdash kreslenie náhodných čísel

    V predchádzajúcich činnostiach (napr. Normálne rozdelenie a Kontinuálne rozdelenie) sme zaviedli použitie písmen d, p a q vo vzťahu k rôznym rozdeleniam (napr. Normálne, rovnomerné a exponenciálne). Nasleduje pripomenutie ich použitia:

    • „d“ je pre „hustotu“. Používa sa na vyhľadanie hodnôt funkcie hustoty pravdepodobnosti.
    • „p“ znamená „pravdepodobnosť“. Slúži na zistenie pravdepodobnosti náhodnej premennej leží vľavo daného čísla.
    • „q“ je pre „kvantil“. Používa sa na nájdenie kvantilov danej distribúcie.

    Existuje štvrté písmeno, a to „r“, ktoré sa používa na nakreslenie náhodných čísel z distribúcie. Takže napríklad runif a rexp by sa použilo na čerpanie náhodných čísel z jednotného a exponenciálneho rozdelenia.

    Použime rnorm príkaz náhodne nakresliť 500 čísel z normálneho rozdelenia so strednou hodnotou 100 a štandardnou odchýlkou ​​10.

    Môžeme si pozrieť výsledok, z ktorých niektoré sú uvedené nižšie.

    Keď skúmate čísla uložené v premennej X, existuje pocit, že vyťahujete náhodné čísla, ktoré sa zhromažďujú okolo priemeru 100. Histogram tohto výberu však poskytuje lepšie pochopenie údajov uložených v X.

    Vyššie uvedený príkaz vytvorí histogram zobrazený na obrázku 1.

    Postava 1. Histogram 500 náhodných čísel čerpaných z normálneho rozdelenia so strednou hodnotou 100 a štandardnou odchýlkou ​​10.

    Niekoľko komentárov je usporiadaných k histogramu na obrázku 1:

    1. Histogram má približne normálny tvar.
    2. „Bod vyváženia“ histogramu sa zdá byť umiestnený blízko 100, čo naznačuje, že náhodné čísla boli čerpané z distribúcie, ktorá má strednú hodnotu 100.
    3. Zdá sa, že takmer všetky hodnoty sa objavujú v 3 prírastkoch po 10 od priemeru, čo naznačuje, že náhodné čísla boli čerpané z distribúcie so štandardnou odchýlkou ​​10.

    Skúsme experiment znova a nakreslime novú sadu 500 náhodných čísel z normálneho rozdelenia so strednou hodnotou 100 a štandardnou odchýlkou ​​10.

    Tieto príkazy vytvárajú graf znázornený na obrázku 2.

    Obrázok 2. Druhé čerpanie 500 náhodných čísel z normálneho rozdelenia so strednou hodnotou 100 a štandardnou odchýlkou ​​10.

    Histogram na obrázku 2 sa líši od histogramu zobrazeného na obrázku 1 z dôvodu „náhodného“ výberu čísel. Zdieľa však niektoré spoločné znaky s histogramom znázorneným na obrázku 1: (1) tvar sa javí ako „normálny“, (2) tvar „vyvážený“ alebo „vycentrovaný“ okolo 100, a (3) všetky údaje. sa objaví v 3 prírastkoch 10 od priemeru. Toto je silný dôkaz, že náhodné čísla boli čerpané z normálneho rozdelenia majúceho strednú hodnotu 100 a štandardnú odchýlku 10. Ďalší dôkaz tohto tvrdenia môžeme poskytnúť superpozíciou funkcie normálnej hustoty pravdepodobnosti so strednou hodnotou 100 a štandardnou odchýlkou ​​10.

    Vyššie uvedený príkaz ukladá normálnu krivku znázornenú na obrázku 3.

    Obrázok 3. Preložte normálnu krivku so strednou hodnotou 100 a štandardnou odchýlkou ​​10.

    The krivka príkaz je nový. Niekoľko poznámok k jeho použitiu je v poradí:

    1. V najjednoduchšej podobe syntax krivka (f (x), od =, do =) nakreslí "funkciu" definovanú f (x) na intervale (od, do). Naša funkcia je dnorm (x, priemer = 100, sd = 10). Príkaz krivka načrtáva túto funkciu X na intervale (od, do).
    2. Zápis „od =“ a „do“ z druhej, potom hodnota z „do“ tretieho. To je to, čo sme urobili, a nahradili sme 70 „z“ a 130 za „do“.
    3. Ak je argument „pridať“ nastavený na hodnotu TRUE, ako sme to urobili my, potom sa krivka „pridá“ k existujúcemu obrázku. Ak je tento argument vynechaný alebo je nastavený na hodnotu FALSE, potom sa nakreslí nový graf, ktorý vymaže všetky predchádzajúce nakreslené obrázky.

    Distribúcia vzorových prostriedkov

    V našich predchádzajúcich príkladoch sme vytiahli 500 náhodných čísel z normálneho rozdelenia so strednou hodnotou 100 a štandardnou odchýlkou ​​10. Toto sa nazýva „nakreslenie vzorky veľkosti 500“ z normálneho rozdelenia so strednou hodnotou 100 a štandardnou odchýlkou ​​10. To vedie k vzorke 500 náhodných čísel. Jedna okamžitá otázka, ktorú si môžeme položiť, je „aký je priemer našej vzorky?“

    Priemer z tejto vzorky je teda 99,75439.

    Samozrejme, ak vezmeme ďalšiu vzorku 500 náhodných čísel z normálneho rozdelenia so strednou hodnotou 100 a štandardnou odchýlkou ​​10, dostaneme novú vzorku, ktorá má iný priemer.

    V tomto prípade máme novú vzorku 500 náhodne vybraných čísel a priemer tejto vzorky poskytuje iný výsledok, konkrétne 99,91978. Ďalšou otázkou, ktorú si treba položiť, je „čo sa stane, keď to urobíme opakovane?“

    Vytvorenie vektora vzorových prostriedkov

    V nasledujúcej aktivite budeme opakovane vzorkovať z normálneho rozdelenia. Každá vzorka vyberie päť náhodných čísel z normálneho rozdelenia so strednou hodnotou 100 a štandardnou odchýlkou ​​10. Potom nájdeme priemer piatich čísel v našej vzorke. Tento experiment zopakujeme 500 krát, pričom vzorové prostriedky zhromaždíme do vektora xbar ako ideme.

    Začneme deklaráciou priemeru a štandardnej odchýlky rozdelenia, z ktorých budeme čerpať náhodné čísla. Potom vyhlásime veľkosť vzorky (počet vyžrebovaných náhodných čísel).

    Zakaždým, keď nakreslíme vzorku veľkosti n = 5 z normálneho rozdelenia majúce priemer & mu = 100 a smerodajná odchýlka & sigma = 10, potrebujeme niekde uložiť priemer vzorky. Pretože máme v úmysle zozbierať prostriedky z 500 vzoriek, inicializujeme vektor xbar spočiatku obsahovať 500 núl.

    The rep príkaz "opakuje" zadanie 500 krát. Vo výsledku vektor xbar teraz obsahuje 500 záznamov, z ktorých každý je nulový.

    Je ľahké nakresliť vzorku veľkosti n = 5 z normálneho rozdelenia majúce priemer & mu = 100 a smerodajná odchýlka & sigma = 10. Jednoducho vydáme príkaz rnorm (n, priemer = mu, sd = sigma). Aby sme našli priemer tohto výsledku, jednoducho pridáme úpravu priemer (rnorm (n, priemer = mu, sd = sigma)). Posledným krokom je uloženie tohto výsledku do vektora xbar. Potom musíme ten istý postup zopakovať ďalších 499-krát, čo predstavuje celkovo 500 vzoriek. To si vyžaduje použitie a pre slučka.

    The pre konštrukcia použitá v R je podobná konštrukcii „for loops“ použitej v mnohých programovacích jazykoch.

    • The i v pre (i v 1: 500) sa nazýva index cyklu „pre“.
    • Index i je najskôr nastavené na 1, potom sa vykoná „telo“ cyklu „for“ (časť medzi zloženými zátvorkami). Pri ďalšej iterácii i je nastavené na hodnotu 2 a telo slučky sa vykoná znova. Smyčka pokračuje týmto spôsobom a zvyšuje index i o 1, konečne nastavenie indexu i na 500, pri ktorom sa telo slučky vykoná naposledy. Potom sa ukončí cyklus „for“.
    • V tele slučky „pre“ máme xbar [i] = priemer (rnorm (n, priemer = mu, sd = sigma)). Týmto sa nakreslí vzorka veľkosti n = 5 z normálneho rozdelenia vypočíta priemer vzorky a výsledok uloží do xbar [i], i-tý záznam xbar.
    • Keď "pre cyklus" dokončí 500 iterácií, vektor xbar obsahuje prostriedky na 500 vzoriek veľkosti n = 5 čerpané z normálneho rozdelenia majúce priemer & mu = 100 a smerodajná odchýlka & sigma = 10.

    Je to jednoduchá úloha, načrtnúť histogram vzorových prostriedkov obsiahnutých vo vektore xbar.

    Vyššie uvedený príkaz vytvorí histogram zobrazený na obrázku 4.

    Obrázok 4. Histogram vzorky znamená.

    Existuje niekoľko dôležitých pozorovaní týkajúcich sa histogramu vzorkovacích prostriedkov na obrázku 4, najmä keď sa porovnáva s histogramami na obrázkoch 2 a 3.

    1. Je potrebné si všimnúť štítky na vodorovnej osi. Na obrázkoch 2 a 3 je štítok X. Je to tak preto, lebo histogramy na obrázkoch 2 a 3 jednoducho popisujú tvar 500 náhodných čísel vybraných z normálneho rozdelenia so strednou hodnotou & mu = 100 a smerodajná odchýlka & sigma = 10. Na druhej strane histogram na obrázku 4 popisuje distribúciu 500 vzorové prostriedky, z ktorých každý bol nájdený výberom n = 5 čísla z normálneho rozdelenia s priemerom & mu = 100 a smerodajná odchýlka & sigma = 10, potom sa počíta ich priemer (priemer). Vodorovná os na obrázku 4 zdôrazňuje túto skutočnosť so štítkom xbar.
    2. Je dôležité si uvedomiť, že distribúcia xbar na obrázku 4 sa javí ako „normálny“ tvar. A to aj napriek tomu, že veľkosť vzorky je pomerne malá (n = 5).
    3. Zdá sa, že „rovnovážny bod“ alebo „stred“ distribúcie na obrázku 4 sa vyskytuje blízko 100. Toto je možné skontrolovať nasledujúcim príkazom:

    Zväčšenie veľkosti vzorky

    Zopakujme si posledný experiment, ale tentokrát nakreslime vzorky o veľkosti n = 10 z rovnakej „rodičovskej populácie“, pričom normálne rozdelenie má priemer & mu = 100 a smerodajná odchýlka & sigma = 10.

    Vyššie uvedené príkazy vytvárajú histogram na obrázku 5.

    Obrázok 5. Zväčšenie veľkosti vzorky zmenší šírenie.

    Obrázok na obrázku 5 osvetľuje tri kľúčové myšlienky:

    Kľúčová myšlienka: Keď vyberáme vzorky z normálneho rozdelenia, potom distribúcia vzorkových prostriedkov má tiež tvar „normálneho“ tvaru.

    Kľúčová myšlienka: Zdá sa, že priemer distribúcie priemerov vzorky je rovnaký ako priemer „rodičovskej populácie“, z ktorej sme vybrali naše vzorky (pozri „bod rovnováhy“ alebo „stred“ na obrázku 5). Toto sa dá ľahko skontrolovať.

    Kľúčová myšlienka: Zväčšením veľkosti našich vzoriek (n = 10), histogram prostriedkov vzorky sa stáva „menej rozloženým“ alebo „užším“, čo je zreteľne vidieť pri porovnávaní rozloženia histogramov na obrázkoch 4 a 5. Toto správanie (zväčšenie veľkosti vzorky zmenší rozloženie) sa javí ako celkom rozumné . Očakávame presnejší odhad priemeru rodičovskej populácie, ak vezmeme priemer z väčšej veľkosti vzorky. Napríklad máte lepšiu šancu odhadnúť priemernú výšku študentskej populácie na škole, ak sa ich výšky a priemeru spýtate desiatich študentov, ako keby ste sa spýtali na priemernú výšku a iba na päť študentov.

    Centrálna limitná veta

    Končíme výrokom o Centrálnej limitnej vete.

    1. Ak čerpáte vzorky z normálneho rozloženia, potom je rozloženie vzorkových prostriedkov tiež normálne.
    2. Priemerná distribúcia priemerov vzorky je rovnaká ako priemerná hodnota „rodičovskej populácie“, populácie, z ktorej sa vzorky odoberajú.
    3. Čím vyššia je veľkosť vzorky, ktorá sa nakreslí, tým „užšie“ bude rozšírenie distribúcie vzoriek.

    Toto vyhlásenie o centrálnej limitnej vete nie je úplné. Toto vyhlásenie doplníme v ďalších činnostiach.

    Užite si to!

    Dúfame, že vás úvod do systému Central Limit Theorem potešil. Odporúčame vám, aby ste ich preskúmali ďalej. Môžete skúsiť opakovať experimenty uvedené v tejto aktivite s veľkosťami vzoriek n = 15, 20a 25.


    Štúdia zahŕňajúca stres sa uskutočňuje medzi študentmi na univerzitnom kampuse. Stresové skóre sa riadi rovnomerným rozdelením s najnižším skóre stresu rovným jednej a najvyšším skóre päť. Na vzorke 75 študentov nájdite:

    1. Pravdepodobnosť, že stredné skóre stresu pre 75 študentov je menej ako dvaja.
    2. 90. percentil pre stredné skóre stresu pre 75 študentov.
    3. Pravdepodobnosť, že celkovo 75 stresových skóre je menej ako 200.
    4. 90. percentil pre skóre celkového stresu pre 75 študentov.

    Problémy a a b vás požiadajú, aby ste našli pravdepodobnosť alebo percentil pre a znamenajú. Problémy ca ad požadujú, aby ste našli pravdepodobnosť alebo percentil pre a súčet alebo súčet. Veľkosť vzorky, n, sa rovná 75.

    Pretože jednotlivé stresové skóre sledujú rovnomerné rozloženie,
    X

    Pri problémoch 1. a 2. nechajte [latex] displaystyleoverline[/ latex] = priemerné stresové skóre pre 75 študentov. Potom,

    Príklad

    1. Nájdite P ([latex] displaystyleoverline< normalcdf [latex]displaystyle<(<1>,<2>,<3>,frac<<1.15>>>>)> = <0> [/ latex]
      Pamätaj že najmenšie stresové skóre je jedno.

    90. percentil pre priemer 75 skóre je asi 3,2. To nám hovorí, že 90% všetkých priemerných hodnôt 75 stresových skóre je najviac 3,2 a že 10% je najmenej 3,2. invNorm Pre problémy cad, nech
    ΣX = súčet 75 stresových skóre. Potom [latex] displaystylesum<[<(<75>)> <(<3>)>, <(sqrt <<75>>)> <(<1,15>)>]> [/ latex]

    3. Priemer súčtu 75 stresových skóre je (75) (3) = 225 Štandardná odchýlka súčtu 75 stresových skóre je
    [latex] displaystyle <(sqrt <<75>>)> [/ latex] (1,15) = 9,96
    P(Σx & lt 200) = 0

    Pravdepodobnosť, že celkovo je 75 bodov menej ako 200, je približne nulová. normalcdf (75,200, (75) (3), [latex] displaystyle <(sqrt <<75>>)> [/ latex] (1,15)).
    Pamätaj, najmenšie celkové skóre 75 stresu je 75, pretože najmenšie jednotlivé skóre je jedno.

    90. percentil pre súčet 75 skóre je asi 237,8. To nám hovorí, že 90% všetkých súčtov skóre 75 nie je viac ako 237,8 a 10% nie je menej ako 237,8. invNorm (0,90, (75) (3), [latex] displaystyle <(sqrt <<75>>)> [/ latex] (1,15)) = 237,8

    Skús to

    Použite informácie v & # 8220 Centrálnej limitnej vete pre príklady strednej a súčtu & # 8220, ale na zodpovedanie nasledujúcich otázok použite veľkosť vzorky 55.

    1. Nájdite [latex] displaystyle

      <(nadčiarknuť <> <> <170>)> [/ latex].

    2. Nájdite 80. percentil pre priemer 55 skóre.
    3. Nájdite 85. percentil pre súčet 55 skóre.

    Príklad

    Predpokladajme, že analytik prieskumu trhu pre spoločnosť zaoberajúcu sa mobilnými telefónmi vykoná štúdiu o svojich zákazníkoch, ktorí prekročia časovú dotáciu uvedenú v ich základnej zmluve o mobilnom telefóne, analytik zistí, že pre tých ľudí, ktorí prekročia čas zahrnutý v ich základnej zmluve, použitý nadbytočný čas nasleduje an exponenciálne rozdelenie v priemere 22 minút.

    Zvážte náhodnú vzorku 80 zákazníkov, ktorí prekročili časovú dotáciu uvedenú v ich základnej zmluve o mobilnom telefóne.

    Poďme X = nadbytočný čas používaný jedným INDIVIDUÁLNYM zákazníkom mobilného telefónu, ktorý presahuje zmluvne dohodnutú časovú dotáciu.

    [latex] zobrazovací štýl

    <(frac <<1>> <<22>>)> [/ latex]. Z predchádzajúcich kapitol to vieme μ = 22 a σ = 22.

    Nechajte [latex] displaystyleoverline <> [/ latex] = priemerný nadbytočný čas použitý vzorkou n = 80 zákazníkov, ktorí prekročia zmluvne dohodnutú časovú dotáciu.

    [latex] displaystyleoverline <><(<22>, frac <<22>> <>>>)> [/ latex] centrálnou limitnou vetou pre vzorové prostriedky

    1. Pomocou CLT na nájdenie pravdepodobnosti. Zistite pravdepodobnosť, že priemerný nadbytočný čas použitý 80 zákazníkmi vo vzorke je dlhší ako 20 minút. Toto nás žiada, aby sme našli [latex] displaystyle

      <(nadčiarknuť <> <>> <20>)> [/ latex]. Nakreslite graf.

    2. Pomocou CLT na zistenie pravdepodobnosti. Predpokladajme, že je náhodne vybraný jeden zákazník, ktorý prekročí časový limit pre svoj kontrakt na mobilný telefón. Nájdite pravdepodobnosť, že predĺženie tohto konkrétneho zákazníka je dlhšie ako 20 minút. To nás žiada, aby sme našli P(X & gt 20).
    3. Pomocou CLT na nájdenie pravdepodobnosti. Vysvetlite, prečo sú pravdepodobnosti v častiach 1 a 2 rôzne.
    4. Pomocou príkazu clt nájdite percentily. Nájdite 95. percentil pre vzorku, ktorý predstavuje stredný nadbytočný čas pre vzorky 80 zákazníkov, ktorí prekročili svoje základné zmluvné časové úľavy. Nakreslite graf.
    1. Nájsť: [latex] displaystyle

      <(nadčiarknuť <> <>> <20>)> [/ latex] [latex] zobrazovací štýl

      <(nadčiarknuť <> <>> <20>)> = <0,79199> [/ latex] pomocou normalcdf
      [latex] displaystyle <(<20>, <1> text, <22>, frac <<22>>>>)> [/ latex] Pravdepodobnosť 0,7919 je, že priemerný použitý nadbytočný čas je viac ako 20 minút pre vzorku 80 zákazníkov, ktorí prekročili zmluvnú časovú dotáciu. invNorm = 26,0

    95. percentil pre použitý priemerný nadbytočný čas je asi 26,0 minút pre náhodné vzorky 80 zákazníkov, ktorí prekročia zmluvne povolený čas. Deväťdesiatpäť percent z týchto vzoriek by malo prostriedky pod 26 minút, iba päť percent z týchto vzoriek by malo prostriedky nad 26 minút.

    Skús to

    Použite informácie z príkladu 2, ale zmeňte veľkosť vzorky na 144.

    1. Nájdite [latex] displaystyle

      <(<20>

    2. Pomocou zrovnica skóre, [latex] zobrazovací štýl= frac <<>-_<>>>><<_<>>>> [/ latex]. Riešenie pre x, máme X = 2(0.05) + 2 = 2.1
    3. The IQR je 75. percentil - 25. percentil = 203,37 - 196,63 = 6,74

    Skús to

    Na základe údajov z Národného prieskumu zdravia majú ženy vo veku od [latex] 18 [/ latex] do [latex] 24 [/ latex] priemerný systolický krvný tlak (v mm Hg) [latex] 114,8 [/ latex ] so štandardnou odchýlkou ​​[latex] 13,1 [/ latex]. Systolický krvný tlak u žien vo veku od [latex] 18 [/ latex] do [latex] 24 [/ latex] sa riadi normálnym rozdelením.

    1. Ak je náhodne vybraná jedna žena z tejto populácie, nájdite pravdepodobnosť, že jej systolický krvný tlak je vyšší ako [latex] 120 [/ latex].
    2. Ak je náhodne vybraných [latex] 40 [/ latex] žien z tejto populácie, nájdite pravdepodobnosť, že ich stredný systolický krvný tlak je vyšší ako [latex] 120 [/ latex].
    3. Ak išlo o vzorku štyroch žien vo veku od [latexu] 18 [/ latex] do [latex] 24 [/ latex] a nepoznali by sme pôvodné rozdelenie, mohla by sa použiť centrálna limitná veta?
    1. P(X & gt 120) = normalcdf (120,99 114,8,13,1) = 0,0272. Existuje asi 3%, že náhodne vybraná žena bude mať systolický krvný tlak vyšší ako [latex] 120 [/ latex].
    2. P(& gt 120) = normalcdf.
      Existuje iba 0,6% šanca, že priemerný systolický krvný tlak pre náhodne vybranú skupinu je vyšší ako [latex] 120 [/ latex].
    3. Centrálnu limitnú vetu nebolo možné použiť, ak by veľkosť vzorky bola štyri a nevedeli sme, že pôvodné rozdelenie je normálne. Veľkosť vzorky by bola príliš malá.

    Príklad

    Uskutočnila sa štúdia o násilí páchanom na prostitútkach a o príznakoch posttraumatického stresu, ktorý sa u nich prejavil. Vekové rozpätie prostitútok bolo 14 až 61 rokov. Priemerný vek bol 30,9 roka so štandardnou odchýlkou ​​deväť rokov.

    1. Aká je pravdepodobnosť, že je priemerný vek prostitútok na vzorke 25 prostitútok menej ako 35?
    2. Je pravdepodobné, že priemerný vek výberovej skupiny môže byť viac ako 50 rokov? Interpretujte výsledky.
    3. Aká je pravdepodobnosť, že na vzorke 49 prostitútok bude súčet vekov najmenej 1 600?
    4. Je pravdepodobné, že súčet vekových skupín 49 prostitútok je najviac 1 595? Interpretujte výsledky.
    5. Nájdite 95. percentil pre priemerný vek vzorky 65 prostitútok. Interpretujte výsledky.
    6. Nájdite 90. percentil pre súčet vekových skupín 65 65 prostitútok. Interpretujte výsledky.
    1. P(& lt 35) = normalcdf (-E99,35,30.9,1.8) = 0.9886
    2. P(& gt 50) = normalcdf (50, E99,30,9,1,8) ≈ 0. Pre túto skupinu vzoriek je takmer nemožné, aby priemerný vek skupiny bol viac ako 50. Je však stále možné, aby jednotlivec v tejto skupine mal vek vyšší ako 50 rokov .
    3. P(Σx ≥ 1600) = normalcdf (1600, E99,1514,10,63) = 0,0864
    4. P(Σx ≤ 1 595) = normalcdf (-E99 1595 1514 10,63) = 0,9005. To znamená, že existuje 90% pravdepodobnosť, že súčet vekov pre skupinu vzoriek n = 49 je najviac 1595.
    5. 95. percentil = invNorm (0,95,30,9,1,1) = 32,7. To naznačuje, že 95% prostitútok vo vzorke 65 osôb je v priemere mladších ako 32,7 rokov.
    6. 90. percentil = invNorm (0,90,2008,5,72,56) = 2101,5. To naznačuje, že 90% prostitútok vo vzorke 65 osôb má súčet vekov menej ako 2 101,5 roka.

    Skús to

    Podľa údajov spoločnosti Boeing dopravné lietadlo 757 prepravuje 200 cestujúcich a má dvere so strednou výškou 72 palcov. Predpokladajme, že pre určitú populáciu mužov máme priemer 69,0 palca a štandardnú odchýlku 2,8 palca.

    1. Čo znamená priemerná výška dverí, ktorá by umožnila 95% mužov vstúpiť do lietadla bez ohýbania?
    2. Predpokladajme, že polovica z 200 cestujúcich sú muži. Aká priemerná výška dverí spĺňa podmienku s pravdepodobnosťou 0,95, že je táto výška vyššia ako priemerná výška 100 mužov?
    3. Pre inžinierov navrhujúcich model 757 je ktorý výsledok relevantnejší: výška od časti 1 alebo časti 2? Prečo?
    4. My to vieme μX = μ = 69 a máme σX = 2,8. Zistilo sa, že výška dverí je invNorm (0,95,69,2,8) = 73,61
    5. My to vieme μX = μ = 69 a máme σX = 0,28. Takže invNorm (0,95,69,0,28) = 69,49
    6. Pri navrhovaní výšky dverí je potrebné zohľadniť čo najväčšiu variabilitu, aby sa do nej zmestilo čo najviac cestujúcich. Preto musíme použiť výsledok založený na časti 1.

    Historická poznámka: Normálna aproximácia k binomickému číslu

    Historicky bola schopnosť vypočítať binomické pravdepodobnosti jednou z najdôležitejších aplikácií centrálnej limitnej vety. Binomické pravdepodobnosti s malou hodnotou pre n(povedzme, 20) boli zobrazené v tabuľke v knihe. Na výpočet pravdepodobností s veľkými hodnotami n, museli ste použiť binomický vzorec, ktorý by mohol byť veľmi komplikovaný. Pomocou normálna aproximácia k binomickému distribúcia zjednodušila postup. Na výpočet normálnej aproximácie k binomickému rozdeleniu odoberte z populácie jednoduchú náhodnú vzorku. Musíte splniť podmienky pre a binomické rozdelenie:

    • existuje určitý počet n nezávislých súdnych konaní
    • výsledkom akejkoľvek skúšky je úspech alebo neúspech
    • každá skúška má rovnakú pravdepodobnosť úspechu p

    Pripomeňme, že ak X je potom binomická náhodná premenná X

    B(n, str). Tvar binomického rozdelenia musí byť podobný tvaru normálneho rozdelenia. Aby sa to zabezpečilo, množstvá np a nq musia byť obidve väčšie ako päť (np & gt 5 a nq & gt 5 je aproximácia lepšia, ak sú obidve väčšie alebo rovné 10). Potom je možné binomický aproximovať normálnym rozdelením so strednou hodnotou μ = np a smerodajná odchýlka. Zapamätaj si to q = 1 – p. Ak chcete získať najlepšiu aproximáciu, pridajte 0,5 do X alebo odčítať 0,5 od X (použitie X + 0,5 alebo X - 0,5). Číslo 0,5 sa nazýva korekčný faktor spojitosti a používa sa v nasledujúcom príklade.

    Príklad

    Predpokladajme, že v miestnej materskej škole v školskom obvode 12. ročníka (K & # 8211 12) dáva 53 percent populácie prednosť charterovej škole pre ročníky K až 5. Prieskumuje sa jednoduchá náhodná vzorka 300.

    1. Nájdite pravdepodobnosť, že najmenej 150 uprednostniť charterovú školu.
    2. Nájdite pravdepodobnosť, že najviac 160 uprednostniť charterovú školu.
    3. Nájdite pravdepodobnosť, že viac ako 155 uprednostniť charterovú školu.
    4. Nájdite pravdepodobnosť, že menej ako 147 uprednostniť charterovú školu.
    5. Nájdite pravdepodobnosť že presne 175 uprednostniť charterovú školu.

    Poďme X = počet, ktorý uprednostňuje charterovú školu pre ročníky K cez 5. stupeň. X

    B(n, str) kde n = 300 a p = 0,53. Odkedy np & gt 5 a nq & gt 5, použite normálnu aproximáciu na dvojčlen. Vzorce pre strednú hodnotu a štandardnú odchýlku sú μ = np a. Priemer je 159 a štandardná odchýlka je 8,6447. Náhodná premenná pre normálne rozdelenie je Y.. Y.

    Pre časť a vy zahrňte 150 tak P(X ≥ 150) má normálnu aproximáciu P(Y. ≥ 149.5) = 0.8641.

    normalcdf (149,5,10 ^ 99,159,8,6447) = 0,8641.

    Pre časť b vy zahrnúť 160 tak P(X ≤ 160) má normálnu aproximáciu P(Y. ≤ 160.5) = 0.5689.

    normalcdf (0,160,5,159,8,6447) = 0,5689

    Pre časť c vy vylúčiť 155 tak P(X & gt 155) má normálnu aproximáciu P(r & gt 155,5) = 0,6572.

    normalcdf (155,5,10 ^ 99,159,8,6447) = 0,6572.

    Pre časť d vy vylúčiť 147 tak P(X & lt 147) má normálnu aproximáciuP(Y. & lt 146,5) = 0,0741.

    normalcdf (0,146,5 159,8,6447) = 0,0741

    Pre časť e P(X = 175) má normálnu aproximáciu P(174,5 & lt Y. & lt 175,5) = 0,0083.

    normalcdf (174,5 175,5 159,8,6447) = 0,0083

    Kvôli kalkulačkám a počítačovému softvéru, ktorý vám umožňuje vypočítať binomické pravdepodobnosti pre veľké hodnoty n ľahko nie je potrebné používať normálnu aproximáciu k binomickému rozdeleniu za predpokladu, že máte prístup k týmto technologickým nástrojom. Väčšina školských laboratórií má program Microsoft Excel, príklad počítačového softvéru, ktorý počíta binomické pravdepodobnosti. Mnoho študentov má prístup k kalkulačkám série TI-83 alebo 84 a ľahko vypočítajú pravdepodobnosti binomického rozdelenia. Ak v internetovom prehliadači zadáte výpočet # 8220binomiálneho rozdelenia pravdepodobnosti & # 8221, môžete nájsť aspoň jednu online kalkulačku pre dvojčlen.

    V príklade 3 sa pravdepodobnosti počítajú pomocou nasledujúceho binomického rozdelenia: ( n = 300 a p = 0,53). Porovnajte binomické a normálne rozdelenie odpovedí.

    P(X ≥ 150): 1 - binomialcdf (300 0,53 149) = 0,8641

    P(X ≤ 160): binomialcdf (300,0,53,160) = 0,5684

    P(X & gt 155): 1 - binomialcdf (300,0,53,155) = 0,6576

    P(X & lt 147): binomialcdf (300,0,53,146) = 0,0742

    P(X = 175): (Používate binomický formát pdf.) Binomialpdf (300,0,53,175) = 0,0083

    Skús to

    V meste 46 percent obyvateľov uprednostňuje súčasného starostu Dawn Morgana. Odoberá sa jednoduchá náhodná vzorka 500. Pomocou korekčného faktora kontinuity nájdite pravdepodobnosť, že najmenej 250 uprednostňuje Dawn Morgan pre starostu.


    5.2: Centrálna limitná veta pre vzorové prostriedky

    • Prispeli Alexander Holms, Barbara Illowsky a zosilňovač Susan Dean
    • Podnikateľská štatistika na University of Oklahoma & amp De Anza College
    • Zdroj od OpenStax

    Distribúcia vzorkovania je teoretická distribúcia. Vytvára sa odobratím mnohých vzoriek veľkosti (n ) z populácie. S každou strednou vzorkou sa potom zaobchádza ako s jedným pozorovaním tejto novej distribúcie, vzorkovej distribúcie. Génius myslenia týmto spôsobom je, že si uvedomuje, že keď vyberáme vzorku, vytvárame pozorovanie, ktoré musí pochádzať z nejakej konkrétnej distribúcie. Centrálna limitná veta odpovedá na otázku: z akého rozdelenia pochádzala vzorka? Ak sa to zistí, potom môžeme so strednou vzorkou zaobchádzať ako s akýmkoľvek iným pozorovaním a vypočítať pravdepodobnosti, aké hodnoty môže získať. Účinne sme prešli zo sveta štatistík, kde zo vzorky vieme iba to, čo máme, do sveta pravdepodobnosti, kde poznáme rozdelenie, z ktorého vyšiel priemer vzorky, a parametre tohto rozdelenia.

    Dôvody, ktoré slúžia na vzorkovanie populácie, sú zrejmé. Čas a náklady na kontrolu každej faktúry s cieľom zistiť jej platnosť alebo na každú zásielku, aby sa zistilo, či obsahuje všetky položky, môžu výrazne presiahnuť náklady na chyby pri fakturácii alebo preprave. U niektorých výrobkov by vzorkovanie vyžadovalo ich zničenie, ktoré sa nazýva deštruktívny odber vzoriek. Jedným z takýchto príkladov je meranie schopnosti kovu odolávať korózii slanou vodou pre časti na zaoceánskych lodiach.

    Odber vzoriek teda vyvoláva dôležitú otázku, ktorá vzorka bola odobratá. Aj keď bola vzorka náhodne odobratá, existuje teoreticky takmer nekonečné množstvo vzoriek. S iba 100 položkami je možné nakresliť viac ako 75 miliónov jedinečných vzoriek veľkosti päť. Ak je vo vzorke šesť, počet možných vzoriek sa zvýši na iba viac ako jednu miliardu. Ktorú z tých 75 miliónov možných vzoriek ste dostali? Ak sa vyskytnú odchýlky v položkách, z ktorých sa majú odobrať vzorky, budú sa vyskytnúť odchýlky vo vzorkách. Dalo by sa nakresliť „nešťastnú“ vzorku a urobiť veľmi nesprávne závery týkajúce sa populácie. Toto uznanie, že každá vzorka, ktorú nakreslíme, je v skutočnosti iba jednou z distribúcie vzoriek, nám poskytuje pravdepodobne najdôležitejšiu vetu - štatistiku: centrálna limitná veta. Bez Centrálnej limitnej vety by bolo nemožné pristúpiť k inferenčnej štatistike z jednoduchej teórie pravdepodobnosti. Vo svojej najzákladnejšej podobe to uvádza Central Limit Theorem bez ohľadu na to základnej funkcie hustoty pravdepodobnosti údajov o populácii bude teoreticky rozdelené priemery vzoriek z populácie normálne rozdelené. V podstate to hovorí, že so stredom vzorky by sa malo zaobchádzať ako s pozorovaním vyvodeným z normálneho rozdelenia. Centrálna limitná veta platí iba vtedy, ak je veľkosť vzorky & quot; a dostatočne dostatočne & quot ;, ktorá sa ukázala ako iba 30 a viac pozorovaní.

    Obrázok 5.2 graficky zobrazuje túto veľmi dôležitú tézu.

    Obrázok 5.2

    Všimnite si, že vodorovná os v hornom paneli je označená (X ). Toto sú jednotlivé pozorovania obyvateľstva. To je neznámy rozloženie hodnôt populácie. Graf je cielene vykreslený úplne zakrúžkovane, aby ukázal, že nezáleží na tom, aká zvláštna guľa to v skutočnosti je. Pamätajte, že sa nikdy nedozvieme, ako vyzerá táto distribúcia, ani jej priemerná alebo štandardná odchýlka.

    Vodorovná os v dolnom paneli je označená ( overline). Toto je teoretické rozdelenie, ktoré sa nazýva vzorkovanie. Každé pozorovanie tejto distribúcie je priemerom vzorky. Všetky tieto priemerné hodnoty vzorky boli vypočítané z jednotlivých vzoriek s rovnakou veľkosťou vzorky. Teoretické rozdelenie vzoriek obsahuje všetky priemerné hodnoty vzorky zo všetkých možných vzoriek, ktoré bolo možné odobrať z populácie. Samozrejme, nikto by nikdy neodobral všetky tieto vzorky, ale ak by to urobil, vyzeral by takto. A Centrálna limitná veta hovorí, že budú normálne distribuované.

    Centrálna limitná veta zachádza ešte ďalej a hovorí nám o strednej a štandardnej odchýlke tohto teoretického rozdelenia.

    Tabuľka 5.1
    Parameter Rozdelenie obyvateľstva Ukážka Rozdelenie vzoriek ( overline) s
    Zlý ( mu ) ( overline) ( mu _ < overline> text mathrm left ( mu _ < overline> right) = mu )
    Štandardná odchýlka ( sigma ) (s ) ( sigma _ < overline> = frac < sigma> < sqrt>)

    Praktický význam The Central Limit Theorem je, že teraz môžeme vypočítať pravdepodobnosti pre nakreslenie vzorového priemeru, ( overline), rovnakým spôsobom, ako sme to urobili pri kreslení konkrétnych pozorovaní (X ), keď sme vedeli populačný priemer a smerodajnú odchýlku a že populačné údaje boli normálne distribuované. Štandardizačný vzorec je potrebné zmeniť uznať, že stredná a štandardná odchýlka distribúcie vzorkovania, ktorá sa niekedy nazýva štandardná chyba priemeru, sa líši od strednej a štandardnej odchýlky distribúcie vzorky, ale inak sa nič nezmenilo. Nový štandardizačný vzorec je

    Všimnite si, že ( mu _ < overline> ) v prvom vzorci bolo zmenené na jednoducho ( mu ) v druhej verzii. Dôvod je ten, že matematicky je možné preukázať, že očakávaná hodnota ( mu _ < overline> ) sa rovná ( mu ). Toto bolo uvedené v tabuľke 5.1 vyššie. Matematicky symbol (E (x) ) načítal & ldquoočakávanú hodnotu (x ) & rdquo. Tento vzorec sa použije v nasledujúcej jednotke na poskytnutie odhadov neznámy populačný parameter ( mu ).


    Diskusia

    Štandardná odchýlka vzorkových prostriedkov sa nazýva štandardná chyba, príp štandardná chyba prostriedkov. Toto sa počíta ako s / n, ktoré bude vždy menšie ako s, pretože n je vždy väčšie ako 1. Ako n sa zvyšuje, tak sa s zmenšuje - inými slovami, rozpätie sa zmenšuje. Je to spôsobené „regresiou k priemeru“, kde vysoké (alebo nízke) skóre, ktoré by spôsobilo väčšie rozpätie, sú zrušené inými skóre vo vzorke, ktoré sú nízke (alebo vysoké).

    Zväčšenie veľkosti vzorky tak rýchlo zníži chybu vzorky.

    Pretože je zaistená normálna distribučná krivka, znamená to, že môžete použiť štandardnú odchýlku priemerov na presné odhady pravdepodobnosti, že ktorákoľvek časť meraní spadá do daného rozsahu meraní.

    Pre jednu vzorku možno štandardnú chybu priemeru vypočítať ako štandardnú odchýlku vzorky vydelenú druhou odmocninou veľkosti vzorky.


    Pozri si video: Pravděpodobnost 5 - Úloha rytíře de Méré, zákon velkých čísel (December 2021).