Články

2.5: Regresia


Už v texte sme videli príklady, kedy sa lineárne a kvadratické funkcie používajú na modelovanie širokej škály javov reálneho sveta od výrobných nákladov až po výšku projektilu nad zemou. V tejto časti používame niektoré základné nástroje zo štatistickej analýzy na kvantifikáciu lineárnych a kvadratických trendov, ktoré môžeme vidieť v dátach zo skutočného sveta, aby sme mohli generovať lineárne a kvadratické modely. Naším cieľom je poskytnúť čitateľovi pochopenie základných procesov, ktoré s tým súvisia, ale rýchlo ho odkážeme na pokročilejší kurz na získanie úplnej expozície tohto materiálu. Predpokladajme, že sme zhromaždili tri dátové body: ( {(1,2), (3,1), (4,3) } ). Vynesením týchto bodov jasne vidíme, že neležia na rovnakej línii. Ak vyberieme ktorékoľvek z dvoch bodov, môžeme nájsť čiaru obsahujúcu oba, ktorá úplne míňa tretí, ale naším cieľom je nájsť čiaru, ktorá je v určitom zmysle „blízko“ všetkým bodom, aj keď nemusí prechádzať žiadnym z nich. Spôsob, akým v tomto prípade meriame „blízkosť“, je nájsť celková štvorcová chyba medzi údajovými bodmi a čiarou. Zvážte naše tri dátové body a priamku (y = frac {1} {2} x + frac {1} {2} ). Pre každý z našich údajových bodov nájdeme vertikálnu vzdialenosť medzi bodom a priamkou. Aby sme to dosiahli, musíme nájsť bod na priamke priamo nad alebo pod každým údajovým bodom - inými slovami bod na priamke s rovnakými (x ) - súradnicami ako náš údajový bod. Napríklad aby sme našli bod na priamke priamo pod ((1,2) ), zapojíme (x = 1 ) do (y = frac {1} {2} x + frac {1 } {2} ) a dostaneme bod ((1,1) ). Podobne dostaneme ((3,1) ), ktoré zodpovedá ((3,2) ) a ( left (4, frac {5} {2} right) ) pre (( 4,3) ).

Celkovú štvorcovú chybu (E ) zistíme tak, že vezmeme súčet druhých mocnín rozdielov (y ) - súradníc každého údajového bodu a jeho zodpovedajúceho bodu na priamke. Pre údaje a riadok vyššie (E = (2-1) ^ 2 + (1-2) ^ 2 + vľavo (3- frac {5} {2} vpravo) ^ 2 = frac {9} {4} ). Pomocou pokročilých matematických mechanizmov (konkrétne Calculus a Linear Algebra) je možné nájsť čiaru, ktorá vedie k najnižšej hodnote (E ). Tento riadok sa nazýva regresná priamka najmenších štvorcov, alebo niekedy „čiara najlepšieho prispôsobenia“. Vzorec pre riadok najlepšieho prispôsobenia vyžaduje notáciu, ktorú predstavíme až v kapitole 9, takže sa k nej potom vrátime. Tu nám môže pomôcť grafická kalkulačka, pretože má zabudovanú funkciu na výpočet regresnej čiary. Zadáme údaje a vykonáme funkciu lineárnej regresie a dostaneme

Kalkulačka nám hovorí, že najlepšie vyhovujúca priamka je (y = os + b ), kde sklon je (a približne 0,214 ) a (y ) - súradnica (y ) - úsečka je (b približne 1 428 ). (Pri aproximácii sa budeme držať troch desatinných miest.) Pomocou tohto riadku vypočítame celkovú druhú chybu našich údajov, ktoré majú byť (E približne 1,786 ). Hodnota (r ) je korelačný koeficient a je mierou toho, ako blízko sú údaje k tomu, aby boli na rovnakom riadku. Čím bližšie (| r | ) je k (1 ), tým lepšie bude lineárne uloženie. Pretože (r približne 0,327 ), toto nám hovorí, že riadok najlepšieho prispôsobenia sa nehodí až tak dobre - inými slovami, naše údajové body nie sú takmer lineárne. Hodnota (r ^ 2 ) sa nazýva koeficient determinácie a je tiež mierou dobrej kondície. poznámka pod čiarou {Odkážeme zainteresovaného čitateľa na kurz v štatistike, aby sme preskúmali význam (r ) a (r ^ 2 ).} Vynesenie údajov s ich regresiou riadok má za následok obrázok nižšie.

Náš prvý príklad sa zameriava na spotrebu energie v USA za posledných 50 rokov.

[ begin {pole} {| c | c |} hline mbox {rok} & mbox {spotreba energie,} & mbox {v štvorkolkách} hline 1950 & 34,6 hline 1960 & 45,1 hline 1970 & 67,8 hline 1980 & 78,3 hline 1990 & 84,6 hline 2000 & 98,9 hline end {pole} ]

Jednotka 1 Quad je 1 Quadrillion = (10 ​​^ {15} ) BTU, čo je dosť tepla na to, aby ste zhruba zdvihli Erijské jazero (1 ^ { circ} ) F}

Príklad ( PageIndex {1} ): Spotreba energie

Pomocou vyššie uvedených údajov o spotrebe energie

  1. Údaje vykreslite pomocou grafickej kalkulačky.
  2. Nájdite regresnú čiaru s najmenšími štvorcami a vyjadrite sa k správnosti zhody.
  3. Interpretujte sklon priamky, ktorá najlepšie vyhovuje.
  4. Použite regresnú čiaru na predpovedanie ročnej spotreby energie v USA v roku (2013 ).
  5. Pomocou regresnej čiary predpovedajte, kedy ročná spotreba dosiahne (120 ) štvorkoliek.

Riešenie

  1. Zadanie údajov do kalkulačky dáva

  1. Vykonanie lineárnej regresie produkuje

Z korelačného koeficientu aj z grafu môžeme zistiť, že regresná čiara sa k údajom dobre hodí.

  1. Sklon regresnej priamky je (a približne 1,287 ). Aby sme to interpretovali, pripomeňme, že sklon je rýchlosť zmeny (y ) - súradníc vzhľadom na (x ) - súradnice. Pretože (y ) - súradnice predstavujú využitie energie v štvorkolkách a (x ) - súradnice predstavujú roky, sklon kladnej hodnoty (1,287 ) naznačuje zvýšenie ročnej spotreby energie rýchlosťou ( 1,287 ) Štvorkolky ročne.
  2. Aby sme predpovedali energetické potreby v (2013 ), dosadíme (x = 2013 ) do rovnice priamky, ktorá najlepšie vyhovuje [y = 1,287 (2013) -2473,890 cca 116,841. ] ročná spotreba energie v USA v (2013 ) je približne (116 841 ) štvorkoliek.
  3. Aby sme predpovedali, kedy ročná spotreba energie v USA dosiahne (120 ) štvorkoliek, dosadíme (y = 120 ) do rovnice čiary, ktorá najlepšie vyhovuje 120 = 1,287x - 2473,908. ] Riešenie pre (x ) výnosy (x približne 2015,454 ). Pretože sa regresná priamka zvyšuje, interpretujeme tento výsledok tak, že ročné využitie v (2015 ) ešte nebude (120 ) štvorkoliek, ale v (2016 ) bude dopyt viac ako (120 ) štvorkolky.

Náš ďalší príklad nám dáva príležitosť nájsť nelineárny model, ktorý by vyhovoval údajom. Podľa Národnej meteorologickej služby boli predpokladané hodinové teploty pre Painesville 3. marca 2009 uvedené nižšie.

[ begin {array} {| c | c |} hline mbox {Time} & mbox {Temperature, (^ { circ} ) F} hline 10 mbox {AM} & 17 hline 11 mbox {AM} & 19 hline 12 mbox {PM} a 21 hline 1 mbox {PM} & 23 hline 2 mbox {PM} & 24 hline 3 mbox {PM} a 24 hline 4 mbox {PM} a 23 hline end {pole} ]

Ak chcete tieto údaje zadať do kalkulačky, musíme upraviť hodnoty (x ), pretože iba zadávanie čísel by mohlo spôsobiť zmätok. (Vidíte prečo?) Máme k dispozícii niekoľko možností. Asi najjednoduchšie je previesť časy na 24 hodinový čas tak, že (1 ) PM je (13 ), (2 ) PM je (14 ) atď. Ak zadáme tieto údaje do grafickej kalkulačky a vyneste body, ktoré dostaneme

Zatiaľ čo začiatok údajov vyzerá lineárne, teplota začína klesať v popoludňajších hodinách. Tento druh správania nám pripomína paraboly a, samozrejme, je možné nájsť najlepšie vyhovujúcu parabolu rovnakým spôsobom, aký sme našli v rade najvhodnejších. Proces sa nazýva kvadratická regresia a jeho cieľom je minimalizovať najmenšiu štvorcovú chybu údajov s ich zodpovedajúcimi bodmi na parabole. Kalkulačka má tiež zabudovanú funkciu, ktorá poskytuje výnosy

Koeficient determinácie (R ^ 2 ) sa zdá byť primerane blízky (1 ) a graf sa vizuálne javí ako slušný výsledok. Tento model používame v našom ďalšom príklade.

Príklad ( PageIndex {2} ): Kvadratická regresia

Pomocou kvadratického modelu pre vyššie uvedené údaje o teplote predpovedajte najteplejšiu teplotu dňa. Kedy k tomu dôjde?

Riešenie

Maximálna teplota bude na vrchole paraboly. Pripomíname vrcholový vzorec, rovnica 2.4, [x = - frac {b} {2a} cca - frac {9,464} {2 (-0,321)} približne 14 741. ] To zodpovedá zhruba (2 !: ! 45 ) PM. Na zistenie teploty dosadíme (x = 14 741 ) do [y = -0,321 x ^ 2 + 9,464x - 45,857 ], aby sme dostali (y približne 23,899 ), alebo (23,899 ^ { cir. } ) F.

Výsledky posledného príkladu by vám mali pripomenúť, že regresné modely sú práve to, modely. Zistilo sa, že naša predpovedaná najteplejšia teplota je (23,899 ^ { circ} ) F, ale naše údaje hovoria, že sa oteplí na (24 ^ { circ} ) F. Všetko je v poriadku, sledovať trendy a hádať o modeli, ale dôkladnejšie preskúmanie prečo určité údaje by mali mať lineárnu alebo kvadratickú povahu, zvyčajne sú v poriadku - a to je väčšinou vec vedcov.


5 regresných algoritmov, ktoré by ste mali poznať, a úvodná príručka # 8211!

V strojovom učení používame rôzne druhy algoritmov, ktoré umožňujú strojom učiť sa vzťahy v rámci poskytovaných údajov a robiť predpovede na základe vzorov alebo pravidiel identifikovaných z množiny údajov. Regresia je teda technika strojového učenia, kde model predpovedá výstup ako spojitú číselnú hodnotu.

Regresná analýza sa často používa vo financiách, investovaní a ďalších a zisťuje vzťah medzi jednou závislou premennou (cieľová premenná) závislou od niekoľkých nezávislých. Najbežnejšia je napríklad predikcia ceny domu, akciového trhu alebo platu zamestnanca atď
regresné problémy.

Algoritmy, ktoré sa chystáme pokryť, sú:

3. Podpora vektorovej regresie

1. Lineárna regresia

Lineárna regresia je algoritmus ML používaný na učenie pod dohľadom. Lineárna regresia vykonáva úlohu predikcie závislej premennej (cieľa) na základe daných nezávislých premenných. Takže táto regresná technika zisťuje lineárny vzťah medzi závislou premennou a ostatnými danými nezávislými premennými. Preto sa názov tohto algoritmu nazýva Linear Regression.

Na obrázku vyššie je na osi X nezávislá premenná a na osi Y výstup. Regresná priamka je pre model najvhodnejšia čiara. Našim hlavným cieľom v tomto algoritme je nájsť túto najvhodnejšiu líniu.

  • Lineárna regresia sa implementuje jednoducho.
  • Menej zložité v porovnaní s inými algoritmami.
  • Lineárna regresia môže viesť k prílišnému prispôsobeniu sa, dá sa jej však vyhnúť použitím niektorých techník znižovania rozmerov, regularizačných techník a krížovej validácie.
  • Odľahlé hodnoty majú na tento algoritmus negatívny vplyv.
  • Príliš zjednodušuje problémy v reálnom svete tým, že predpokladá lineárny vzťah medzi premennými, a preto sa neodporúča pre praktické prípady použitia.

2. Rozhodovací strom

Modely rozhodovacieho stromu je možné použiť na všetky údaje, ktoré obsahujú číselné a kategorické znaky. Rozhodovacie stromy dobre zachytávajú nelineárnu interakciu medzi znakmi a cieľovou premennou. Rozhodovacie stromy sa trochu zhodujú s myslením na ľudskej úrovni, takže porozumenie dát je veľmi intuitívne.

Napríklad, ak klasifikujeme, koľko hodín hrá dieťa v konkrétnom počasí, rozhodovací strom vyzerá na obrázku asi takto.

Stručne povedané, rozhodovací strom je strom, kde každý uzol predstavuje funkciu, každá vetva predstavuje rozhodnutie a každý list predstavuje výsledok (číselná hodnota pre regresiu).

  • Ľahko pochopiteľné a interpretovateľné, vizuálne intuitívne.
  • Môže pracovať s číselnými a kategorickými vlastnosťami.
  • Vyžaduje malé predspracovanie údajov: nie je potrebné jednorazové kódovanie, atrapy premenných atď.
  • Zvykne to prekypovať.
  • Malá zmena v údajoch má tendenciu spôsobiť veľký rozdiel v stromovej štruktúre, čo spôsobuje nestabilitu.

3. Podpora vektorovej regresie

Určite ste už počuli o SVM, tzn. Support Vector Machine. SVR tiež používa rovnakú myšlienku SVM, ale tu sa snaží predpovedať skutočné hodnoty. Tento algoritmus používa na oddelenie údajov hyperplány. V prípade, že toto oddelenie nie je možné, použije trik s jadrom, kde sa rozmer zväčší a potom sa dátové body stanú oddeliteľnými nadrovinou.

Na obrázku vyššie modrá čiara je hyperrovinná červená čiara je hraničná čiara

Všetky dátové body sú v hraničnej čiare (červená čiara). Hlavným cieľom SVR je v zásade zohľadniť body, ktoré sú v hraničnej čiare.

  • Robustný voči odľahlým hodnotám.
  • Vynikajúca schopnosť generalizácie
  • Vysoká presnosť predikcie.
  • Nevhodné pre veľké súbory údajov.
  • Nepracujú veľmi dobre, ak je v súbore údajov väčší šum.

4. Regresia laso

  • LASSO je skratka pre Least Absolute Selection Shrinkage Operator. Zmršťovanie je v zásade definované ako obmedzenie atribútov alebo parametrov.
  • Algoritmus pracuje s nájdením a uplatnením obmedzenia na atribúty modelu, ktoré spôsobí, že regresné koeficienty pre niektoré premenné sa zmenšia na nulu.
  • Premenné s regresným koeficientom nula sú z modelu vylúčené.
  • Takže laso regresná analýza je v zásade metódou zmenšovania a variabilného výberu a pomáha určiť, ktoré z prediktorov sú najdôležitejšie.
  • LASSO vyberie iba jednu vlastnosť zo skupiny vzájomne súvisiacich vlastností
  • Vybrané funkcie môžu byť veľmi zaujaté.

5. Náhodný lesný regresor

Náhodné lesy sú súborom (kombináciou) rozhodovacích stromov. Je to algoritmus kontrolovaného učenia používaný na klasifikáciu a regresiu. Vstupné údaje sa odovzdávajú cez niekoľko rozhodovacích stromov. Vykonáva sa zostavením iného počtu rozhodovacích stromov v čase tréningu a výstupom triedy, ktorá je režimom tried (pre klasifikáciu) alebo strednou predikciou (pre regresiu) jednotlivých stromov.

  • Dobrý v učení sa zložitých a nelineárnych vzťahov
  • Veľmi ľahko interpretovateľné a zrozumiteľné
  • Sú náchylní na nadmerné vybavenie
  • Používanie väčších náhodných lesných súborov na dosiahnutie vyššieho výkonu spomaľuje ich rýchlosť a potom tiež potrebujú viac pamäte.

2.5 - Koeficient determinácie, štvorcový

Začnime s vyšetrovaním koeficientu determinácie, r 2, pri pohľade na dva rôzne príklady - jeden príklad, v ktorom je vzťah medzi odpoveďou r a prediktor X je veľmi slabý a druhým príkladom, v ktorom je vzťah medzi odpoveďou r a prediktor X je dosť silný. Ak bude naše opatrenie fungovať dobre, malo by byť schopné rozlišovať medzi týmito dvoma veľmi rozdielnymi situáciami.

Tu je dej ilustrujúci veľmi slabý vzťah medzi nimi r a X. Na grafe sú dve čiary, vodorovná čiara umiestnená pri priemernej odozve, ( bar) a odhadovaná regresná priamka s plytkými sklonmi, ( hat). Upozorňujeme, že sklon odhadovanej regresnej priamky nie je príliš strmý, čo naznačuje ako prediktor X zvyšuje, nedochádza k veľkej zmene priemernej odpovede r. Upozorňujeme tiež, že údajové body „neobjímajú“ odhadovanú regresnú čiaru:

Výpočty vpravo od grafu ukazujú kontrastné hodnoty „súčtov štvorcov“:

  • SSR je "regresný súčet druhých mocnín" a kvantifikuje, do akej miery je odhadovaná sklonená regresná priamka, ( hat_i ), je z horizontálnej "čiary bez vzťahu", vzorový priemer alebo ( bar).
  • SSE je „chybový súčet štvorcov“ a kvantifikuje, do akej miery sa údajové body, ((y_i ), líšia okolo odhadovanej regresnej čiary, (()_i ).
  • SSTO je "celkový súčet druhých mocnín" a kvantifikuje, do akej miery sa dátové body (y_i ) líšia okolo svojej strednej hodnoty, ( bar).

Upozorňujeme, že SSTO = SSR + SSE. Zdá sa, že sumy štvorcov rozprávajú príbeh dosť dobre. Hovoria nám, že väčšina z variácií v reakcii r (SSTO = 1827.6) je len v dôsledku náhodnej zmeny (SSE = 1708,5), nie kvôli regresii r na X (SSR = 119,1). Môžete si to všimnúť SSR deleno SSTO je 119,1 / 1827,6 alebo 0,065. Vidíte, kde sa toto množstvo objaví na vyššie uvedenom spojnicovom grafe?

Porovnajte uvedený príklad s nasledujúcim príkladom, v ktorom dej ilustruje pomerne presvedčivý vzťah medzi nimi r a X. Sklon odhadovanej regresnej priamky je oveľa strmší, čo naznačuje ako prediktor X zvyšuje, nastáva pomerne podstatná zmena (pokles) v reakcii r. A tu dátové body „objímajú“ odhadovanú regresnú priamku:

Súčty druhých mocnín pre tento súbor údajov hovoria o veľmi odlišnom príbehu, konkrétne o väčšine variácií v odpovedi r (SSTO = 8487,8) je spôsobené regresiou r na X (SSR = 6679,3) nielen kvôli náhodnej chybe (SSE = 1708,5). A SSR deleno SSTO je 6679,3 / 8487,8 alebo 0,799, ktoré sa opäť zobrazia na upravenom čiarovom grafe.

Predchádzajúce dva príklady navrhli, ako by sme mali formálne definovať opatrenie. Stručne povedané, „koeficient determinácie„alebo“r- rozdelená hodnota, “označené r 2, je regresný súčet štvorcov vydelený celkovým súčtom štvorcov. Prípadne, ako je uvedené v tomto vysielaní nižšie, pretože SSTO = SSR + SSE, množstvo r 2 sa tiež rovná jednej mínus pomer chybového súčtu štvorcov k celkovému súčtu štvorcov:

Tu sú niektoré základné charakteristiky opatrenia:

  • Odkedy r 2 je proporcia, vždy je to číslo medzi 0 a 1.
  • Ak r 2 = 1, všetky dátové body perfektne spadajú na regresnú priamku. Prediktor X účty pre všetko zmeny v r!
  • Ak r 2 = 0, odhadovaná regresná priamka je úplne vodorovná. Prediktor X účty pre žiadny zmeny v r!

Naučili sme sa interpretáciu pre dva ľahké prípady - keď r 2 = 0 alebo r 2 = 1 - ale ako interpretujeme r 2, keď je to nejaké číslo medzi 0 a 1, napríklad 0,23 alebo 0,57? Tu sú dva podobné, ale trochu odlišné spôsoby, ktorými sa určuje koeficient určenia r 2 možno interpretovať. Hovoríme buď:

"r 2 × 100 percent zmeny v r sa zníži zohľadnením prediktora X"

"r 2 × 100 percent zmeny v r je „vysvetlená“ zmenou prediktora X."

Mnoho štatistikov uprednostňuje prvý výklad. Mám sklon uprednostňovať druhú. Riziko pri použití druhého výkladu - a preto sa v úvodzovkách zobrazuje text „vysvetlené“ - spočíva v tom, že ho možno nesprávne pochopiť, pretože naznačuje, že prediktor X príčiny zmena odpovede r. Združenie nie je príčinou. To znamená, že údajová sada sa vyznačuje veľkým r- štvorcová hodnota, to neznamená X príčiny zmeny v r. Pokiaľ pamätáte na správny význam, je v poriadku použiť druhý výklad. Variácia druhého výkladu znamená: „r 2 × 100 percent zmeny v r je spôsobené zmenou prediktora X."

Študenti sa často pýtajú: „čo sa považuje za veľké r- štvorcová hodnota? "Závisí to od oblasti výskumu. Sociálni vedci, ktorí sa často snažia dozvedieť niečo o obrovských rozdieloch v ľudskom správaní, budú mať tendenciu sa k nim dostať veľmi ťažko r- rozdelené hodnoty oveľa vyššie, napríklad 25% alebo 30%. Inžinieri, ktorí majú tendenciu študovať presnejšie systémy, by pravdepodobne našli r-dvojitá hodnota iba 30% neprijateľná. Morálka tohto príbehu je prečítať si literatúru, aby ste sa dozvedeli, čo je typické r-posledné hodnoty sú pre vašu oblasť výskumu!

Zopakujme si príklad úmrtnosti na rakovinu kože (skincancer.txt). Akýkoľvek štatistický softvér, ktorý vykonáva jednoduchú lineárnu regresnú analýzu, bude hlásiť r-dvojitá hodnota pre vás, čo je v tomto prípade 67,98% alebo 68% k najbližšiemu celému číslu.

Môžeme povedať, že 68% odchýlok v úmrtnosti na rakovinu kože sa zníži pri zohľadnení zemepisnej šírky. Alebo môžeme povedať - s vedomím toho, čo to skutočne znamená -, že 68% variácií úmrtnosti na rakovinu kože je „vysvetlených“ zemepisnou šírkou.


Regresia modelu 2

V regresii modelu 1 riadite nezávislú premennú (x) a meriate závislú premennú (odpoveď) (y). Príkladom toho sú laboratórne experimenty. V iných situáciách neovládate ani jednu premennú, napríklad keby ste merali dĺžky a šírky mušlí, ktoré ste našli na pláži. V týchto prípadoch nie je jasné, ktorá premenná by sa považovala za nezávislú (x) alebo závislú (y) premennú. Na poradí záleží, pretože regresia y na x vytvorí inú priamku ako regresia x na y. Ak nekontrolujete jednu z premenných, hovorí sa, že obe premenné majú chybu merania a musíte vykonať regresiu modelu 2. Regresie modelu 2 nám umožňujú opísať vzťah, generovať intervaly spoľahlivosti a otestovať niektoré hypotézy, ktoré však nie je možné použiť na predikciu.

Regresia modelu 2 zodpovedá za neistotu v obidvoch x a y minimalizáciou chýb v oboch smeroch. Existuje niekoľko spôsobov, ako to urobiť. Pri regresii hlavnej osi je minimalizovaná kolmá vzdialenosť od bodu k priamke. Pri štandardnej regresii hlavnej hlavnej osi (SMA) (nazývanej tiež redukovaná hlavná os alebo RMA regresia) sú oblasti trojuholníkov tvorené pozorovaniami a regresnou čiarou minimalizované. Štandardná regresia hlavnej osi je obzvlášť častá. The sklon regresie SMA je:

Znamienko je uvedené ako plus alebo mínus, pretože je nastavené tak, aby sa zhodovalo so znamienkom korelačného koeficientu. Sklon možno vypočítať ako pomer štandardných odchýlok alebo ako druhú odmocninu pomeru súčtu druhých mocnín, podľa toho, čo je vhodnejšie.

SMA y-zachytiť sa počíta ako pre regresiu najmenších štvorcov, to znamená, že priamka musí prechádzať ťažiskom.

Funkcie pre sklon a zachytenie SMA sú priame. Všimnite si, že značka sklonu zodpovedá tomu, aby zodpovedal korelačnému koeficientu s funkciou ifelse ().

smaSlope & lt- funkcia (x, y) <
podpísať & lt- ifelse (cor & gt = 0, 1, -1)
b1 & lt- sign * sd (y) / sd (x)
b1
>

smaIntercept & lt- funkcia (x, y) <
b1 & lt- smaSlope (x, y)
b0 & lt- priemer (y) - priemer (x) * b1
b0
>

Sklon SMA sa rovná sklonu najmenších štvorcov vydelenému korelačným koeficientom, a je preto vždy strmší ako sklon najmenších štvorcov. Rozdiel v týchto dvoch svahoch sa zmenšuje, pretože korelácia silnie. Keď korelácia medzi dvoma premennými slabne, sklon regresie SMA sa blíži k hodnote 1,0, zatiaľ čo pri regresii najmenších štvorcov sa blíži k hodnote 0.

Štandardné chyby sú k dispozícii pre sklon a úseky SMA (Kermack a Haldane 1950, Miller a Kahn 1962 a pozri potvrdenia nižšie). Z nich môžete vypočítať intervaly spoľahlivosti na svahu a intercept pomocou n-2 stupňov voľnosti. Pokyny, ako to urobiť, nájdete na konci prednášky o prostriedkoch.

Balík lmodel2 dokáže spustiť rôzne regresie modelu 2, vykresliť ich, vypočítať intervaly spoľahlivosti a vykonať štatistické testy. Po načítaní tejto knižnice sa po spustení vignette („mod2user“) zobrazí vynikajúci súbor PDF s osvedčenými postupmi, najmä s vhodnými okolnosťami pre každý typ regresie modelu 2. Ak si myslíte, že by ste mohli potrebovať regresiu modelu 2, prečítajte si toto pdf.


Ako vyzerá regresia batoliat

Prvýkrát som sa začal obávať vývoja môjho syna okolo dvoch rokov. Ale odkedy dovŕšil 3 roky, vývojovo úplne ustúpil.

V priebehu šiestich mesiacov prešlo moje 3-ročné dieťa od rozprávania troch až štyroch viet, kladenia otázok prečo a učenia sa nových slov, takmer k ŽIADNE komunikácii. Stále hovorí, ale nerozumiem ničomu, čo hovorí!

Okrem reči a reči reči jeho predškolská učiteľka vyjadrila svoje obavy aj z toho, že som príliš citlivý na hlasné zvuky, hrá sa sám, opakuje sa, nehovorí a nie je v kontakte s ostatnými deťmi.

Pri opakovaní používa iba nezmysly rovnakých slabík. Nielen, že jeho regresné regresné neverbálne podnety, ako napríklad ukazovanie na objekty, sú len zopár. Napríklad mi nemôže povedať, čo chce, a nebude ukazovať na predmet, aj keď ho o to požiadam. To vedie k úplnému zrúteniu kriku a plaču, ak stále nedokážem zistiť jeho potreby.

Stáva sa to veľmi frustrujúce! Môj manžel a ja teraz vidíme ďalšie príznaky autizmu, ktoré sme si nikdy predtým nevšimli (aj keď tieto príznaky už nejaký čas mal).

Na jednej strane som vďačný za regresiu reči môjho batoľa, pretože bez nej by som nikdy nebol schopný rozpoznať ďalšie znaky, ktoré prejavuje autizmom. Ale tiež som úplne zlomený srdcom!

Nie preto, že by mohol mať autizmus, ale preto, že sa toľko snaží komunikovať jednoduché potreby a priania.

Teraz, keď rozpoznávame príznaky autizmu u nášho syna, napredujeme v pracovných a logopedických schôdzkach, aby sme zahájili proces hodnotenia.

Batoľa nehovorí slová, ktoré zvykne používať

Aj keď je vývojová regresia frustrujúca, existuje nádej! Príčinou regresie je najčastejšie len životná udalosť, ktorá batoľaťu spôsobí stres a úzkosť. Ďalšou príčinou môže byť vaše batoľa, ktoré sa učí osvojovať si nový súbor dôležitých životných zručností.

Ale v niektorých prípadoch regresie existujú náznaky poukazujúce na možnosť autizmu. Viem to, pretože môj vlastný syn spadá do tejto kategórie.

Mnohokrát je za vývojovou regresiou jednoduchý dôvod, a preto sa regresia časom zlepší. Ak však vývojová regresia pokračuje bez známok zlepšenia a vo svojom dieťati vidíte ďalšie príznaky autizmu, okamžite kontaktujte pediatra alebo logopéda! Včasný zásah je potrebný, aby pomohol deťom a dospievajúcim prekonať vývojovú regresiu a pomohol im napredovať vývojovým smerom vpred.


Ktoré parametre sú najdôležitejšie?

Jedným zo spôsobov, ako určiť, ktoré parametre sú najdôležitejšie, je vypočítať štandardnú chybu každého koeficientu. Štandardná chyba udáva, nakoľko spoľahlivý je model v prípade každého koeficientu, pričom väčšie hodnoty naznačujú, že model si je týmto parametrom menej istý. Môžeme to intuitívne aj bez toho, aby sme videli základné rovnice. Ak je chyba spojená s výrazom zvyčajne vysoká, znamená to, že výraz nemá veľmi výrazný vplyv na priradenie modelu k množine údajov.

Výpočet štandardnej chyby je zahrnutý štatistický proces a nemožno ho stručne opísať v krátkom článku. Našťastie sú k dispozícii balíčky Python, ktoré môžete použiť, aby ste to mohli urobiť za seba. Otázka bola položená a zodpovedaná na StackOverflow najmenej raz. Tieto nástroje by vás mali naštartovať.

Po výpočte štandardnej chyby každého koeficientu môžete pomocou výsledkov určiť, ktoré koeficienty sú najvyššie a ktoré najnižšie. Pretože vysoké hodnoty naznačujú, že tieto výrazy dodávajú modelu menej prediktívnu hodnotu, môžete vedieť, že tieto výrazy sú najmenej dôležité dodržať. V tomto bode môžete začať vyberať, ktoré výrazy v modeli je možné odstrániť, aby sa znížil počet výrazov v rovnici bez výrazného zníženia prediktívnej sily modelu.

Ďalšou metódou je použitie techniky nazývanej regularizácia. Regularizácia funguje pridaním nového člena do výpočtu chyby, ktorý je založený na počte členov v rovnici viacnásobnej regresie. Viac výrazov v rovnici inherentne povedie k vyššej chybe regularizácie, zatiaľ čo menej výrazov inherentne povedie k nižšej chybe regularizácie. Trest za pridanie výrazov do regularizačnej rovnice je možné podľa potreby zvýšiť alebo znížiť. Zvýšenie pokuty tiež povedie k vyššej chybe regularizácie, zatiaľ čo zníženie povedie k nižšej chybe regularizácie.

Keď sa do chybovej rovnice pridá regularizačný člen, minimalizácia chyby znamená nielen minimalizáciu chyby v modeli, ale aj minimalizáciu počtu výrazov v rovnici. To neodmysliteľne povedie k modelu, ktorý bude horšie vyhovovať údajom o tréningu, ale tiež to neodmysliteľne povedie k modelu, ktorý bude mať v rovnici menej výrazov. Vyššie hodnoty trestu / termínu v chybe regularizácie vytvárajú väčší tlak na to, aby model mal menej výrazov.


Ďakujem za radu všetkým! Vlastne si musím vyjasniť vec s nočníkovaním, pretože toľko z vás na to odpovedalo. Určite je pripravená na nočník. Hovorí nám, že musí ísť, ale nechce používať nočník. Niekedy to použije - všetko sama - žiadne výzvy ani nič. Musí to však byť jej rozhodnutie. Ak ju vyzvete, nepoužije ju. Faktom je, že ju používa, keď ju to poteší, a to je jej rozsah. To je neprijateľné! Vyskúšali sme cestu pozitívneho vystuženia - samolepky, malé dobroty, veľké dobroty, tabuľky odmien, DVD & # 39, bábiky - v podstate všetko. Záverom však je, že odmeny ju motivujú iba vtedy, keď sa tak rozhodne. Tak jej hovoríme - rozhodnutie, či nočník použije, je na nej. Ale ak sa rozhodne zle - budú to mať negatívne dôsledky, ako napríklad žiadna klubovňa Mickey Mouse. Celkom to pochopí a dokonca mi dnes ráno povedala, že & nočník 34 # žiadny nočník neznamená žiadnu televíziu & 34. A potom som sa jej spýtal, či je pripravená používať nočník, a povedala & # 34 ešte nie. & # 34 Vydržala. Urobila to, keď som jej o 10 mesiacov odniesol fľašu. Odmietala piť mlieko zo svojej chlipkajúcej šálky po dobu 2 týždňov !! Ale nakoniec ustúpila. Takže táto veľká negatívna vec sa naozaj nepáči. Pozitívne posilňovanie robíme asi 6 mesiacov s veľmi malým úspechom, takže sme museli vyskúšať niečo iné. Nie je ani poriadne naštvaná kvôli pravidlu zákazu televízie, pretože si zjavne uvedomuje, že je to jej voľba. Nerobíme z toho nič veľké - je jednoducho pravidlom, že televízia je pre veľké dievčatá a veľké dievčatá používajú nočník, a tým sa príbeh končí. Niektorí ľudia s tým nemusia súhlasiť, ale každý vie, čo funguje na ich vlastné deti. Tento prístup dokonca odporučila jej učiteľka v škole, pretože aj ona vidí, že moja dcéra je mimoriadne tvrdohlavá, pokiaľ ide o používanie iba vtedy, keď sa jej chce. Vážim si všetky rady a viem, že som problém s trénovaním nočníka v mojom pôvodnom príspevku naozaj nevysvetlil, takže som chcel objasniť!

Išiel som to na trh so svojím synom a on len testoval limity. Nemyslím si však, že zobratie Oy a privilégií preč, pretože je odolná voči nočnému tréningu, je správna odpoveď. Možno ešte nie je pripravená


2.5: Regresia

Identifikácia multicollinearity vo viacnásobnej regresii

Pomoc so štatistikou pre študentov dizertačných prác a výskumných pracovníkov

Ako identifikovať multicollinearitu

Multicollinearitu môžete posúdiť preskúmaním tolerancie a variačný inflačný faktor (VIF) sú dva diagnostické faktory kolinearity, ktoré vám môžu pomôcť identifikovať multicollinearitu. Tolerancia je miera kolineárnosti hlásená väčšinou štatistických programov, ako je SPSS, tolerancia premennej je 1-R2. Malá hodnota tolerancie naznačuje, že uvažovaná premenná je takmer dokonalou lineárnou kombináciou nezávislých premenných, ktoré sú už v rovnici, a že by sa nemala pridávať k regresnej rovnici. Všetky premenné zapojené do lineárneho vzťahu budú mať malú toleranciu. Niektorí navrhujú, aby sa mala ďalej skúmať hodnota tolerancie menej ako 0,1. Ak je nízka hodnota tolerancie sprevádzaná veľkými štandardnými chybami a nedôležitosťou, môže byť problémom multicolinearita.

Variačný inflačný faktor (VIF)

Variačný inflačný faktor (VIF) meria vplyv kolineárnosti medzi premennými v regresnom modeli. Variačný inflačný faktor (VIF) je 1 / tolerancia, vždy je väčší alebo rovný 1. Neexistuje žiadna formálna hodnota VIF na stanovenie prítomnosti multicolinearity. Hodnoty VIF, ktoré presahujú 10, sa často považujú za hodnoty indikujúce multicollinearitu, ale v slabších modeloch môžu byť hodnoty vyššie ako 2,5 dôvodom na obavy. V mnohých štatistických programoch sa výsledky zobrazujú ako individuálna hodnota R2 (odlišná od celkovej R2 modelu), tak ako faktor rozptylu inflácie (VIF). Keď sú tieto hodnoty R2 a VIF vysoké pre ktorúkoľvek z premenných vo vašom modeli, pravdepodobne bude mať problém viackolinearita. Keď je VIF vysoká, existuje vysoká multikolinearita a nestabilita koeficientov b a beta. Často je ťažké to vyriešiť. Vyžiadajte si prieskum a štatistiku amp ešte dnes!

Multicolinearitu môžete regresne posúdiť aj nasledujúcimi spôsobmi:


1. Preskúmajte korelácie and associations (nominal variables) between independent variables to detect a high level of association. High bivariate correlations are easy to spot by running correlations among your variables. If high bivariate correlations are present, you can delete one of the two variables. However, this may not always be sufficient.

2. Regression coefficients will change dramatically according to whether other variables are included or excluded from the model. Play around with this by adding and then removing variables from your regression model.

3. The standard errors of the regression coefficients will be large if multicollinearity is an issue.

4. Predictor variables with known, strong relationships to the outcome variable will not achieve statistical significance. In this case, neither may contribute significantly to the model after the other one is included. But together they contribute a lot. If you remove both variables from the model, the fit would be much worse. So the overall model fits the data well, but neither X variable makes a significant contribution when it is added to your model last. When this happens, multicollinearity may be present.


Toddler sleep regression generally occurs between 18 months and 2 years of age, although the exact time is different for each child. If you&aposve noticed the symptoms, rest assured that most sleep regression stages last for only a few weeks at a time. Pretty soon your little one will start sleeping through the night again, and they&aposll no longer wake up crying.

Whether you&aposre dealing with 18-month-old sleep regression, 2-year-old sleep regression, or 3-year-old sleep regression, these tips can help your little one get a good night&aposs rest.

The Problem: Your Toddler Stalls Bedtime

Kids this age are learning that they have some power in the world, and they&aposll seize any opportunity to use it. So don&apost be surprised if your mini negotiator says just about anything to stall their bedtime𠅎ven if they’re about to fall asleep mid-sentence.

How to Help: Make small tweaks to your child&aposs bedtime routine. You should still stick to the basics𠅊 bath, a story, some cuddling, then lights-out𠅋ut let them make small decisions along the way, suggests Jill Spivack, co-creator of the book and DVD The Sleepeasy Solution. Your toddler may be less likely to balk at bedtime if they get to call a few of the shots. (Red or yellow pajamas? Three good-night kisses or four?)

If your toddler cries when you leave their room, explain that it&aposs time to sleep and say that you&aposll be back to check on them when they’re calm, says Brett Kuhn, PhD, a licensed psychologist at the University of Nebraska Medical Center and Children&aposs Sleep Center, in Omaha. Return, as promised, but don&apost stick around. Or try mom Gina Beltrami&aposs clever sleep strategy: After she tucked in her toddler, Sonny, she set a timer for five minutes. "I told him that I&aposd sit quietly at the foot of his bed until the timer went off, and then he had to rest by himself," says Beltrami, of Bethlehem, Pennsylvania. "Stalling problem solved!"

The Problem: Your Toddler Escapes the Bed

With no crib bars to stop them, toddlers often like to savor their newfound freedom by taking 3 a.m. jaunts to your bed.

How to Help: Carry your midnight wanderer back to their room every time they bust into yours. If you let them crash with you, you&aposre setting the stage for a never-ending bedtime battle. Consider hanging bells on your doorknob so you can hear your toddler coming that way, you can walk them back to their room before they climb into your bed and make themselves comfy.

Another way to avoid sleepless nights is to install a baby gate on your child&aposs door. "Explain that it&aposs there to keep her safe, since she could get hurt walking around the house by herself in the dark," says Spivack. Leave their bedroom door open so they don’t feel alone.

The Problem: Your Toddler is Scared of Sleeping

You know how badly you sleep when you&aposve got a lot of worries on your mind. The same goes for your toddler, though they’re panicking about monsters, not the mortgage. "This is the stage when your child&aposs imagination really takes off," says Spivack. "Even if he wasn&apost afraid of the dark before, he may start &aposseeing&apos ghosts and other eerie creatures."

How to Help: Respect your child&aposs fears. Let them know you understand how scared they feel, but beware of making their anxiety worse. Using "monster spray," for example, actually suggests that creepy creatures could be hanging out in their room, says Dr. Kuhn. Instead, reassure them that you&aposre always nearby and that monsters don&apost exist.

Look for ways to convince your toddler that their room is a safe place. Play in their bedroom more often so they associate it with good times, or "camp out" with them there for a night. You could also appoint one of your child&aposs stuffed animals the "watch pet," says Carol Ash, medical director of Sleep for Life in Hillsborough, New Jersey. "I gave my son a big bear that he could prop up on his bed all night to keep an eye on him."

The Problem: Your Toddler Refuses to Nap

Toddlers often refuse to snooze during the day𠅋lame their newfound sense of independence and changing sleep needs𠅋ut kids aren&apost truly ready to give up naps for good until around age 5. If you let your child skip theirs, they may be too overtired to sleep well at night.

How to Help: Ignore the clock. As kids get older, they might not need to catch their afternoon zzz&aposs on the same old schedule. Instead, look for clues that your toddler is getting tired. Put them down when they get clingy, spacey, hyper, or start rubbing their eyes. Making your toddler&aposs siesta seem like bedtime can help them drift off: Keep their room dark, read a story, or sing a lullaby. But if they absolutely refuse to sleep, encourage them to play quietly in their room and call it "rest time."


Simple / Linear Regression Tutorial, Examples

Regression Definition:

A regression is a statistical analysis assessing the association between two variables. In simple linear regression, a single independent variable is used to predict the value of a dependent variable.

Regression Formula:

Regression Example:

To find the Simple/Linear Regression of

To find regression equation, we will first find slope, intercept and use it to form regression equation.

Step 1:

Count the number of values. N = 5

Step 2:

Find XY, X 2 See the below table

X ValueY ValueX*YX*X
603.1 60 * 3.1 =186 60 * 60 = 3600
613.661 * 3.6 = 219.661 * 61 = 3721
623.862 * 3.8 = 235.662 * 62 = 3844
63463 * 4 = 25263 * 63 = 3969
654.165 * 4.1 = 266.565 * 65 = 4225
Step 3:

Find ΣX, ΣY, ΣXY, ΣX 2 . ΣX = 311 ΣY = 18.6 ΣXY = 1159.7 ΣX 2 = 19359

Step 4:

Substitute in the above slope formula given. Slope(b) = (NΣXY - (ΣX)(ΣY)) / (NΣX 2 - (ΣX) 2 ) = ((5)*(1159.7)-(311)*(18.6))/((5)*(19359)-(311) 2 ) = (5798.5 - 5784.6)/(96795 - 96721) = 13.9/74 = 0.18784

Step 5:

Now, again substitute in the above intercept formula given. Intercept(a) = (ΣY - b(ΣX)) / N = (18.6 - 0.18784(311))/5 = (18.6 - 58.41824)/5 = -39.81824/5 = -7.964

Step 6:

Then substitute these values in regression equation formula Regression Equation(y) = a + bx = -7.964+0.188x.
Suppose if we want to know the approximate y value for the variable x = 64. Then we can substitute the value in the above equation. Regression Equation(y) = a + bx = -7.964+0.188(64). = -7.964+12.032. = 4.068 This example will guide you to find the relationship between two variables by calculating the Regression from the above steps.


Pozri si video: Regresia hipnotica in vieti anterioare - Altantida (December 2021).