Regressiooni statistilise mudeli määratlemine

by Mike Chapple

Regressioonanalüüs analüüsib suhteid muutujate vahel

Regressioon on andmetöötluse meetod, mida kasutatakse arvuliste väärtuste (enamasti pidevate väärtuste ) ennustamiseks, võttes arvesse teatud andmekogumit. Näiteks võib regressiooni kasutada ka teiste muutujate jaoks toote või teenuse maksumuse prognoosimiseks.

Regressiooni kasutatakse mitmetes tööstusharudes äri- ja turunduse planeerimiseks, finantsprognoosimiseks, keskkonnamudelite tegemiseks ja suundumuste analüüsimiseks.

Regressioon Vs. Klassifikatsioon

Regressioon ja klassifitseerimine on andmete hankimise meetodid, mida kasutatakse sarnaste probleemide lahendamiseks, kuid sageli on need segaduses. Mõlemat kasutatakse prognoosimisanalüüsis, kuid regressiooni kasutatakse numbrilise või pideva väärtuse ennustamiseks, kui klassifitseerimine määrab andmed diskreetsetele kategooriatele.

Näiteks kasutatakse regressiooni, et ennustada koduväärtust selle asukoha, ruutjalga, viimase müügi hinna, sarnaste kodude hinna ja muude tegurite põhjal. Klassifitseerimine oleks õige, kui soovite selle asemel korraldada maja kategooriateks, näiteks kõnniteed, partii suurus või kuritegevuse tase.

Regressioonitehnikate tüübid

Lihtsaim ja vanim regressioonivorm on lineaarne regressioon, mida kasutatakse kahe muutuja vahelise suhte hindamiseks. See meetod kasutab sirgjoonelist matemaatilist valemit (y = mx + b). Lihtsamalt tähendab see, et Y-i ja X-teljega graafiku puhul on suhe X ja Y vahel sirgjoonena, kus on vähe väljundeid. Näiteks võime eeldada, et elanikkonna suurenemise tõttu suureneks toiduainete tootmine sama kiirusega - see eeldab tugevat ja lineaarset suhet kahe näitaja vahel. Selle visualiseerimiseks kaaluge graafikut, kus Y-telg jälgib populatsiooni suurenemist ja X-teljel jälgitakse toidu tootmist. Nagu Y väärtus suureneb, suureneb X väärtus samal kiirusel, muutes seose nende vahel sirgjoonena.

Täpsemad tehnikad, nagu näiteks mitmekordne regressioon, ennustavad suhteid mitme muutuja vahel - näiteks kas on seos sissetuleku, hariduse ja selle vahel, kus keegi otsustab elada? Muutujate lisamine suurendab märkimisväärselt prognoosi keerukust. On olemas mitu tüüpi regressioonimeetodeid, sealhulgas standardseid, hierarhilisi, järjestikuseid ja astmelisi, kusjuures igaühel on oma rakendus.

Siinkohal on oluline mõista, mida me üritame ennustada (sõltuv või prognoositav muutuja) ja andmeid, mida me kasutame ennustuse tegemiseks (sõltumatud või prognoositavad muutujad). Meie näites tahame ennustada asukohta, kus üks otsustab elada ( prognoositav muutuja), kellel on sissetulek ja haridus (mõlemad eeldatavad muutujad).

Standardne mitmekordne regressioon arvestab kõiki prognoositavaid muutujaid samal ajal. Näiteks 1) milline on suhe sissetuleku ja hariduse (ennustajad) ja naabrivaliku vahel (ennustatakse); ja 2) millisel määral mõjutavad iga individuaalsed ennustajad seda suhet?
Järk-järgult mitmekordne regressioon vastab täiesti teistsugusele küsimusele. Astmelise regressiooni algoritm analüüsib, milliseid ennustatavaid näitajaid kõige paremini kasutatakse naabrivaliku ennustamiseks - see tähendab, et sammhaaval mudelis hinnatakse prognoositavate muutujate tähtsuse järjekorda ja seejärel valitakse vastav alamhulk. Sellise regresiooniprobleemi puhul kasutatakse regressioonivõrrandi arendamiseks "samme". Arvestades seda regressioonitüüpi, ei pruugi kõik ennustajad isegi lõplikus regressioonivõrrandis näha.
Hierarhiline regressioon , nagu sammhaaval, on järjestikune protsess, kuid prognoosimuutujad sisestatakse mudelis eelnevalt kindlaksmääratud järjekorras, st algoritm ei sisalda sisseehitatud võrrandite komplekti, et määrata kindlaks järjekord sisestage ennustajad. Seda kasutatakse kõige sagedamini, kui regresioonvõrrandit loovutav isik on valdkonna asjatundlikul teadmisel.

Regulaarne regressioon on samamoodi samm- sammuline, kuid analüüsib pigem muutujaid kui üksikute muutujate rühmi .

Regressioon Vs. Klassifikatsioon

Regressioonitehnikate tüübid

Alike posts

See Newest

Sapid posts