Multipel lineær regression - MLR-definition
Hvad er multiple lineær regression - MLR?Multipel lineær regression (MLR), også kendt simpelt som multiple regression, er en statistisk teknik, der bruger flere forklaringsvariabler til at forudsige resultatet af en responsvariabel. Målet med multiple lineær regression (MLR) er at modellere det lineære forhold mellem de forklarende (uafhængige) variabler og respons (afhængig) variabel.
I det væsentlige er multiple regression udvidelsen af almindelig mindst-kvadrater (OLS) -regression, der involverer mere end en forklarende variabel.
Formlen for multiple lineær regression er
yi = β0 + β1xi1 + β2xi2 + ... + βpxip + ϵ hvor, for i = n observationer: yi = afhængig variablexi = ekspanderende variablerβ0 = y-afskærmning (konstant sigt) pp = hældningskoefficienter for hver forklaringsvariabelϵ = modelens fejltermin (også kendt som restprodukter) \ begynde {justert} & y_i = \ beta_0 + \ beta _1 x_ {i1} + \ beta _2 x_ {i2} + ... + \ beta _p x_ {ip} + \ epsilon \\ & \ textbf {hvor, for} i = n \ textbf {observationer:} \\ & y_i = \ text {afhængig variabel} \\ & x_i = \ text {ekspanderende variabler} \\ & \ beta_0 = \ text {y-intercept (konstant udtryk)} \\ & \ beta_p = \ tekst {hældningskoefficienter for hver forklaringsvariabel} \\ & \ epsilon = \ tekst {modelens fejlbegrep (også kendt som rester)} \\ \ end {align} yi = β0 + β1 xi1 + β2 xi2 + ... + βp xip + ϵ hvor, for i = n observationer: yi = afhængig variabel xi = ekspanderende variablerβ0 = y-afskærmning (konstant sigt) pp = Hældningskoefficienter for hver forklaringsvariabelϵ = modellens fejlbegivenhed (også kendt som resterne)
Forklaring af flere lineære regressioner
En simpel lineær regression er en funktion, der gør det muligt for en analytiker eller statistiker at fremsætte forudsigelser om en variabel baseret på den information, der er kendt om en anden variabel. Lineær regression kan kun bruges, når man har to kontinuerlige variabler - en uafhængig variabel og en afhængig variabel. Den uafhængige variabel er den parameter, der bruges til at beregne den afhængige variabel eller resultatet. En multiple regressionsmodel strækker sig til flere forklarende variabler.
Den multiple regressionsmodel er baseret på følgende antagelser:
- Der er et lineært forhold mellem de afhængige variabler og de uafhængige variabler.
- De uafhængige variabler er ikke for stærkt korrelerede med hinanden.
- observationer vælges uafhængigt og tilfældigt fra befolkningen.
- Restpersoner skal normalt fordeles med et gennemsnit på 0 og varians σ.
Bestemmelseskoefficienten (R-kvadrat) er en statistisk måling, der bruges til at måle, hvor meget af variationen i resultatet, der kan forklares med variationen i de uafhængige variabler. R2 stiger altid, når flere prediktorer føjes til MLR-modellen, selvom prediktorerne muligvis ikke er relateret til udgangsvariablen.
R2 kan i sig selv ikke bruges til at identificere, hvilke forudsigere der skal inkluderes i en model, og hvilke der bør udelukkes. R2 kan kun være mellem 0 og 1, hvor 0 indikerer, at resultatet ikke kan forudsiges af nogen af de uafhængige variabler, og 1 angiver, at resultatet kan forudsiges uden fejl fra de uafhængige variabler.
Når man fortolker resultaterne af en multiple regression, er betakoefficienter gyldige, mens alle andre variabler holdes konstant ("alt andet lige"). Outputet fra en multiple regression kan vises vandret som en ligning eller lodret i tabelform.
Eksempel Brug af multipel lineær regression
F.eks. Vil en analytiker måske vide, hvordan markedsbevægelsen påvirker prisen på Exxon Mobil (XOM). I dette tilfælde har hans lineære ligning værdien af S&P 500-indekset som den uafhængige variabel eller prediktor og prisen på XOM som den afhængige variabel.
I virkeligheden er der flere faktorer, der forudsiger resultatet af en begivenhed. For eksempel afhænger Exxon Mobils prisbevægelse af mere end kun præstationerne på det samlede marked. Andre forudsigere, såsom olieprisen, renter og prisudviklingen på olie futures, kan påvirke prisen på XOM og aktiekurserne i andre olieselskaber. For at forstå et forhold, hvor mere end to variabler er til stede, bruges en multiple lineær regression.
Multipel lineær regression (MLR) bruges til at bestemme et matematisk forhold mellem et antal tilfældige variabler. Med andre ord undersøger MLR, hvordan flere uafhængige variabler er relateret til en afhængig variabel. Når hver af de uafhængige faktorer er blevet bestemt til at forudsige den afhængige variabel, kan informationen om de flere variabler bruges til at skabe en nøjagtig forudsigelse af niveauet for deres effekt på udgangsvariablen. Modellen skaber et forhold i form af en lige linje (lineær), der bedst matcher alle de individuelle datapunkter.
Henvisning til MLR-ligningen ovenfor i vores eksempel:
- y i = afhængig variabel: pris på XOM
- x i1 = renter
- x i2 = oliepris
- x i3 = værdien af S&P 500-indekset
- x i4 = pris på olie futures
- B 0 = y-afskærmning på tidspunktet nul
- B 1 = regressionskoefficient, der måler en enhedsændring i den afhængige variabel, når x i1 ændres - ændringen i XOM-pris, når renten ændrer sig
- B 2 = koefficientværdi, der måler en enhedsændring i den afhængige variabel, når x i2 ændres - ændringen i XOM-pris, når oliepriserne ændres
De mindste kvadratestimater, B 0, B 1, B 2 ... B p, beregnes normalt af statistisk software. Så mange variabler kan inkluderes i regressionsmodellen, hvor hver uafhængig variabel er differentieret med et tal — 1, 2, 3, 4 ... p. Den multiple regressionsmodel tillader en analytiker at forudsige et resultat baseret på information leveret om flere forklaringsvariabler.
Modellen er stadig ikke altid helt nøjagtig, da hvert datapunkt kan afvige lidt fra det resultat, modellen forudsiger. Restværdien E, der er forskellen mellem det faktiske udfald og det forudsagte udgang, er inkluderet i modellen for at tage højde for sådanne små variationer.
Forudsat at vi kører vores XOM-prisregressionsmodel gennem en statistikberegningssoftware, der returnerer denne output:
En analytiker vil fortolke dette output, så hvis andre variabler holdes konstant, vil XOM-prisen stige med 7, 8%, hvis prisen på olie på markederne stiger med 1%. Modellen viser også, at prisen på XOM vil falde med 1, 5% efter en rentestigning på 1%. R2 indikerer, at 86, 5% af variationerne i aktiekursen på Exxon Mobil kan forklares med ændringer i rente, oliepris, olie futures og S&P 500 indekset.
Key takeaways
- Multipel lineær regression (MLR), også kendt simpelt som multiple regression, er en statistisk teknik, der bruger flere forklaringsvariabler til at forudsige resultatet af en responsvariabel.
- Multipel regression er en udvidelse af lineær (OLS) regression, der kun bruger en forklarende variabel.
- MLR bruges i vid udstrækning inden for økonometrik og økonomisk inferens.
Forskellen mellem lineær og multiple regression
Lineær (OLS) regression sammenligner responsen af en afhængig variabel, der er givet en ændring i en eller anden forklarende variabel. Det er dog sjældent, at en afhængig variabel kun forklares med en variabel. I dette tilfælde bruger en analytiker flere regression, der forsøger at forklare en afhængig variabel ved hjælp af mere end en uafhængig variabel. Flere regressioner kan være lineære og ikke-lineære.
Flere regressioner er baseret på antagelsen om, at der er en lineær forbindelse mellem både de afhængige og uafhængige variabler. Det antager heller ikke nogen større sammenhæng mellem de uafhængige variabler.
Sammenlign Navn på udbydere af investeringskonti Beskrivelse Annoncørens viden × De tilbud, der vises i denne tabel, er fra partnerskaber, hvorfra Investopedia modtager kompensation.