Vigtigste » algoritmisk handel » Multipel lineær regression - MLR-definition

Multipel lineær regression - MLR-definition

algoritmisk handel : Multipel lineær regression - MLR-definition
Hvad er multiple lineær regression - MLR?

Multipel lineær regression (MLR), også kendt simpelt som multiple regression, er en statistisk teknik, der bruger flere forklaringsvariabler til at forudsige resultatet af en responsvariabel. Målet med multiple lineær regression (MLR) er at modellere det lineære forhold mellem de forklarende (uafhængige) variabler og respons (afhængig) variabel.

I det væsentlige er multiple regression udvidelsen af ​​almindelig mindst-kvadrater (OLS) -regression, der involverer mere end en forklarende variabel.

Formlen for multiple lineær regression er

yi = β0 + β1xi1 + β2xi2 + ... + βpxip + ϵ hvor, for i = n observationer: yi = afhængig variablexi = ekspanderende variablerβ0 = y-afskærmning (konstant sigt) pp = hældningskoefficienter for hver forklaringsvariabelϵ = modelens fejltermin (også kendt som restprodukter) \ begynde {justert} & y_i = \ beta_0 + \ beta _1 x_ {i1} + \ beta _2 x_ {i2} + ... + \ beta _p x_ {ip} + \ epsilon \\ & \ textbf {hvor, for} i = n \ textbf {observationer:} \\ & y_i = \ text {afhængig variabel} \\ & x_i = \ text {ekspanderende variabler} \\ & \ beta_0 = \ text {y-intercept (konstant udtryk)} \\ & \ beta_p = \ tekst {hældningskoefficienter for hver forklaringsvariabel} \\ & \ epsilon = \ tekst {modelens fejlbegrep (også kendt som rester)} \\ \ end {align} yi = β0 + β1 xi1 + β2 xi2 + ... + βp xip + ϵ hvor, for i = n observationer: yi = afhængig variabel xi = ekspanderende variablerβ0 = y-afskærmning (konstant sigt) pp = Hældningskoefficienter for hver forklaringsvariabelϵ = modellens fejlbegivenhed (også kendt som resterne)

Forklaring af flere lineære regressioner

En simpel lineær regression er en funktion, der gør det muligt for en analytiker eller statistiker at fremsætte forudsigelser om en variabel baseret på den information, der er kendt om en anden variabel. Lineær regression kan kun bruges, når man har to kontinuerlige variabler - en uafhængig variabel og en afhængig variabel. Den uafhængige variabel er den parameter, der bruges til at beregne den afhængige variabel eller resultatet. En multiple regressionsmodel strækker sig til flere forklarende variabler.

Den multiple regressionsmodel er baseret på følgende antagelser:

  • Der er et lineært forhold mellem de afhængige variabler og de uafhængige variabler.
  • De uafhængige variabler er ikke for stærkt korrelerede med hinanden.
  • observationer vælges uafhængigt og tilfældigt fra befolkningen.
  • Restpersoner skal normalt fordeles med et gennemsnit på 0 og varians σ.

Bestemmelseskoefficienten (R-kvadrat) er en statistisk måling, der bruges til at måle, hvor meget af variationen i resultatet, der kan forklares med variationen i de uafhængige variabler. R2 stiger altid, når flere prediktorer føjes til MLR-modellen, selvom prediktorerne muligvis ikke er relateret til udgangsvariablen.

R2 kan i sig selv ikke bruges til at identificere, hvilke forudsigere der skal inkluderes i en model, og hvilke der bør udelukkes. R2 kan kun være mellem 0 og 1, hvor 0 indikerer, at resultatet ikke kan forudsiges af nogen af ​​de uafhængige variabler, og 1 angiver, at resultatet kan forudsiges uden fejl fra de uafhængige variabler.

Når man fortolker resultaterne af en multiple regression, er betakoefficienter gyldige, mens alle andre variabler holdes konstant ("alt andet lige"). Outputet fra en multiple regression kan vises vandret som en ligning eller lodret i tabelform.

Eksempel Brug af multipel lineær regression

F.eks. Vil en analytiker måske vide, hvordan markedsbevægelsen påvirker prisen på Exxon Mobil (XOM). I dette tilfælde har hans lineære ligning værdien af ​​S&P 500-indekset som den uafhængige variabel eller prediktor og prisen på XOM som den afhængige variabel.

I virkeligheden er der flere faktorer, der forudsiger resultatet af en begivenhed. For eksempel afhænger Exxon Mobils prisbevægelse af mere end kun præstationerne på det samlede marked. Andre forudsigere, såsom olieprisen, renter og prisudviklingen på olie futures, kan påvirke prisen på XOM og aktiekurserne i andre olieselskaber. For at forstå et forhold, hvor mere end to variabler er til stede, bruges en multiple lineær regression.

Multipel lineær regression (MLR) bruges til at bestemme et matematisk forhold mellem et antal tilfældige variabler. Med andre ord undersøger MLR, hvordan flere uafhængige variabler er relateret til en afhængig variabel. Når hver af de uafhængige faktorer er blevet bestemt til at forudsige den afhængige variabel, kan informationen om de flere variabler bruges til at skabe en nøjagtig forudsigelse af niveauet for deres effekt på udgangsvariablen. Modellen skaber et forhold i form af en lige linje (lineær), der bedst matcher alle de individuelle datapunkter.

Henvisning til MLR-ligningen ovenfor i vores eksempel:

  • y i = afhængig variabel: pris på XOM
  • x i1 = renter
  • x i2 = oliepris
  • x i3 = værdien af ​​S&P 500-indekset
  • x i4 = pris på olie futures
  • B 0 = y-afskærmning på tidspunktet nul
  • B 1 = regressionskoefficient, der måler en enhedsændring i den afhængige variabel, når x i1 ændres - ændringen i XOM-pris, når renten ændrer sig
  • B 2 = koefficientværdi, der måler en enhedsændring i den afhængige variabel, når x i2 ændres - ændringen i XOM-pris, når oliepriserne ændres

De mindste kvadratestimater, B 0, B 1, B 2 ... B p, beregnes normalt af statistisk software. Så mange variabler kan inkluderes i regressionsmodellen, hvor hver uafhængig variabel er differentieret med et tal — 1, 2, 3, 4 ... p. Den multiple regressionsmodel tillader en analytiker at forudsige et resultat baseret på information leveret om flere forklaringsvariabler.

Modellen er stadig ikke altid helt nøjagtig, da hvert datapunkt kan afvige lidt fra det resultat, modellen forudsiger. Restværdien E, der er forskellen mellem det faktiske udfald og det forudsagte udgang, er inkluderet i modellen for at tage højde for sådanne små variationer.

Forudsat at vi kører vores XOM-prisregressionsmodel gennem en statistikberegningssoftware, der returnerer denne output:

En analytiker vil fortolke dette output, så hvis andre variabler holdes konstant, vil XOM-prisen stige med 7, 8%, hvis prisen på olie på markederne stiger med 1%. Modellen viser også, at prisen på XOM vil falde med 1, 5% efter en rentestigning på 1%. R2 indikerer, at 86, 5% af variationerne i aktiekursen på Exxon Mobil kan forklares med ændringer i rente, oliepris, olie futures og S&P 500 indekset.

Key takeaways

  • Multipel lineær regression (MLR), også kendt simpelt som multiple regression, er en statistisk teknik, der bruger flere forklaringsvariabler til at forudsige resultatet af en responsvariabel.
  • Multipel regression er en udvidelse af lineær (OLS) regression, der kun bruger en forklarende variabel.
  • MLR bruges i vid udstrækning inden for økonometrik og økonomisk inferens.

Forskellen mellem lineær og multiple regression

Lineær (OLS) regression sammenligner responsen af ​​en afhængig variabel, der er givet en ændring i en eller anden forklarende variabel. Det er dog sjældent, at en afhængig variabel kun forklares med en variabel. I dette tilfælde bruger en analytiker flere regression, der forsøger at forklare en afhængig variabel ved hjælp af mere end en uafhængig variabel. Flere regressioner kan være lineære og ikke-lineære.

Flere regressioner er baseret på antagelsen om, at der er en lineær forbindelse mellem både de afhængige og uafhængige variabler. Det antager heller ikke nogen større sammenhæng mellem de uafhængige variabler.

Sammenlign Navn på udbydere af investeringskonti Beskrivelse Annoncørens viden × De tilbud, der vises i denne tabel, er fra partnerskaber, hvorfra Investopedia modtager kompensation.

Relaterede vilkår

Hvad regression måler Regression er en statistisk måling, der forsøger at bestemme styrken i forholdet mellem en afhængig variabel (normalt betegnet med Y) og en række andre skiftende variabler (kendt som uafhængige variabler). mere Hvad er en fejlbetegnelse "> En fejlbetegnelse er defineret som en variabel i en statistisk model, der oprettes, når modellen ikke fuldt ud repræsenterer det faktiske forhold mellem de uafhængige og afhængige variabler. mere Sådan fungerer de mindst kvadrater-metoden mindst kvadrater metode er en statistisk teknik til at bestemme linjen med den bedste fit for en model, der er specificeret af en ligning med visse parametre til observerede data mere Econometrics: Hvad det betyder, og hvordan det bruges Econometrics er anvendelsen af ​​statistiske og matematiske modeller på økonomiske data med det formål at teste teorier, hypoteser og fremtidige tendenser mere R-kvadrat R-kvadrat er et statistisk mål, der repræsenterer andelen af ​​variansen for en afhængig variabel, der forklares med en uafhængig variabel. mere Sådan fungerer koefficienten for bestemmelse Bestemmelseskoefficienten er et mål, der bruges i statistisk analyse til at vurdere, hvor godt en model forklarer og forudsiger fremtidige resultater. Mere Pa rtner Links
Anbefalet
Efterlad Din Kommentar