Vigtigste » algoritmisk handel » Grundlæggende om regression til forretningsanalyse

Grundlæggende om regression til forretningsanalyse

algoritmisk handel : Grundlæggende om regression til forretningsanalyse

Hvis du nogensinde har spekuleret på, hvordan to eller flere stykker data forholder sig til hinanden (f.eks. Hvordan BNP påvirkes af ændringer i arbejdsløshed og inflation), eller hvis du nogensinde har fået din chef til at bede dig om at oprette en prognose eller analysere forudsigelser baseret om forhold mellem variabler, så ville det være værd at bruge tid på at lære regressionsanalyse.

I denne artikel lærer du det grundlæggende ved enkel lineær regression, nogle gange kaldet 'almindelige mindstekvadrater' eller OLS-regression - et værktøj, der ofte bruges til prognoser og økonomisk analyse. Vi begynder med at lære de grundlæggende principper for regression, først lære om kovarians og korrelation og derefter gå videre til at opbygge og fortolke et regressionsoutput. Populær forretningssoftware som Microsoft Excel kan gøre alle regressionsberegninger og output for dig, men det er stadig vigtigt at lære den underliggende mekanik.

Variable

I hjertet af en regressionsmodel er forholdet mellem to forskellige variabler, kaldet de afhængige og uafhængige variabler. Antag f.eks., At du ønsker at forudsige salg for din virksomhed, og du har konkluderet, at din virksomheds salg går op og ned afhængigt af ændringer i BNP.

Det salg, du forudsiger, vil være den afhængige variabel, fordi deres værdi "afhænger" af værdien af ​​BNP, og BNP vil være den uafhængige variabel. Du skal derefter bestemme styrken for forholdet mellem disse to variabler for at kunne forudsige salg. Hvis BNP stiger / falder med 1%, hvor meget vil dit salg stige eller falde?

kovarians

Cov (x, y) = ∑ (xn − xu) (yn − yu) N \ begynde {justeret} & Cov (x, y) = \ sum \ frac {(x_n - x_u) (y_n - y_u)} {N } \\ \ end {alignet} Cov (x, y) = ∑N (xn −xu) (yn −yu)

Formlen til beregning af forholdet mellem to variabler kaldes covariance. Denne beregning viser retningen for forholdet. Hvis den ene variabel stiger, og den anden variabel har en tendens til også at stige, ville samvariationen være positiv. Hvis den ene variabel går op, og den anden har en tendens til at gå ned, ville samvariationen være negativ.

Det faktiske antal, du får ved at beregne dette, kan være svært at fortolke, fordi det ikke er standardiseret. En samvariation på fem kan for eksempel fortolkes som et positivt forhold, men styrkens forhold kan kun siges at være stærkere, end hvis antallet var fire eller svagere end hvis antallet var seks.

Korrelationskoefficient

Korrelation = ρxy = Covxysxsy \ begynde {rettet} & Korrelation = \ rho_ {xy} = \ frac {Cov_ {xy}} {s_x s_y} \\ \ end {justeret} Korrelation = ρxy = sx sy Covxy

Vi er nødt til at standardisere samvariationen for at give os mulighed for bedre at tolke og bruge den til prognoser, og resultatet er korrelationsberegningen. Korrelationsberegningen tager simpelthen samvariationen og deler den med produktet af standardafvigelsen for de to variabler. Dette vil binde sammenhængen mellem en værdi på -1 og +1.

En korrelation på +1 kan fortolkes for at antyde, at begge variabler bevæger sig perfekt positivt med hinanden, og en -1 indebærer, at de er perfekt negativt korrelerede. I vores tidligere eksempel, hvis korrelationen er +1 og BNP stiger med 1%, ville salget stige med 1%. Hvis korrelationen er -1, ville en stigning på 1% i BNP resultere i et fald i salget på 1% - det modsatte.

Regression ligning

Nu hvor vi ved, hvordan det relative forhold mellem de to variabler beregnes, kan vi udvikle en regressionsligning til at forudsige eller forudsige den variabel, vi ønsker. Nedenfor er formlen for en enkel lineær regression. "Y" er den værdi, vi prøver at forudsige, "b" er hældningen for regressionslinjen, "x" er værdien af ​​vores uafhængige værdi, og "a" repræsenterer y-skæringen. Regressionsligningen beskriver ganske enkelt forholdet mellem den afhængige variabel (y) og den uafhængige variabel (x).

y = bx + a \ begynde {justeret} & y = bx + a \\ \ end {justeret} y = bx + a

Afskæringen, eller "a", er værdien af ​​y (afhængig variabel), hvis værdien af ​​x (uafhængig variabel) er nul, og det kaldes nogle gange simpelthen 'konstanten'. Så hvis der ikke var nogen ændring i BNP, ville din virksomhed stadig sælge noget - denne værdi, når ændringen i BNP er nul, er afskærmningen. Se på grafen herunder for at se en grafisk afbildning af en regressionsligning. I denne graf er der kun fem datapunkter repræsenteret af de fem prikker på grafen. Lineær regression forsøger at estimere en linje, der bedst passer til dataene (en linje med bedste pasform), og ligning af den linje resulterer i regressionsligningen.

Figur 1: Line med bedste pasform

Kilde: Investopedia

Regressioner i Excel

Nu hvor du forstår noget af baggrunden, der går i en regressionsanalyse, lad os gøre et simpelt eksempel ved hjælp af Excel's regressionsværktøjer. Vi vil bygge videre på det forrige eksempel på forsøg på at forudsige næste års salg baseret på ændringer i BNP. Den næste tabel viser nogle kunstige datapunkter, men disse numre kan være let tilgængelige i det virkelige liv.

ÅrSalgBNP
20141001, 00%
20152501, 90%
20162752, 40%
20172002, 60%
20183002, 90%

Bare eyeballing bordet, kan du se, at der vil være en positiv sammenhæng mellem salg og BNP. Begge har tendens til at gå op sammen. Brug af Excel, alt hvad du skal gøre er at klikke på rullemenuen Værktøjer, vælge Dataanalyse og derfra vælge Regression . Pop-up-boksen er let at udfylde derfra; dit input-Y-område er din "Salg" -kolonne, og din Input X-rækkevidde er ændringen i BNP-kolonne; vælg outputområdet, hvor du vil have dataene til at vises på dit regneark, og tryk på OK. Du skal se noget, der ligner det, der er vist i nedenstående tabel:

Regressionsstatistikskoefficienter

Flere R0.8292243Intercept34, 58409

R Square


0.687613BNP88, 15552
Justeret
R Square


0.583484

-


-


Standard fejl51.021807-

-


Observationer5

-


-


Tolkning

De vigtigste output, du skal være opmærksom på for simpel lineær regression, er R-kvadreret, afskærmningen (konstant) og BNP's beta (b) -koefficient. R-kvadratnummeret i dette eksempel er 68, 7% - dette viser, hvor godt vores model forudsiger eller forudsiger det fremtidige salg, hvilket antyder, at de forklarende variabler i modellen forudsagde 68, 7% af variationen i den afhængige variabel. Dernæst har vi en afskærmning på 34, 58, som fortæller os, at hvis ændringen i BNP var forventet at være nul, ville vores salg være omkring 35 enheder. Og endelig fortæller BNP-beta- eller korrelationskoefficienten på 88, 15 os, at hvis BNP stiger med 1%, vil salget sandsynligvis stige med ca. 88 enheder.

Bundlinjen

Så hvordan ville du bruge denne enkle model i din virksomhed ">

Naturligvis er dette bare en simpel regression, og der er modeller, som du kan opbygge, der bruger flere uafhængige variabler kaldet flere lineære regressioner. Men flere lineære regressioner er mere komplicerede og har adskillige problemer, der ville have brug for en anden artikel for at diskutere.

Sammenlign Navn på udbydere af investeringskonti Beskrivelse Annoncørens viden × De tilbud, der vises i denne tabel, er fra partnerskaber, hvorfra Investopedia modtager kompensation.
Anbefalet
Efterlad Din Kommentar