Vigtigste » forretningsførere » Chi Square (χ2) statistisk definition

Chi Square (χ2) statistisk definition

forretningsførere : Chi Square (χ2) statistisk definition
Hvad er en Chi Square-statistik?

En chi-firkant ( χ 2 ) statistik er en test, der måler, hvordan forventningerne sammenlignes med faktiske observerede data (eller modelresultater). De data, der bruges til beregning af en chi-kvadratstatistik, skal være tilfældige, rå, gensidigt eksklusive, trukket fra uafhængige variabler og trukket fra en stor nok prøve. For eksempel opfylder resultaterne af at kaste en mønt 100 gange disse kriterier.

Chi-kvadratforsøg bruges ofte i hypotesetest.

Formlen til Chi Square er

χc2 = ∑ (Oi − Ei) 2Erhver: c = frihedsgraderO = observeret værdi (er) E = forventet værdi (r) \ begynde {justeret} & \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^ 2} {E_i} \\ & \ textbf {hvor:} \\ & c = \ tekst {frihedsgrader} \\ & O = \ tekst {observeret værdi (r)} \\ & E ​​= \ tekst {forventet værdi (r) )} \\ \ end {alignet} χc2 = ∑Ei (Oi −Ei) 2 hvor: c = frihedsgraderO = observeret værdi (r) E = forventet værdi (r)

Hvad fortæller en Chi Square-statistik dig?

Der er to hovedtyper af chi-kvadrat-tests: testen for uafhængighed, der stiller et spørgsmål om forhold, såsom "Er der et forhold mellem køn og SAT-score?"; og testen af ​​godhed-af-fit, som spørger noget i retning af "Hvis en mønt kastes 100 gange, kommer den op 50 gange og haler 50 gange?"

Til disse test anvendes grader af frihed til at bestemme, om en bestemt nulhypotese kan afvises baseret på det samlede antal variabler og prøver i eksperimentet.

For eksempel, når man overvejer studerende og valg af kursus, er en prøvestørrelse på 30 eller 40 studerende sandsynligvis ikke stor nok til at generere betydelige data. At få de samme eller lignende resultater fra en undersøgelse, der bruger en prøvestørrelse på 400 eller 500 studerende, er mere gyldig.

I et andet eksempel kan du overveje at kaste en mønt 100 gange. Det forventede resultat af at kaste en fair mønt 100 gange er, at hovederne kommer op 50 gange og halerne kommer op 50 gange. Det faktiske resultat kan være, at hovederne kommer op 45 gange og halerne kommer op 55 gange. Chi-kvadratstatistikken viser eventuelle uoverensstemmelser mellem de forventede resultater og de faktiske resultater.

Key takeaways

  • En chi-firkant (χ 2 ) statistik er en test, der måler, hvordan forventningerne sammenlignes med faktiske observerede data.
  • Der er to hovedtyper af chi-kvadrat-tests: testen af ​​uafhængighed for data og test af godhedens pasform til en model.
  • Disse test kan bruges til at bestemme, om en bestemt nulhypotese kan afvises ved hypotese-test.

Eksempel på en Chi-kvadrat-test

Forestil dig, at der blev taget en tilfældig afstemning over 2.000 forskellige vælgere, både mandlige og kvindelige. De mennesker, der svarede, blev klassificeret efter deres køn, og om de var republikanske, demokratiske eller uafhængige. Forestil dig et gitter med søjlerne mærket republikansk, demokrat og uafhængig og to rækker mærket mand og kvinde. Antag, at dataene fra de 2.000 respondenter er som følger:

republikanskedemokratUafhængigi alt
Han400300100800
Kvinde5006001001200
i alt9009002002000

Det første trin til at beregne chi-kvadratstatistikken er at finde de forventede frekvenser. Disse beregnes for hver "celle" i gitteret. Da der er to kategorier af køn og tre kategorier af politisk syn, er der seks samlede forventede frekvenser. Formlen for den forventede frekvens er:

E (r, c) = n (r) × c (r) nwhere: r = række i spørgsmålc = kolonne i spørgsmåln = tilsvarende total \ begynde {justeret} & E (r, c) = \ frac {n (r) \ gange c (r)} {n} \\ & \ textbf {hvor:} \\ & r = \ tekst {række i spørgsmål} ​​\\ & c = \ tekst {kolonne i spørgsmål} ​​\\ & n = \ tekst {tilsvarende total } \\ \ end {alignet} E (r, c) = nn (r) × c (r) hvor: r = række i spørgsmålc = kolonne i spørgsmåln = tilsvarende total

I dette eksempel er de forventede frekvenser:

  • E (1, 1) = (900 x 800) / 2.000 = 360
  • E (1, 2) = (900 x 800) / 2000 = 360
  • E (1, 3) = (200 x 800) / 2.000 = 80
  • E (2, 1) = (900 x 1200) / 2000 = 540
  • E (2, 2) = (900 x 1200) / 2000 = 540
  • E (2, 3) = (200 x 1200) / 2000 = 120

Dernæst bruges disse værdier til at beregne chi-kvadratstatistikken ved hjælp af følgende formel:

Chi-kvadrat = ∑ [O (r, c) −E (r, c)] 2E (r, c) hvor: O (r, c) = observerede data for den givne række og kolonne \ begynde {justeret} & \ text {Chi-squared} = \ sum \ frac {[O (r, c) - E (r, c)] ^ 2} {E (r, c)} \\ & \ textbf {hvor:} \\ & O (r, c) = \ tekst {observerede data for den givne række og kolonne} \\ \ ende {justeret} Chi-kvadrat = ∑E (r, c) [O (r, c) −E (r, c)] 2 hvor: O (r, c) = observerede data for den givne række og kolonne

I dette eksempel er udtrykket for hver observeret værdi:

  • O (1, 1) = (400 - 360) 2/360 = 4, 44
  • O (1, 2) = (300 - 360) 2/360 = 10
  • O (1, 3) = (100 - 80) 2/80 = 5
  • O (2, 1) = (500 - 540) 2/540 = 2, 96
  • O (2, 2) = (600 - 540) 2/540 = 6, 67
  • O (2, 3) = (100 - 120) 2/120 = 3, 33

Chi-kvadratstatistikken er derefter lig med summen af ​​disse værdi eller 32, 41. Vi kan derefter se på et chi-kvadratisk statistikbord for at se, i betragtning af graderne af frihed i vores opsætning, om resultatet er statistisk signifikant eller ej.

Sammenlign Navn på udbydere af investeringskonti Beskrivelse Annoncørens viden × De tilbud, der vises i denne tabel, er fra partnerskaber, hvorfra Investopedia modtager kompensation.

Relaterede vilkår

Degrees of Freedom Definition Degrees of Freedom refererer til det maksimale antal logisk uafhængige værdier, som er værdier, der har frihed til at variere, i dataprøven. mere Definition af T-test En t-test er en type inferentiel statistik, der bruges til at bestemme, om der er en betydelig forskel mellem midlerne fra to grupper, som kan være relateret til visse funktioner. mere Hvad Inverse Correlation fortæller os En omvendt korrelation, også kendt som negativ korrelation, er et modsat forhold mellem to variabler, så de bevæger sig i modsatte retninger. mere Sådan fungerer den resterende standardafvigelse Den resterende standardafvigelse er et statistisk udtryk, der bruges til at beskrive forskellen i standardafvigelser af observerede værdier kontra forudsagte værdier som vist ved punkter i en regressionsanalyse. mere Sådan fungerer analyse af variation (ANOVA) Variansanalyse (ANOVA) er et statistisk analyseværktøj, der adskiller den samlede variation, der findes i et datasæt, i to komponenter: tilfældige og systematiske faktorer. mere Korrelation Korrelation er et statistisk mål for, hvordan to værdipapirer bevæger sig i forhold til hinanden. flere Partner Links
Anbefalet
Efterlad Din Kommentar