Chi Square (χ2) statistisk definition
Hvad er en Chi Square-statistik?En chi-firkant ( χ 2 ) statistik er en test, der måler, hvordan forventningerne sammenlignes med faktiske observerede data (eller modelresultater). De data, der bruges til beregning af en chi-kvadratstatistik, skal være tilfældige, rå, gensidigt eksklusive, trukket fra uafhængige variabler og trukket fra en stor nok prøve. For eksempel opfylder resultaterne af at kaste en mønt 100 gange disse kriterier.
Chi-kvadratforsøg bruges ofte i hypotesetest.
Formlen til Chi Square er
χc2 = ∑ (Oi − Ei) 2Erhver: c = frihedsgraderO = observeret værdi (er) E = forventet værdi (r) \ begynde {justeret} & \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^ 2} {E_i} \\ & \ textbf {hvor:} \\ & c = \ tekst {frihedsgrader} \\ & O = \ tekst {observeret værdi (r)} \\ & E = \ tekst {forventet værdi (r) )} \\ \ end {alignet} χc2 = ∑Ei (Oi −Ei) 2 hvor: c = frihedsgraderO = observeret værdi (r) E = forventet værdi (r)
Hvad fortæller en Chi Square-statistik dig?
Der er to hovedtyper af chi-kvadrat-tests: testen for uafhængighed, der stiller et spørgsmål om forhold, såsom "Er der et forhold mellem køn og SAT-score?"; og testen af godhed-af-fit, som spørger noget i retning af "Hvis en mønt kastes 100 gange, kommer den op 50 gange og haler 50 gange?"
Til disse test anvendes grader af frihed til at bestemme, om en bestemt nulhypotese kan afvises baseret på det samlede antal variabler og prøver i eksperimentet.
For eksempel, når man overvejer studerende og valg af kursus, er en prøvestørrelse på 30 eller 40 studerende sandsynligvis ikke stor nok til at generere betydelige data. At få de samme eller lignende resultater fra en undersøgelse, der bruger en prøvestørrelse på 400 eller 500 studerende, er mere gyldig.
I et andet eksempel kan du overveje at kaste en mønt 100 gange. Det forventede resultat af at kaste en fair mønt 100 gange er, at hovederne kommer op 50 gange og halerne kommer op 50 gange. Det faktiske resultat kan være, at hovederne kommer op 45 gange og halerne kommer op 55 gange. Chi-kvadratstatistikken viser eventuelle uoverensstemmelser mellem de forventede resultater og de faktiske resultater.
Key takeaways
- En chi-firkant (χ 2 ) statistik er en test, der måler, hvordan forventningerne sammenlignes med faktiske observerede data.
- Der er to hovedtyper af chi-kvadrat-tests: testen af uafhængighed for data og test af godhedens pasform til en model.
- Disse test kan bruges til at bestemme, om en bestemt nulhypotese kan afvises ved hypotese-test.
Eksempel på en Chi-kvadrat-test
Forestil dig, at der blev taget en tilfældig afstemning over 2.000 forskellige vælgere, både mandlige og kvindelige. De mennesker, der svarede, blev klassificeret efter deres køn, og om de var republikanske, demokratiske eller uafhængige. Forestil dig et gitter med søjlerne mærket republikansk, demokrat og uafhængig og to rækker mærket mand og kvinde. Antag, at dataene fra de 2.000 respondenter er som følger:
republikanske | demokrat | Uafhængig | i alt | |
Han | 400 | 300 | 100 | 800 |
Kvinde | 500 | 600 | 100 | 1200 |
i alt | 900 | 900 | 200 | 2000 |
Det første trin til at beregne chi-kvadratstatistikken er at finde de forventede frekvenser. Disse beregnes for hver "celle" i gitteret. Da der er to kategorier af køn og tre kategorier af politisk syn, er der seks samlede forventede frekvenser. Formlen for den forventede frekvens er:
E (r, c) = n (r) × c (r) nwhere: r = række i spørgsmålc = kolonne i spørgsmåln = tilsvarende total \ begynde {justeret} & E (r, c) = \ frac {n (r) \ gange c (r)} {n} \\ & \ textbf {hvor:} \\ & r = \ tekst {række i spørgsmål} \\ & c = \ tekst {kolonne i spørgsmål} \\ & n = \ tekst {tilsvarende total } \\ \ end {alignet} E (r, c) = nn (r) × c (r) hvor: r = række i spørgsmålc = kolonne i spørgsmåln = tilsvarende total
I dette eksempel er de forventede frekvenser:
- E (1, 1) = (900 x 800) / 2.000 = 360
- E (1, 2) = (900 x 800) / 2000 = 360
- E (1, 3) = (200 x 800) / 2.000 = 80
- E (2, 1) = (900 x 1200) / 2000 = 540
- E (2, 2) = (900 x 1200) / 2000 = 540
- E (2, 3) = (200 x 1200) / 2000 = 120
Dernæst bruges disse værdier til at beregne chi-kvadratstatistikken ved hjælp af følgende formel:
Chi-kvadrat = ∑ [O (r, c) −E (r, c)] 2E (r, c) hvor: O (r, c) = observerede data for den givne række og kolonne \ begynde {justeret} & \ text {Chi-squared} = \ sum \ frac {[O (r, c) - E (r, c)] ^ 2} {E (r, c)} \\ & \ textbf {hvor:} \\ & O (r, c) = \ tekst {observerede data for den givne række og kolonne} \\ \ ende {justeret} Chi-kvadrat = ∑E (r, c) [O (r, c) −E (r, c)] 2 hvor: O (r, c) = observerede data for den givne række og kolonne
I dette eksempel er udtrykket for hver observeret værdi:
- O (1, 1) = (400 - 360) 2/360 = 4, 44
- O (1, 2) = (300 - 360) 2/360 = 10
- O (1, 3) = (100 - 80) 2/80 = 5
- O (2, 1) = (500 - 540) 2/540 = 2, 96
- O (2, 2) = (600 - 540) 2/540 = 6, 67
- O (2, 3) = (100 - 120) 2/120 = 3, 33
Chi-kvadratstatistikken er derefter lig med summen af disse værdi eller 32, 41. Vi kan derefter se på et chi-kvadratisk statistikbord for at se, i betragtning af graderne af frihed i vores opsætning, om resultatet er statistisk signifikant eller ej.
Sammenlign Navn på udbydere af investeringskonti Beskrivelse Annoncørens viden × De tilbud, der vises i denne tabel, er fra partnerskaber, hvorfra Investopedia modtager kompensation.