Test Chi Square v aplikaci Excel | Jak udělat test Chi Square s příkladem

Test chí-kvadrát s Excelem

Chi-Square test v aplikaci Excel je nejčastěji používaný neparametrický test používaný k porovnání dvou nebo více proměnných pro náhodně vybraná data. Jedná se o typ testu, který se používá ke zjištění vztahu mezi dvěma nebo více proměnnými, používá se ve statistikách, které se také nazývají Chi-Square P-hodnota, v aplikaci Excel nemáme vestavěnou funkci, ale můžeme použít vzorce k provedení testu chí-kvadrát v aplikaci Excel pomocí matematického vzorce pro test chí-kvadrát.

Typy

  1. Chi-Square test na dobrou shodu
  2. Chi-Square test nezávislosti dvou proměnných.

# 1 - Chi-Square test na dobrou shodu

Používá se k vnímání blízkosti vzorku, který vyhovuje populaci. Symbol testu Chi-Square je (2). Je to součet všech ( pozorovaný počet - očekávaný počet) 2 / očekávaný počet.

  • kde k-1 stupňů volnosti nebo DF.
  • Kde Oi je pozorovaná frekvence, k jsou kategorie a Ei je očekávaná frekvence.

Poznámka: - Dobrá shoda statistického modelu se týká porozumění tomu, jak dobře se data vzorku hodí k sadě pozorování.

Použití

  • Důvěryhodnost dlužníků na základě jejich věkových skupin a osobních půjček
  • Vztah mezi výkonem prodejců a absolvovaným školením
  • Návratnost jedné akcie a akcií sektoru, jako je farmaceutický nebo bankovní sektor
  • Kategorie diváků a dopad televizní kampaně.

# 2 - Chi-Square test nezávislosti dvou proměnných

Používá se ke kontrole, zda jsou proměnné navzájem autonomní nebo ne. S (r-1) (c-1) stupni volnosti

Kde Oi je pozorovaná frekvence, r je počet řádků, c je počet sloupců a Ei je očekávaná frekvence

Poznámka: - Dvě náhodné proměnné se nazývají nezávislé, pokud rozdělení pravděpodobnosti jedné proměnné není ovlivněno druhou.

Použití

Test nezávislosti je vhodný pro následující situace:

  • Existuje jedna kategorická proměnná.
  • Existují dvě kategorické proměnné a budete muset určit vztah mezi nimi.
  • Existují křížové tabulky a je třeba najít vztah mezi dvěma kategorickými proměnnými.
  • Existují nekvantifikovatelné proměnné (Například odpovědi na otázky typu: vybírají si zaměstnanci v různých věkových skupinách různé typy zdravotních plánů?)

Jak provést test Chi-Square v aplikaci Excel? (s příkladem)

Tuto šablonu Excel testu Chi Square Test si můžete stáhnout zde - Šablona Excel testu Chi Square Test

Manažer restaurace chce najít vztah mezi spokojeností zákazníků a platy lidí čekajících na stoly. V tomto nastavíme hypotézu k testování chí-kvadrátu

  • Vzala náhodný vzorek 100 zákazníků s dotazem, zda byla služba vynikající, dobrá nebo špatná.
  • Poté kategorizuje platy čekajících lidí na nízké, střední a vysoké.
  • Předpokládejme, že úroveň významnosti je 0,05. Zde H0 a H1 označují nezávislost a závislost kvality služeb na platech čekajících lidí.
  • H 0 - kvalita služeb nezávisí na platech lidí čekajících na stoly.
  • H 1 - kvalita služeb závisí na platech lidí čekajících na stole
  • Její zjištění jsou uvedena v následující tabulce:

V tomto máme 9 datových bodů, máme 3 skupiny, z nichž každá dostala jinou zprávu o platu a výsledek je uveden níže.

Nyní budeme počítat součet všech řádků a sloupců. Uděláme to pomocí vzorce, tj. SUMA. Chcete-li dosáhnout součtu vynikajících ve sloupci součtu, napsali jsme = SUM (B4: D4) a poté stiskněte klávesu Enter.

To nám dá 26 . U všech řádků a sloupců provedeme totéž.

Pro výpočet stupně svobody (DF) používáme (r-1) (c-1)

DF = (3-1) (3-1) = 2 * 2 = 4

  • Existují 3 kategorie služeb a 3 kategorie platu
  • Máme 27 respondentů se středním platem (spodní řádek, střední)
  • Máme 51 respondentů s dobrou službou (poslední sloupec, uprostřed)

Nyní musíme vypočítat očekávané frekvence: -

Očekávané frekvence lze vypočítat pomocí vzorce: -

  • Pro výpočet pro Výborný použijeme vynásobení součtu Nízkých a součtu Výborných děleno N.

Předpokládejme, že musíme počítat pro 1. řádek a 1. sloupec (= B7 * E4 / B9 ) . To dá očekávaný počet zákazníků, kteří hlasovali Vynikající služby pro platy čekajících lidí, nízký, tj. 8,32 .

  • E 11 = (32 * 26) / 100 = 8,32 , E 12 = 7,02 , E 13 = 10,66
  • E 21 = 16,32 , E 22 = 13,77 , E 23 = 20,91
  • E 31 = 7,36 , E 32 = 6,21 , E 33 = 9,41

Podobně pro všechny musíme udělat totéž a vzorec se použije v níže uvedeném diagramu.

Získáme tabulku očekávané frekvence, jak je uvedeno níže: -

Poznámka: - Předpokládejme, že úroveň významnosti je 0,05. Zde H0 a H1 označují nezávislost a závislost kvality služeb na platech čekajících lidí.

Po výpočtu očekávané frekvence vypočítáme datové body chí-kvadrát pomocí vzorce

Body Chi-Square = (pozorováno - očekáváno) ^ 2 / očekáváno

Pro výpočet prvního bodu napíšeme = (B4-B14) ^ 2 / B14. 

Zkopírujeme a vložíme vzorec do jiných buněk, abychom automaticky vyplnili hodnotu.

Poté vypočítáme hodnotu chi (vypočítaná hodnota) sečtením všech hodnot uvedených nad tabulkou

Hodnotu Chi jsme dostali jako 18 65823 .

K výpočtu kritické hodnoty použijeme tabulku kritických hodnot chí-kvadrát, můžeme použít vzorec uvedený níže.

Tento vzorec obsahuje 2 parametry CHISQ.INV.RT (pravděpodobnost, stupeň volnosti).

Pravděpodobnost je 0,05, je to významná hodnota, která nám pomůže určit, zda přijmout nulovou hypotézu (H 0 ) nebo ne.

Kritická hodnota chí-kvadrátu je 9,487729037.

Nyní najdeme hodnotu chí-kvadrátu nebo (hodnota P) = CHITEST (skutečný_rozsah, očekávaný_rozsah)

Rozsah od = CHITEST (B4: D6, B14: D16) .

Jak jsme viděli, hodnota chi-testu nebo P-hodnoty je = 0,00091723.

Jak jsme viděli, vypočítali jsme všechny hodnoty. Hodnoty chí-kvadrát (vypočítaná hodnota) jsou významné pouze tehdy, když je jejich hodnota stejná nebo větší než kritická hodnota 9,48, tj. Kritická hodnota (tabulková hodnota) musí být vyšší než 18,65, aby se akceptovala nulová hypotéza (H 0 ) .

Ale zde Vypočítaná hodnota > Tabulková hodnota

X2 (vypočteno)> X2 (uvedeno v tabulce)

18,65> 9,48

V tomto případě odmítneme nulovou hypotézu (H 0 ) a bude přijata Alternativní (H 1 ) .

  • Můžeme také použít P-hodnotu k předpovědi stejné, tj. Pokud P-hodnota <= α (významná hodnota 0,05), bude nulová hypotéza odmítnuta
  • Pokud je hodnota P> α , nezavrhujte  nulovou hypotézu .

Zde P-hodnota (0,0009172) < α (0,05), odmítnout H 0 , přijmout H 1

Z výše uvedeného příkladu usuzujeme, že kvalita služby závisí na platech čekajících lidí.

Věci k zapamatování

  • Považuje druhou mocninu standardní normály.
  • Vyhodnocuje, zda se frekvence pozorované v různých kategoriích významně liší od frekvencí očekávaných při stanovené sadě předpokladů.
  • Určuje, jak dobře se předpokládaná distribuce hodí k datům.
  • Používá kontingenční tabulky (v průzkumech trhu se tyto tabulky nazývají křížové karty).
  • Podporuje měření na nominální úrovni.