Odlehlá formule | Krok za krokem výpočet odlehlé hodnoty (s příkladem)
Outlierův vzorec poskytuje grafický nástroj pro výpočet dat, která se nacházejí mimo danou sadu distribuce, která může být vnitřní nebo vnější strana v závislosti na proměnných.
Co je Outlier Formula?
Odlehlá hodnota je datový bod daného vzorku nebo daného pozorování nebo v distribuci, která musí ležet mimo celkový vzor. Běžně používané pravidlo, které říká, že datový bod bude považován za odlehlou hodnotu, pokud má více než 1,5 IQR pod prvním kvartilem nebo nad třetím kvartilem.
Jinak řečeno, nízké odlehlé hodnoty budou ležet pod Q1-1,5 IQR a vysoké odlehlé hodnoty budou ležet Q3 + 1,5 IQR
Je třeba vypočítat medián, kvartily včetně IQR, Q1 a Q3.
Odlehlý vzorec je znázorněn následovně,
Vzorec pro Q1 = ¼ (n + 1) th termín Vzorec pro Q3 = ¾ (n + 1) th termín Vzorec pro Q2 = Q3 - Q1
Krok za krokem výpočet odlehlé hodnoty
Níže uvedené kroky je třeba provést pro výpočet odlehlé hodnoty.
- Krok 1: Nejprve vypočítejte kvartily, tj. Q1, Q2 a mezikvartil
- Krok 2: Nyní vypočítejte hodnotu Q2 * 1,5
- Krok 3: Nyní odečtěte hodnotu Q1 od hodnoty vypočítané v kroku 2
- Krok 4: Zde přidejte Q3 s hodnotou vypočítanou v kroku 2
- Krok 5: Vytvořte rozsah hodnot vypočítaných v kroku 3 a kroku 4
- Krok 6: Uspořádejte data ve vzestupném pořadí
- Krok 7: Zkontrolujte, zda jsou nějaké hodnoty nižší nebo vyšší než rozsah vytvořený v kroku 5
Příklad
Vezměte v úvahu datovou sadu následujících čísel: 10, 2, 4, 7, 8, 5, 11, 3, 12. Je nutné vypočítat všechny odlehlé hodnoty.
Řešení:
Nejprve musíme uspořádat data vzestupně, abychom našli medián, který pro nás bude Q2.
2, 3, 4, 5, 7, 8, 10, 11, 12
Nyní, protože počet pozorování je lichý, což je 9, bude medián ležet na 5. pozici, což je 7 a stejný bude Q2 pro tento příklad.
Proto je výpočet Q1 následující -
Q1 = ¼ (9 + 1)
= ¼ (10)
Q1 bude -
Q1 = 2,5 období
To znamená, že Q1 je průměr 2. a 3. pozice pozorování, což je zde 3 a 4 a průměrná hodnota je (3 + 4) / 2 = 3,5
Výpočet Q3 je tedy následující -
Q3 = ¾ (9 + 1)
= ¾ (10)
Q3 bude -
Q3 = 7,5 období
To znamená, že Q3 je průměrem 7. a 8. pozice pozorování, což je zde 10 a 11 a jejich průměr je (10 + 11) / 2 = 10,5
Nyní budou nízké odlehlé hodnoty ležet pod Q1-1,5IQR a vysoké odlehlé hodnoty budou ležet Q3 + 1,5IQR
Hodnoty jsou tedy 3,5 - (1,5 * 7) = -7 a vyšší rozsah je 10,5 + (1,5 * 7) = 110,25.
Protože neexistují žádná pozorování, která leží nad nebo pod 110,25 a -7, nemáme v tomto vzorku žádné odlehlé hodnoty.
Příklad odlehlého vzorce v aplikaci Excel (s šablonou Excel)
Tuto šablonu Outlier Formula Excel si můžete stáhnout zde - Šablona Outlier Formula Excel
Kurzy kreativního koučování zvažují odměnu studentů, kteří jsou v top 25%. Chtějí se však vyhnout odlehlým hodnotám. Data jsou pro 25 studentů. Použijte Outlierovu rovnici k určení, zda existuje odlehlá hodnota?
Řešení:
Níže jsou uvedeny údaje pro výpočet odlehlé hodnoty
Počet pozorování je zde 25 a náš první krok by byl převod nad surová data ve vzestupném pořadí.
Medián bude -
Mediánová hodnota = ½ (n + 1)
= ½ = ½ (26)
= 13. termín
Q2 nebo medián je 68,00
Což je 50% populace.
Q1 bude -
Q1 = ¼ (n + 1) th termín
= ¼ (25 + 1)
= ¼ (26)
= 6,5. Období, což odpovídá 7. období
Q1 je 56,00, což je spodní 25%
Q3 bude -
Nakonec Q3 = ¾ (n + 1) th termín
= ¾ (26)
= 19,50 období
Zde je třeba vzít průměr, který je z 19. a 20. termínu, což je 77 a 77 a průměr stejný je (77 + 77) / 2 = 77,00
Q3 je 77, což je nejlepších 25%
Nízký rozsah
Nyní budou nízké odlehlé hodnoty ležet pod Q1-1,5IQR a vysoké odlehlé hodnoty budou ležet Q3 + 1,5IQR
Vysoký dosah -
Hodnoty jsou tedy 56 - (1,5 * 68) = -46 a vyšší rozsah je 77 + (1,5 * 68) = 179.
Neexistují žádné odlehlé hodnoty.
Relevance a použití
Vzorec odlehlých hodnot je velmi důležité vědět, protože by mohla existovat data, která by byla o takovou hodnotu vychýlena. Vezměte si příklad pozorování 2, 4, 6, 101 a nyní, pokud někdo vezme průměr těchto hodnot, bude to 28,25, ale 75% pozorování leží pod 7, a proto by bylo nesprávné rozhodnutí týkající se pozorování tohoto vzorku.
Zde je možné si všimnout, že 101 se zjevně jeví jako obrys, a pokud je toto odstraněno, průměr by byl 4, což o hodnotách nebo pozorováních říká, že leží v rozmezí 4. Proto je velmi důležité provést tento výpočet, aby se zabránilo jakékoli zneužití úvodních informací o datech. Statistiky po celém světě je často používají, kdykoli provádějí jakýkoli výzkum.