the popisná opatření Jsou základem popisné statistiky a ačkoli mohou znít velmi technicky, ve skutečnosti je používáme denně, aniž bychom si to uvědomovali. Pokaždé, když mluvíte o „průměrné známce ze zkoušky“, „většina lidí dává přednost...“ nebo že „mezi platy je velký rozdíl“, nevědomky používáte myšlenky související s těmito ukazateli.
V žádném případě analýza datAť už v sociálních vědách, ekonomii, zdravotnictví nebo v každodenním provozu firmy, potřebujeme nástroje, které nám pomohou shrnout, uspořádat a porozumět velkému množství informacíPřesně to dělají deskriptivní míry: zhušťují spoustu čísel do několika snadno interpretovatelných hodnot, což nám umožňuje na první pohled vidět, co se děje s proměnnými, které studujeme.
Co jsou to deskriptivní měřítka a k čemu se používají?
Když o tom mluvíme popisné míry ve statistice Máme na mysli soubor číselných hodnot vypočítaných z dat, které shrnují různé aspekty jejich chování. Tato měření nám umožňují odpovědět na otázky typu: Jaká je „typická“ hodnota? Jak jsou data seskupena? Existuje velká variabilita? Jak podobná jsou si pozorování?
Pro organizaci tohoto úkolu se popisné míry obvykle seskupují do několika kategorií: míry polohy nebo centrální tendence, které označují, kde se data „nacházejí“; míry rozptylukteré nám říkají, jak daleko jsou od sebe navzájem; a další doplňkové ukazatele, jako jsou relativní koeficienty nebo některé ukazatele tvaru, které mohou pomoci zpřesnit analýzu.
V mnoha univerzitních poznámkách a manuálech se popisné míry objevují doprovázené jednoduché numerické příkladynapříklad malé sady bankovek, platy nebo prodané množství. Je to proto, že nejlepším způsobem, jak pochopit, k čemu každé z těchto měření přispívá, je zjistit, jak se počítají a jaké konkrétní informace nám poskytují o velkém souboru pozorování.

Míry polohy nebo centrální tendence
the míry polohy nebo centrální tendence Říkají nám, kterou hodnotu lze považovat za nejreprezentativnější pro danou datovou sadu. Dávají nám představu o tom, kde jsou pozorování „koncentrována“, nebo jaká by byla typická nebo centrální hodnota. Nejčastěji používané jsou média, střední a módakaždý s vlastními zvláštnostmi a doporučeným použitím.
Tyto míry platí jak pro neseskupená data (seznamy jednotlivých hodnot), tak pro data seskupená v tabulkách četností. Mnoho univerzitních statistických materiálů začíná vysvětlením nejjednodušší verze s použitím sady hodnot X1, X2, …, Xn a poté zobecňuje na složitější případy. Důležité je pochopit, co každá míra představuje a kdy má smysl ji použít.
Vzorkový průměr nebo průměr
La průměr vzorku Je to pravděpodobně nejznámější míra centrální tendence. Pokud máme n datových bodů X1, X2, …, Xn, výběrový průměr je jejich aritmetický průměr, tj. součet všech hodnot dělený celkovým počtem pozorování. Je to slavný „průměr“, který se zmiňuje při diskusi o známkách, platech, čekacích dobách nebo jakékoli jiné kvantitativní veličině.
Formálně, pokud nazveme X̄ Výběrový průměr se vypočítá jako X̄ = (X1 + X2 + … + Xn) / n. Mnoho poznámek uvádí tuto definici ve stručné formě, ale podstatné je pochopit, že průměr rovnoměrně rozděluje „celkové množství“ mezi všechny jednotlivce. Například pokud sečteme známky skupiny studentů a vydělíme je počtem studentů, získáme průměrnou známku, která udává celkový výkon skupiny.
Výběrový průměr má velmi užitečné vlastnosti, ale také významnou nevýhodu: Je velmi citlivý na extrémní hodnoty.Pokud je hodnota v datové sadě výrazně větší nebo menší než zbytek, tato hodnota „zvedne“ nebo sníží průměr. V situacích s velmi výraznými odlehlými hodnotami proto nemusí být nejvhodnějším měřítkem pro shrnutí celkové pozice.
Ukázkový režim
La vzorový režim Je to hodnota, která se v datové sadě objevuje nejčastěji. Je definována jako datový bod s nejvyšší absolutní četností, tj. ten, který se objevuje nejčastěji. Na rozdíl od průměru se nezískává aritmetickými operacemi, ale spíše spočítáním, kolikrát je každá možná hodnota pozorována.
Důležitým detailem je móda Možná neexistuje nebo nemusí být jedinečnýJe možné, aby všechny hodnoty byly odlišné a žádná se neopakovala více než jednou; v takovém případě se rozdělení nazývá amodální. Je také možné, aby dvě nebo více hodnot mělo stejnou maximální frekvenci; pak hovoříme o bimodálním nebo multimodálním rozdělení a několik módů se uvažuje současně.
Móda je obzvláště užitečná, když pracujeme s kvalitativní nebo kategoriální proměnnékde výpočet číselného průměru nedává smysl. Pokud například chceme znát většinovou preferenci mezi několika možnostmi odpovědi, modus nám říká, kterou kategorii si dotazovaní volí nejčastěji.
Medián vzorku
La medián vzorku Medián je hodnota, která zaujímá centrální pozici při seřazení dat od nejmenší po největší. Pro jeho získání se nejprve přeskupí pozorování a poté se vyhledá střední hodnota. Pokud je počet pozorování lichý, medián je přesně tato centrální hodnota; pokud je sudý, je definován jako průměr dvou centrálních hodnot.
V mnoha jednoduchých příkladech jsou tyto kroky vysvětleny velmi názorně: data jsou uvedena, seřazena a poté proškrtána zvenčí dovnitř, dokud nezůstane pouze ta uprostřed. Z toho je jasné, že medián je bod, který rozdělte vzorek na dvě poloviny50 % dat je pod touto hodnotou a zbývajících 50 % nad ní.
Zajímavým detailem je, že na rozdíl od průměru je medián Není tolik ovlivněno extrémními hodnotami.Pokud do uspořádané množiny přidáme velmi velkou nebo velmi malou hodnotu, medián se může sotva změnit, zatímco průměr se posune výrazně. Proto v případě, že existují odlehlé hodnoty nebo je rozdělení velmi asymetrické, je medián často považován za robustnější míru centrální tendence.
Příklad průměru, mediánu a modu
Výukové materiály často obsahují podobný příklad: jsou uvedena data 3, 5, 7, 7, 8, 9 a jsou požadovány hlavní míry centrální tendence. Průměr se vypočítá sečtením všech hodnot a vydělením celkovým počtem datových bodů: (3 + 5 + 7 + 7 + 8 + 9) / 6 = 39 / 6 = 6,5. Tedy Průměr vzorku je 6,5, což by byla průměrná hodnota sady.
Při pohledu na seřazený seznam vidíme, že centrální hodnoty jsou třetí a čtvrtá, což jsou v tomto případě 7 a 7. Medián se získá průměrem těchto dvou hodnot, což dává medián vzorku roven 7Protože se opakují, medián se přesně shoduje s touto hodnotou, která slouží jako bod rovnováhy pro dolních 50 % a horních 50 %.
Pokud jde o mód, jednoduše se podívejte, která hodnota se objevuje nejčastěji. V tomto příkladu se číslo 7 opakuje dvakrát, zatímco ostatní se objevují pouze jednou. Proto Ukázkový režim je také 7V této datové sadě se medián a modus náhodou shodují, ale ne vždy tomu tak je.
Tyto typy jednoduchých numerických příkladů jsou velmi běžné v prezentacích deskriptivní statistiky a slouží k posílení myšlenky, že Každé polohové měření přidává zřetelný detailPrůměr popisuje celkovou rovnováhu, medián centrální pozici odolnou vůči extrémním hodnotám a modus nejčastější kategorii nebo hodnotu.
Míry rozptylu
Kromě znalosti typické nebo centrální hodnoty je také důležité vědět jak rozptýlená jsou data v okolí z této pozice. Není totéž, když jsou všechna pozorování velmi blízko sebe, jako když mezi nimi existují velké rozdíly. míry rozptylu Přesně kvantifikují tuto variabilitu, tedy stupeň rozptylu dat vzhledem k jejich centrální tendenci.
V nejzákladnějších statistických poznámkách je uvedeno několik ukazatelů rozptylu: Rango, rozptyl, typická odchylka a variační koeficientKaždý z nich poskytuje jiný způsob, jak vidět, jaký je rozdíl mezi hodnotami proměnné, a používají se doplňkovým způsobem k získání úplného přehledu o chování dat.
Rango
El Rango Je to pravděpodobně nejjednodušší míra rozptylu ze všech. Je definována jako rozdíl mezi maximální a minimální hodnotou dat. Pokud seřadíme pozorování od nejmenší po největší jako X1 ≤ X2 ≤ … ≤ Xn, rozsah se vypočítá jako R = Xn − X1. Tento vzorec se často objevuje ve výukových materiálech jako první přístup k myšlence rozptylu.
Rozsah nám poskytuje okamžité informace o celkový rozsah datToto číslo udává, kolik jednotek dělí nejmenší hodnotu od největší. Má však jedno významné omezení: závisí pouze na těchto dvou extrémních hodnotách a nezohledňuje rozložení mezilehlých dat. Proto je sice užitečný jako rychlý ukazatel, ale obvykle se doplňuje dalšími, složitějšími ukazateli.
odchylka
La rozptyl Je to míra rozptylu, která bere v úvahu všechna pozorování a je založena na čtvercových rozdílech od průměru. Intuitivně měří, jak moc se data v průměru odchylují od průměru vzorku. Čím větší je rozptyl, tím více jsou hodnoty rozptýleny kolem průměru; čím menší je rozptyl, tím více jsou koncentrované.
Ve statistických poznámkách je rozptyl prezentován s jeho formální definicí, ale pokud jde o jeho výpočet Obvykle se používá pohodlnější ekvivalentní vzorec.Díky tomu se vyhneme nutnosti pracovat přímo se všemi čtverci rozdílů. U vzorkových dat je rozptyl obvykle vyjádřen pomocí s² a ačkoli ne všechny teoretické detaily jsou vždy zahrnuty na počátečních úrovních, zdůrazňuje se, že se jedná o průměr čtverců odchylek od průměru.
Jedním aspektem, který je třeba zvážit, je, že rozptyl je vyjádřen v čtverečních jednotekNapříklad pokud je proměnná měřena v eurech, rozptyl se měří v eurech čtverečních, což nemá tak intuitivní a přímočarou interpretaci. To je jeden z důvodů, proč se často upřednostňuje směrodatná odchylka, protože vrací měření k původním jednotkám.
Směrodatná odchylka
La typická odchylkaSměrodatná odchylka, nazývaná také rozptyl, je druhá odmocnina rozptylu. Pokud je tedy rozptyl vzorku s², pak je směrodatná odchylka s. Odmocnina nás vrací k původním jednotkám proměnné, což tuto míru v praxi mnohem usnadňuje.
Ve výuce statistiky na univerzitách se zdůrazňuje, že směrodatná odchylka Nemělo by se to zaměňovat s typickou chybou nebo standardní chybou.Ačkoli jsou si názvy podobné, směrodatná chyba je koncept v inferenční statistice související s variabilitou odhadu, zatímco směrodatná odchylka je mírou rozptylu dat v rámci vzorku. Tento rozdíl se často zdůrazňuje výrazy jako „dávejte pozor, abyste si je nepletli“, aby se předešlo nedorozuměním.
Směrodatná odchylka nám přibližně říká, jak daleko jsou datové body od průměru. V mnoha rozděleních leží významná část pozorování v intervalu mezi průměrem mínus jedna směrodatná odchylka a průměrem plus jedna směrodatná odchylka. Proto je toto měření zásadní, když... posoudit stabilitu nebo variabilitu dat v mnoha kontextech.
Variační koeficient
El variační koeficient Je to míra relativní disperze, která dává do vztahu směrodatnou odchylku k průměru. Přestože se přesný výraz může lišit v závislosti na konvenci, obvykle se definuje jako poměr mezi směrodatnou odchylkou a průměrem, často vynásobený 100, aby se vyjádřil v procentech. Je to užitečný nástroj, když chceme porovnat variabilitu různých proměnných, které... velmi odlišné průměry nebo různé jednotky.
Například pokud porovnáme platy ve dvou sektorech s různými stupnicemi, jeden sektor může mít větší směrodatnou odchylku v absolutních číslech, ale nižší variační koeficient, což naznačuje, že platy jsou proporcionálně více koncentrovány kolem svého průměru. V tomto smyslu je variační koeficient obzvláště zajímavý pro analyzovat rozptyl v relativním vyjádření, nad rámec specifických měrných jednotek.
Vztah mezi mírami pozice a disperze
V jakékoli minimálně rigorózní analýze dat nemá smysl zaměřovat se pouze na průměr nebo směrodatnou odchylku. Obvyklý přístup spočívá v jejich kombinaci. míry polohy a rozptylu abychom získali bohatší pohled. Můžeme mít například dvě skupiny se stejným průměrem, ale s velmi odlišnými rozptyly; v takovém případě, i když je centrální hodnota stejná, je realita každé skupiny velmi odlišná.
Míry polohy nám říkají, v jakém prostředí se data pohybují, zatímco míry rozptylu objasňují jak jsou rozloženy v daném prostředíVysoký průměr s malým rozptylem naznačuje homogenní skupinu s vysokými hodnotami; podobný průměr s vysokým rozptylem odráží velké rozdíly mezi jednotlivými pozorováními. Proto v praxi statistické tabulky a souhrny obvykle obsahují alespoň jeden ukazatel centrální tendence a jeden ukazatel variability.
Následující struktura se často objevuje v materiálech deskriptivní statistiky různých univerzit: definice proměnné, tabulka četností, grafické znázorněníVýpočet průměru, mediánu, modu a poté rozpětí, rozptylu, směrodatné odchylky a variačního koeficientu. Tato posloupnost prací odráží myšlenku, že Popisné ukazatele tvoří ucelený blok což umožňuje porozumět datům z několika doplňkových úhlů pohledu.
Dále, jak je dané téma zkoumáno hlouběji, lze zavést další související ukazatele, jako jsou percentily, kvartily nebo ukazatele šikmosti a špičatosti, které rozšiřují deskriptivní analýzu. Základní pojmy vysvětlené v úvodních tématech statistiky však obvykle spočívají právě v ukazatelích polohy a rozptylu, o kterých jsme diskutovali.
Celá tato sada nástrojů má velmi jasné praktické využití: usnadnit rozhodování na základě datAť už v univerzitní prostředíVe veřejné správě nebo v soukromé společnosti pomáhá znalost pozice a variability klíčové proměnné správně interpretovat dostupné informace a vyhnout se ukvapeným závěrům.
Deskriptivní statistika a v jejím rámci deskriptivní ukazatele nám umožňují transformovat nekonečné seznamy čísel do několika snadno zvládnutelných a intuitivních ukazatelů. Díky průměru, mediánu, modu, rozpětí, rozptylu, směrodatné odchylce a relativním koeficientům můžeme získat velmi přesné pochopení chování dat, detekovat vzory, identifikovat anomálie a v případě potřeby položit základy pro pokročilejší analýzy.