Vzorkování (statistika)

v kterémkoli z výše uvedených typů rámců lze použít různé metody odběru vzorků jednotlivě nebo v kombinaci.,f rám

  • Dostupnost pomocné informace o jednotkách na rámu
  • požadavky na Přesnost, a je třeba měřit přesnost
  • Zda podrobnou analýzu vzorku očekává
  • Náklady/provozní obavy
  • Prostý náhodný výběr Upravit

    Hlavní článek: Prostý náhodný výběr

    vizuální reprezentaci výběru prostého namátkového vzorku

    jednoduchý náhodný vzorek (SRS) dané velikosti, všechny podmnožiny vzorků rámu mají stejnou pravděpodobnost, že bude vybrán., Každý prvek rámu má tedy stejnou pravděpodobnost výběru: rám není rozdělen ani rozdělen. Navíc každý daný pár prvků má stejnou šanci na výběr jako jakýkoli jiný takový pár (a podobně pro trojnásobek atd.). To minimalizuje zkreslení a zjednodušuje analýzu výsledků. Zejména rozptyl mezi jednotlivými výsledky ve vzorku je dobrým ukazatelem rozptylu v celkové populaci,což usnadňuje odhad přesnosti výsledků.,

    jednoduchý náhodný odběr vzorků může být náchylný k chybě odběru vzorků, protože náhodnost výběru může mít za následek vzorek, který neodráží složení populace. Například, jednoduchý náhodný vzorek deseti lidí z dané země bude v průměru produkují pět mužů a pět žen, ale daný proces, je pravděpodobné, že overrepresent jednoho pohlaví a underrepresent ostatní. Systematické a stratifikované techniky se pokoušejí tento problém překonat „použitím informací o populaci „k výběru“ reprezentativnějšího “ vzorku.,

    také jednoduchý náhodný odběr vzorků může být těžkopádný a únavný při odběru vzorků z velké cílové populace. V některých případech se vyšetřovatelé zajímají o výzkumné otázky specifické pro podskupiny obyvatelstva. Například, vědci by mohli mít zájem zkoumat, zda kognitivní schopnost jako prediktor výkonu práce je stejně použitelná napříč rasovými skupinami., Prostý náhodný výběr nemůže vyhovět potřebám výzkumných pracovníků v této situaci, protože to neposkytuje dílčí vzorky populace, a další strategie odběru vzorků, jako jsou stratifikované vzorkování, může být používán místo toho.,

    Systematické samplingEdit

    Hlavní článek: Systematický odběr vzorků

    vizuální reprezentaci výběru náhodného vzorku pomocí systematických vzorků techniky

    Systematický odběr vzorků (také známý jako interval vzorkování) spoléhá na uspořádání studie populace podle některých objednání programu a pak výběrem prvků v pravidelných intervalech přes to uspořádaný seznam. Systematický odběr vzorků zahrnuje náhodný start a poté pokračuje výběrem každého prvku kth od té doby., V tomto případě k=(velikost populace/velikost vzorku). Je důležité, aby výchozí bod nebyl automaticky první v seznamu, ale je místo toho náhodně vybrán z prvního prvku KTH v seznamu. Jednoduchým příkladem by bylo vybrat každé 10. jméno z telefonního seznamu (vzorek “ každý 10.“, také označovaný jako „vzorkování se skokem 10“).

    Pokud je výchozí bod randomizován, systematický vzorkování je typ vzorkování pravděpodobnosti., Je snadné jej implementovat a vyvolaná stratifikace může zefektivnit, pokud proměnná, podle které je seznam uspořádán, koreluje s proměnnou zájmu. „Každý 10.“ odběr vzorků je zvláště užitečný pro efektivní odběr vzorků z databází.

    například předpokládejme, že chceme ochutnat lidi z dlouhé ulice, která začíná v chudé oblasti (dům č. 1) a končí v drahé čtvrti (dům č. 1000)., Jednoduchý náhodný výběr adres z této ulice by mohla snadno skončit s příliš mnoho z high-end a příliš málo z low-end (nebo naopak), což vede k nereprezentativní vzorek. Výběr (např.) každé číslo 10. ulice podél ulice zajišťuje rovnoměrné rozložení vzorku po celé délce ulice, což představuje všechny tyto okresy. (Všimněte si, že pokud vždy začneme v domě #1 a končíme na #991, vzorek je mírně zkreslený směrem k nízkému konci; náhodným výběrem začátku mezi #1 a #10 je toto zkreslení vyloučeno.,

    systematický odběr vzorků je však obzvláště zranitelný vůči periodicitám v seznamu. Je-li přítomna periodicita a doba je násobkem nebo faktorem použitého intervalu, je obzvláště pravděpodobné, že vzorek bude nereprezentativní pro celkovou populaci, takže schéma bude méně přesné než jednoduchý náhodný odběr vzorků.

    například zvažte ulici, kde jsou liché domy na severní (drahé) straně silnice a sudé domy jsou na jižní (levné) straně., Podle schématu odběru vzorků, uvedených výše, je nemožné získat reprezentativní vzorek; buď domů zařazených do vzorku, vše bude od lichých, drahé straně, nebo budou všichni z sudé, levné stranu, pokud výzkumný pracovník má předchozí znalosti této zaujatosti a vyhýbá se o použití kontejneru, který zajišťuje přepínání mezi oběma stranami (žádné liché přeskočit).

    Další nevýhodou systematického odběru vzorků je to, že i ve scénářích, kde je přesnější než SRS, jeho teoretické vlastnosti ztěžují kvantifikaci této přesnosti., (Dva příklady systematického odběru vzorků, které jsou uvedeny výše, mnoho potenciálních výběrové chyby je vzhledem k rozdílům mezi sousedními domy – ale proto, že tato metoda nikdy vybere dva sousední domy, vzorek nebude nám žádné informace o tom, že variace.)

    systematický odběr vzorků lze také přizpůsobit přístupu, který není EPS; například viz diskuse o vzorcích PPS níže.,

    Rozvrstvené samplingEdit

    Hlavní článek: uspořádaný výběr

    vizuální reprezentaci výběru náhodného vzorku pomocí stratifikovaného vzorkování techniky

    Když populace zahrnuje řadu odlišných kategorií, rám může být uspořádán podle těchto kategorií do samostatných „vrstev.“Každá vrstva je pak vzorkována jako nezávislá subpopulace, z níž mohou být náhodně vybrány jednotlivé prvky., Poměr velikosti tohoto náhodného výběru (nebo vzorku) k velikosti populace se nazývá vzorkovací frakce. Existuje několik potenciálních výhod stratifikovaného odběru vzorků.

    nejprve rozdělení populace na odlišné, nezávislé vrstvy může vědcům umožnit vyvodit závěry o konkrétních podskupinách, které mohou být ztraceny v obecnějším náhodném vzorku.,

    za druhé, použití stratifikované metody odběru vzorků může vést k efektivnějším statistickým odhadům (za předpokladu, že vrstvy jsou vybrány na základě relevance pro dané kritérium namísto dostupnosti vzorků). I když stratifikované vzorkování přístup nevede ke zvýšení statistické účinnosti, tato taktika nebude mít za následek menší účinnost, než by prostý náhodný výběr, za předpokladu, že každé vrstvy je úměrná skupiny, velikost v populaci.,

    za Třetí, to se někdy stává, že data jsou více snadno dostupné pro jednotlivce, pre-existující vrstvy v rámci populace než u populace jako celku; v těchto případech, pomocí stratifikovaného vzorkování přístup může být výhodnější, než agregaci dat v rámci celé skupiny (i když to může být potenciálně v rozporu s již dříve poznamenal, jak důležité je využít kritérium-příslušné vrstvy).,

    konečně, protože každá vrstva je považována za nezávislou populaci, mohou být různé přístupy k odběru vzorků aplikovány na různé vrstvy, což vědcům potenciálně umožňuje používat přístup nejvhodnější (nebo nákladově nejefektivnější) pro každou identifikovanou podskupinu v populaci.

    existují však některé potenciální nevýhody použití stratifikovaného odběru vzorků. Za prvé, identifikace vrstev a implementace takového přístupu může zvýšit náklady a složitost výběru vzorku a vést ke zvýšené složitosti odhadů populace., Za druhé, při zkoumání více kritérií mohou stratifikační proměnné souviset s některými, ale ne s ostatními, dále komplikovat návrh a potenciálně snížit užitečnost vrstev. A konečně, v některých případech (např. návrhy s velkým počtem vrstev, nebo ty, se stanovenou minimální velikost vzorku v každé skupině), stratifikované vzorkování může potenciálně vyžadují větší vzorek, než by jiné metody (i když ve většině případů, požadovaná velikost vzorku by být větší, než by bylo zapotřebí pro prostý náhodný výběr).,

    stratifikované vzorkování přístup je nejúčinnější, když jsou splněny tyto tři podmínky

    1. Variabilita v rámci vrstev jsou minimalizovány
    2. Variabilita mezi vrstvy jsou maximalizované
    3. proměnné, na které populace je vrstevnatý jsou silně korelovány s požadovanou závislé proměnné.

    výhody oproti jiným metodám odběru vzorků

    1. se zaměřuje na důležité subpopulace a ignoruje irelevantní metody.
    2. umožňuje použití různých technik odběru vzorků pro různé subpopulace.
    3. zlepšuje přesnost / účinnost odhadu.,
    4. umožňuje větší vyvážení statistické síly testů rozdílů mezi vrstvami vzorkováním stejných čísel ze vrstev, které se značně liší velikostí.

    nevýhody

    1. vyžaduje výběr relevantních stratifikačních proměnných, které mohou být obtížné.
    2. není užitečné, pokud neexistují homogenní podskupiny.
    3. může být nákladné implementovat.

    Poststratifikace

    stratifikace je někdy zavedena po fázi odběru vzorků v procesu zvaném „poststratifikace“., Tento přístup je obvykle realizován pro nedostatek předchozí znalosti odpovídající stratifikace proměnné nebo když experimentátor postrádá informace nezbytné k vytvoření stratifikace proměnné během vzorkovací fáze. Přestože je metoda náchylná k úskalím post hoc přístupů, může poskytnout několik výhod ve správné situaci. Implementace obvykle následuje jednoduchý náhodný vzorek. Kromě toho, že umožňuje stratifikaci na pomocné proměnné, poststratifikace může být použita k implementaci vážení, což může zlepšit přesnost odhadů vzorku.,

    převzorkování

    výběr založený na vzorkování je jednou ze stratifikovaných vzorkovacích strategií. Při výběru vzorků jsou data rozvrstvena na cíl a vzorek je odebrán z každé vrstvy, takže vzácná Cílová třída bude ve vzorku zastoupena více. Model je pak postaven na tomto zkresleném vzorku. Účinky vstupních proměnných na cíl, jsou často odhadnout s větší přesností s volbou-na základě vzorku, i když menší celková velikost vzorku je přijata, ve srovnání náhodný vzorek. Výsledky obvykle musí být upraveny tak, aby byly správné pro převzorkování.,

    Pravděpodobnost úměrná-k-velikosti samplingEdit

    V některých případech vzorek designer má přístup k „pomocné proměnné“ nebo „velikosti opatření“, věřil být v korelaci s proměnnou zájmu, pro každý prvek v populaci. Tyto údaje mohou být použity ke zlepšení přesnosti v návrhu vzorku. Jednou z možností je použít pomocnou proměnnou jako základ pro stratifikaci, jak je popsáno výše.

    Další možností je pravděpodobnost úměrná vzorkování velikosti („PPS“), při kterém je pravděpodobnost výběru pro každý prvek nastavena tak, aby byla úměrná jeho velikosti, maximálně do 1., V jednoduchém designu PPS mohou být tyto pravděpodobnosti výběru použity jako základ pro odběr vzorků Poissonem. To však má nevýhodu variabilní velikosti vzorku a různé části populace mohou být stále příliš nebo nedostatečně zastoupeny kvůli náhodným změnám ve výběrech.

    systematická teorie vzorkování může být použita k vytvoření pravděpodobnosti úměrné vzorku velikosti. To se provádí ošetřením každého počtu v rámci proměnné velikosti jako jediné vzorkovací jednotky. Vzorky jsou pak identifikovány výběrem v sudých intervalech mezi těmito počty v rámci proměnné velikosti., Tato metoda se někdy nazývá PPS-sekvenční nebo peněžní vzorkování jednotek v případě auditů nebo forenzního odběru vzorků.

    Příklad: Předpokládejme, že máme šest škol s populací 150, 180, 200, 220, 260, a 490 studenti (celkem 1500 studentů), a chceme použít studentské populace jako základ pro PPS vzorku o velikosti tři. K tomu bychom mohli přidělit první školní čísla 1 až 150, druhou školu 151 až 330 (= 150 + 180), třetí školu 331 až 530 a tak dále do poslední školy (1011 až 1500)., Potom generujeme náhodný start mezi 1 a 500 (rovno 1500/3) a počítáme přes školní populace násobky 500. Pokud by náš náhodný start byl 137, vybrali bychom školy, kterým byla přidělena čísla 137, 637 a 1137, tj. první, čtvrtá a šestá škola.

    PPS přístup může zlepšit přesnost pro danou velikost vzorku soustředěním vzorek na velké prvky, které mají největší vliv na populační odhady., PPS vzorků se běžně používá pro průzkumy podniků, kde prvek velikosti se značně liší a pomocné informace jsou často k dispozici – například, průzkum pokouší měřit počet hostů-nocí strávených v hotelech mohl použít každý hotel číslo pokoje jako pomocné proměnné. V některých případech, starší měření proměnné může být použito jako pomocná proměnná, když se snaží produkovat více současných odhadů.,

    Clusteru samplingEdit

    vizuální reprezentaci výběru náhodného vzorku pomocí clusteru vzorkování techniky

    Hlavní článek: Cluster sampling

    Někdy to je více nákladově efektivní pro výběr respondentů do skupin (klastrů). Vzorkování je často seskupeno podle geografie nebo časových období. (Téměř všechny vzorky jsou v určitém smyslu „seskupeny“ v čase – i když je to v analýze zřídka zohledněno.,) Například v případě průzkumu domácností ve městě bychom se mohli rozhodnout vybrat 100 městských bloků a poté rozhovor s každou domácností ve vybraných blocích.

    shlukování může snížit cestovní a administrativní náklady. Ve výše uvedeném příkladu může tazatel udělat jednu cestu k návštěvě několika domácností v jednom bloku, spíše než k jízdě do jiného bloku pro každou domácnost.

    to také znamená, že člověk nepotřebuje vzorkovací rámec se seznamem všech prvků v cílové populaci., Místo toho mohou být klastry vybrány z rámečku na úrovni clusteru, přičemž rám na úrovni prvků je vytvořen pouze pro vybrané klastry. Ve výše uvedeném příkladu vzorek vyžaduje pouze mapu města na úrovni bloku pro počáteční výběry a poté mapu 100 vybraných bloků na úrovni domácnosti, spíše než mapu celého města na úrovni domácnosti.

    Clusteru vzorkování (také známý jako seskupený vzorků) se obecně zvyšuje variabilitu vzorku odhady výše, že prostý náhodný výběr, v závislosti na tom, jak klastry se liší mezi sebou ve srovnání s v rámci clusteru variace., Z tohoto důvodu, vzorkování clusteru vyžaduje větší vzorek než SRS, aby se dosáhlo stejné úrovně přesnosti – ale úspory nákladů z shlukování by to ještě mohly učinit levnější možností.

    vzorkování clusteru se běžně provádí jako vícestupňový vzorkování. Jedná se o komplexní formu vzorkování clusteru, ve kterém jsou dvě nebo více úrovní jednotek vloženy do druhé. První fáze se skládá z konstrukce klastrů, které budou použity k odběru., Ve druhé fázi je z každého klastru náhodně vybrán vzorek primárních jednotek (spíše než použití všech jednotek obsažených ve všech vybraných klastrech). V následujících fázích jsou v každém z těchto vybraných klastrů vybrány další vzorky jednotek a tak dále. Všechny konečné jednotky (například jednotlivci) vybrané v posledním kroku tohoto postupu jsou pak zkoumány. Tato technika je tedy v podstatě procesem odběru náhodných subsamplů předchozích náhodných vzorků.,

    vícestupňový odběr vzorků může podstatně snížit náklady na odběr vzorků, kde by bylo nutné sestavit úplný seznam obyvatel (před použitím jiných metod odběru vzorků). Odstraněním práce spojené s popisem klastrů, které nejsou vybrány, může vícestupňový vzorkování snížit velké náklady spojené s tradičním vzorkováním klastrů. Každý vzorek však nemusí být úplným zástupcem celé populace.,

    vzorkování Kvótedit

    Hlavní článek: výběr kvót

    při odběru kvót je populace nejprve rozdělena do vzájemně se vylučujících podskupin, stejně jako při stratifikovaném odběru vzorků. Poté se použije úsudek pro výběr předmětů nebo jednotek z každého segmentu na základě zadaného poměru. Například tazatel může být požádán o vzorek 200 žen a 300 mužů ve věku 45 až 60 let.

    je to tento druhý krok, který činí techniku jedním z pravděpodobnostního odběru vzorků. Při odběru kvót není výběr vzorku náhodný., Například, tazatelé by mohli být v pokušení pohovořit s těmi, kteří vypadají nejužitečněji. Problém je v tom, že tyto vzorky mohou být zkreslené, protože ne každý má šanci na výběr. Tento náhodný prvek je jeho největší slabinou a kvóta versus pravděpodobnost byla otázkou kontroverze již několik let.

    Minimax samplingEdit

    V nevyvážených datových souborů, kde poměr odběru vzorků není podle statistiky obyvatelstva, lze převzorkovat dataset konzervativně nazývá minimax vzorků., Vzorkování Minimaxu má svůj původ v poměru Anderson minimax, jehož hodnota se ukázala jako 0,5: v binární klasifikaci by měly být velikosti vzorku třídy zvoleny stejně. Tento poměr lze prokázat jako poměr minimax pouze za předpokladu klasifikátoru LDA s Gaussovými distribucemi. Pojem vzorkování minimax je nedávno vyvinut pro obecnou třídu klasifikačních pravidel, tzv., V tomto případě je vybrán vzorkovací poměr tříd tak, aby byla nejlepší chyba klasifikátoru nejhoršího případu nad všemi možnými statistikami populace pro pravděpodobnosti před třídou.

    Náhodné samplingEdit

    v případě Náhodného vzorkování (někdy známý jako uchopení, pohodlí nebo možnost odběru vzorků) je typ nonprobability vzorků, které zahrnuje vzorek se odebírá z té části populace, která je na dosah. To znamená, že populace je vybrána, protože je snadno dostupná a pohodlná., Může to být prostřednictvím setkání s osobou nebo včetně osoby ve vzorku, když se s nimi setká nebo je zvolí tím, že je najde technologickými prostředky, jako je internet nebo telefon. Výzkumník používající takový vzorek nemůže vědecky zobecnit celkovou populaci z tohoto vzorku, protože by nebyl dostatečně reprezentativní., Například, pokud tazatele vést takový průzkum na nákupní centrum brzy ráno na daný den, lidé, které on/ona by mohla rozhovor by být omezeny na ty, vzhledem k tomu, že v daný čas, který by neměl reprezentovat názory ostatních členů společnosti v takové oblasti, v případě, že průzkum byl prováděn v různých časech dne a několikrát za týden. Tento typ odběru vzorků je nejužitečnější pro pilotní testování., Několik důležité aspekty pro výzkumné pracovníky pomocí pohodlí vzorky patří:

    1. Jsou tam ovládací prvky v designu výzkumu nebo experimentu, které mohou sloužit k zmírnit dopad non-náhodné pohodlí vzorku, čímž se zajistí, že výsledky budou více reprezentativní populace?
    2. existuje dobrý důvod se domnívat, že konkrétní vzorek pohodlí by nebo měl reagovat nebo se chovat jinak než náhodný vzorek ze stejné populace?
    3. je otázka, kterou klade výzkum, na kterou lze adekvátně odpovědět pomocí vzorku pohodlí?,

    ve výzkumu sociálních věd je vzorkování sněhové koule podobnou technikou, kde se stávající studijní předměty používají k náboru více předmětů do vzorku. Některé varianty odběru sněhových koulí, jako je respondent řízený vzorkování, umožňují výpočet pravděpodobnosti výběru a jsou metody vzorkování pravděpodobnosti za určitých podmínek.

    dobrovolné Vzorkováníedit

    další informace: self-selection bias

    dobrovolná metoda odběru vzorků je typ odběru vzorků bez pravděpodobnosti. Dobrovolníci se rozhodnou dokončit průzkum.,

    dobrovolníci mohou být pozváni prostřednictvím reklam na sociálních médiích. Cílovou populaci pro reklamy lze vybrat podle charakteristik, jako je umístění, stáří, sex, příjem, povolání, vzdělání nebo zájmy pomocí nástrojů poskytovaných sociálním médiem. Reklama může obsahovat zprávu o výzkumu a odkaz na průzkum. Po následném odkazu a dokončení průzkumu dobrovolník předloží údaje, které mají být zahrnuty do vzorku populace. Tato metoda může dosáhnout globální populace, ale je omezena rozpočtem kampaně., Do vzorku mohou být zařazeni i dobrovolníci mimo pozvanou populaci.

    je obtížné provést zobecnění z tohoto vzorku, protože nemusí představovat celkovou populaci. Dobrovolníci mají často velký zájem o hlavní téma průzkumu.

    Line-intercept samplingEdit

    Line-intercept vzorkování je metoda vzorkování prvků v regionu, přičemž prvek je ve vzorku pokud je vybrán řádek segmentu, tzv. „transektu“, protíná prvek.,

    Panel samplingEdit

    Panel vzorkování je metoda nejprve vybrat skupinu účastníků prostřednictvím náhodné vzorkování metoda a pak se ptát, které skupiny pro (případně stejná) informace několikrát v průběhu času. Proto je každý účastník dotazován ve dvou nebo více časových bodech; každé období sběru dat se nazývá „vlna“. Metodu vyvinul sociolog Paul Lazarsfeld v roce 1938 jako prostředek studia politických kampaní., Tato metoda podélného odběru vzorků umožňuje odhady změn v populaci, například s ohledem na chronické onemocnění, aby stres práce na týdenní výdaje na potraviny. Vzorkování panelů lze také použít k informování vědců o zdravotních změnách uvnitř osoby v důsledku věku nebo k vysvětlení změn v kontinuálních závislých proměnných, jako je interakce manželů. Tam bylo několik navržených metod analýzy panelových dat, včetně MANOVA, růstové křivky, a strukturální rovnice modelování s opožděných účinků.,

    Snowball samplingEdit

    Snowball sampling zahrnuje nalezení malé skupiny počátečních respondentů a jejich použití k náboru více respondentů. To je zvláště užitečné v případech, kdy je populace skrytá nebo obtížně vyčíslitelná.

    teoretický vzorekedit

    tato část potřebuje expanzi. Můžete pomoci přidáním k němu. (Červenec 2015)

    Teoretické vzorkování dochází, když vzorky jsou vybrány na základě výsledků shromážděných údajů tak daleko s cílem rozvíjet hlubší pochopení oblasti nebo rozvíjet teorie., Mohou být vybrány extrémní nebo velmi specifické případy, aby se maximalizovala pravděpodobnost, že jev bude skutečně pozorovatelný.

    Share

    Napsat komentář

    Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *