Provtagning (statistik) | Chad Wilken's

inom någon av de typer av ramar som anges ovan kan olika provtagningsmetoder användas, individuellt eller i kombination.,

tillgänglighet av hjälpinformation om enheter på ramen

noggrannhetskrav och behovet av att mäta noggrannhet

huruvida detaljerad analys av provet förväntas

kostnad/operativa problem

enkel slumpmässig provtagning redigera

Huvudartikel: enkel slumpmässig provtagning

a visuell representation av att välja ett enkelt slumpmässigt urval

i ett enkelt slumpmässigt urval (SRS) av en given storlek har alla delmängder av en Provtagningsram lika stor sannolikhet att väljas., Varje element i ramen har sålunda lika stor sannolikhet för val: ramen är inte uppdelad eller partitionerad. Dessutom har ett visst par element samma chans att välja som något annat sådant par (och på samma sätt för tripplar och så vidare). Detta minimerar bias och förenklar analys av resultat. I synnerhet är variansen mellan enskilda resultat i provet en bra indikator på varians i den totala befolkningen, vilket gör det relativt enkelt att uppskatta resultatens noggrannhet.,

enkel slumpmässig provtagning kan vara sårbar för provtagningsfel eftersom slumpmässigheten i urvalet kan resultera i ett prov som inte återspeglar befolkningens smink. Till exempel kommer ett enkelt slumpmässigt urval av tio personer från ett visst land i genomsnitt att producera fem män och fem kvinnor, men en viss rättegång kommer sannolikt att överrepresentera ett kön och underrepresentera det andra. Systematiska och stratifierade tekniker försöker övervinna detta problem genom att” använda information om befolkningen ”för att välja ett mer” representativt ” prov.,

enkel slumpmässig provtagning kan också vara besvärlig och tråkig vid provtagning från en stor målpopulation. I vissa fall är utredare intresserade av forskningsfrågor som är specifika för undergrupper av befolkningen. Till exempel kan forskare vara intresserade av att undersöka om kognitiv förmåga som prediktor för arbetsprestation är lika tillämplig över rasgrupper., Enkel slumpmässig provtagning kan inte tillgodose forskarnas behov i denna situation, eftersom det inte ger delprover av befolkningen, och andra provtagningsstrategier, såsom stratifierad provtagning, kan användas istället.,

systematisk samplingEdit

Huvudartikel: systematisk provtagning

en visuell representation av att välja ett slumpmässigt prov med hjälp av den systematiska provtagningstekniken

systematisk provtagning (även känd som intervallprovtagning) bygger på att arrangera studiepopulationen enligt något beställningsschema och sedan välja element med jämna mellanrum genom den beställda listan. Systematisk provtagning innebär en slumpmässig start och fortsätter sedan med valet av varje kth-element från och med då., I det här fallet, k=(populationsstorlek/provstorlek). Det är viktigt att utgångspunkten inte automatiskt är den första i listan, utan istället väljs slumpmässigt inifrån den första till kth-elementet i listan. Ett enkelt exempel skulle vara att välja var tionde namn från telefonkatalogen (ett ”var tionde” prov, även kallat ”provtagning med ett hopp om 10”).

så länge utgångspunkten är randomiserad är systematisk provtagning en typ av sannolikhetsprovtagning., Det är lätt att implementera och stratifieringen inducerad kan göra den effektiv, om variabeln med vilken listan beställs är korrelerad med variabeln av intresse. ”Var tionde” provtagning är särskilt användbar för effektiv provtagning från databaser.

anta till exempel att vi vill prova människor från en lång gata som börjar i ett fattigt område (hus nr 1) och slutar i ett dyrt distrikt (hus nr 1000)., Ett enkelt slumpmässigt urval av adresser från denna gata kan enkelt sluta med för många från high end och för få från low end (eller vice versa), vilket leder till ett orepresentativt prov. Att välja (t. ex.) var tionde gatunummer längs gatan säkerställer att provet sprids jämnt längs gatan, vilket representerar alla dessa distrikt. (Observera att om vi alltid börjar på house #1 och slutar på #991, är provet något partiskt mot den låga änden; genom att slumpmässigt välja start mellan #1 och #10 elimineras denna bias.,

systematisk provtagning är dock särskilt sårbar för periodicitet i listan. Om periodicitet är närvarande och perioden är en multipel eller faktor för det använda intervallet, är provet särskilt sannolikt att vara orepresentativt för den totala befolkningen, vilket gör systemet mindre exakt än enkel slumpmässig provtagning.

tänk till exempel på en gata där de udda numrerade husen är alla på norra (dyra) sidan av vägen, och de jämnt numrerade husen är alla på södra (billiga) sidan., Enligt provtagningsschemat ovan är det omöjligt att få ett representativt prov; antingen kommer de hus som samplas alla att vara från den udda numrerade, dyra sidan, eller de kommer alla att vara från den jämnt numrerade, billiga sidan, om inte forskaren har tidigare kunskap om denna bias och undviker den med hjälp av ett hoppa som säkerställer hoppning mellan de två sidorna (någon udda numrerad hoppa).

en annan nackdel med systematisk provtagning är att även i scenarier där det är mer exakt än SRS, gör dess teoretiska egenskaper det svårt att kvantifiera denna noggrannhet., (I de två exempel på systematisk provtagning som anges ovan beror en stor del av det potentiella provtagningsfelet på variation mellan angränsande hus – men eftersom denna metod aldrig väljer ut två angränsande hus, kommer provet inte att ge oss någon information om den variationen.)

systematisk provtagning kan också anpassas till en icke-EPS-metod; till exempel, se diskussion av PPS-prover nedan.,

stratifierad samplingEdit

Huvudartikel: stratifierad sampling

en visuell representation av att välja ett slumpmässigt prov med stratifierad samplingsteknik

När befolkningen omfattar ett antal olika kategorier kan ramen organiseras av dessa kategorier i separata ”skikt.”Varje stratum provtas sedan som en oberoende delpopulation, varav enskilda element kan slumpmässigt väljas ut., Förhållandet mellan storleken på detta slumpmässiga urval (eller prov) och populationens storlek kallas en provtagningsfraktion. Det finns flera potentiella fördelar med stratifierad provtagning.

först, dela upp befolkningen i distinkta, oberoende skikt kan göra det möjligt för forskare att dra slutsatser om specifika undergrupper som kan gå förlorade i ett mer generaliserat slumpmässigt prov.,

För det andra kan användning av en stratifierad provtagningsmetod leda till effektivare statistiska uppskattningar (förutsatt att strata väljs utifrån relevans för kriteriet i fråga, i stället för tillgång till proverna). Även om en stratifierad provtagningsmetod inte leder till ökad statistisk effektivitet, kommer en sådan taktik inte att leda till mindre effektivitet än en enkel slumpmässig provtagning, förutsatt att varje stratum är proportionell mot gruppens storlek i befolkningen.,

För det tredje är det ibland så att data är lättare tillgängliga för enskilda, befintliga skikt inom en population än för den totala populationen. i sådana fall kan det vara mer praktiskt att använda en stratifierad provtagningsmetod än att aggregera data mellan grupper (även om detta eventuellt kan strida mot den tidigare noterade betydelsen av att utnyttja kriterierelevanta skikt).,

eftersom varje stratum behandlas som en oberoende population kan olika provtagningsmetoder tillämpas på olika skikt, vilket skulle kunna göra det möjligt för forskare att använda den metod som är bäst lämpad (eller mest kostnadseffektiv) för varje identifierad undergrupp inom populationen.

det finns dock vissa potentiella nackdelar med att använda stratifierad provtagning. För det första kan identifiering av strata och genomförande av ett sådant tillvägagångssätt öka kostnaden och komplexiteten i urval, samt leda till ökad komplexitet i befolkningsberäkningar., För det andra, när man undersöker flera kriterier, kan stratifieringsvariabler relateras till vissa, men inte till andra, vilket ytterligare komplicerar designen och potentiellt minskar Stratas nytta. Slutligen kan stratifierad provtagning i vissa fall (t.ex. mönster med ett stort antal skikt, eller sådana med en viss minsta provstorlek per grupp) kräva ett större prov än andra metoder (även om den erforderliga provstorleken i de flesta fall inte skulle vara större än vad som skulle krävas för enkel slumpmässig provtagning).,

en stratifierad provtagningsmetod är mest effektiv när tre villkor är uppfyllda

variabilitet inom strata minimeras
variabiliteten mellan strata maximeras
de variabler på vilka befolkningen stratifieras är starkt korrelerade med den önskade beroende variabeln.

fördelar jämfört med andra provtagningsmetoder

fokuserar på viktiga subpopulationer och ignorerar irrelevanta.
tillåter användning av olika provtagningstekniker för olika subpopulationer.
förbättrar skattningens noggrannhet / effektivitet.,
tillåter större balansering av statistisk kraft av test av skillnader mellan strata genom provtagning av lika stora tal från strata som varierar mycket i storlek.

nackdelar

kräver urval av relevanta stratifieringsvariabler som kan vara svåra.
är inte användbart när det inte finns några homogena undergrupper.
kan vara dyrt att genomföra.

Poststratifiering

stratifiering införs ibland efter provtagningsfasen i en process som kallas ”poststratifiering”., Detta tillvägagångssätt tillämpas vanligtvis på grund av brist på förkunskaper om en lämplig stratifierande variabel eller när försöksledaren saknar nödvändig information för att skapa en stratifierande variabel under provtagningsfasen. Även om metoden är mottaglig för fallgroparna i post hoc-tillvägagångssätt, kan det ge flera fördelar i rätt situation. Genomförandet följer vanligtvis ett enkelt slumpmässigt prov. Förutom att möjliggöra stratifiering på en hjälpvariabel kan poststratifiering användas för att genomföra viktning, vilket kan förbättra precisionen i ett urvals uppskattningar.,

översampling

Valbaserad provtagning är en av de stratifierade provtagningsstrategierna. Vid valbaserad provtagning stratifieras uppgifterna på målet och ett prov tas från varje stratum så att den sällsynta målklassen blir mer representerad i provet. Modellen bygger sedan på detta partiska prov. Effekterna av indatavariablerna på målet uppskattas ofta med mer precision med det valbaserade provet även när en mindre total provstorlek tas, jämfört med ett slumpmässigt urval. Resultaten måste vanligtvis justeras för att korrigera för översampling.,

Probability-proportional-to-size samplingEdit

i vissa fall har provdesignern tillgång till en ”extra variabel” eller ”storlek åtgärd”, tros vara korrelerad till variabeln av intresse, för varje element i befolkningen. Dessa data kan användas för att förbättra noggrannheten i provdesign. Ett alternativ är att använda hjälpvariabeln som grund för stratifiering, som diskuterats ovan.

ett annat alternativ är probability proportional to size (’PPS’) sampling, där urvalssannolikheten för varje element är inställd på att vara proportionell mot dess storleksmått, upp till högst 1., I en enkel PPS-design kan dessa urvalssannolikheter sedan användas som grund för Poisson-provtagning. Detta har emellertid nackdelen med variabel provstorlek, och olika delar av befolkningen kan fortfarande vara över – eller underrepresenterade på grund av slumpvariation i val.

systematisk provtagningsteori kan användas för att skapa en sannolikhet som står i proportion till storleksprovet. Detta görs genom att behandla varje antal inom storleksvariabeln som en enda provtagningsenhet. Prover identifieras sedan genom att välja med jämna mellanrum bland dessa räkningar inom storleksvariabeln., Denna metod kallas ibland pps-sekventiell eller monetär enhet provtagning vid revisioner eller rättsmedicinsk provtagning.

exempel: anta att vi har sex skolor med populationer av 150, 180, 200, 220, 260, och 490 studenter respektive (totalt 1500 studenter), och vi vill använda studentpopulationen som grund för ett PPS-urval av storlek tre. För att göra detta kan vi fördela de första skolnumren 1 till 150, andra skolan 151 till 330 (=150 + 180), tredje skolan 331 till 530 och så vidare till den sista skolan (1011 till 1500)., Vi genererar sedan en slumpmässig start mellan 1 och 500 (lika med 1500/3) och räknar genom skolpopulationerna med multiplar av 500. Om vår slumpmässiga start var 137 skulle vi välja de skolor som har tilldelats nummer 137, 637 och 1137, dvs. de första, fjärde och sjätte skolorna.

PPS-metoden kan förbättra noggrannheten för en viss provstorlek genom att koncentrera provet på stora element som har störst inverkan på befolkningens uppskattningar., Pps-provtagning används ofta för undersökningar av företag, där elementets storlek varierar kraftigt och hjälpinformation är ofta tillgänglig – till exempel kan en undersökning som försöker mäta antalet gästkvällar som spenderas på Hotell använda varje Hotells antal rum som en hjälpvariabel. I vissa fall kan en äldre mätning av variabeln av intresse användas som en hjälpvariabel när man försöker producera mer aktuella uppskattningar.,

Klusterprovtagning

en visuell representation av att välja ett slumpmässigt prov med hjälp av klusterprovtagningstekniken

Huvudartikel: Klusterprovtagning

Ibland är det mer kostnadseffektivt att välja respondenter i grupper (”kluster”). Provtagning grupperas ofta av geografi, eller av tidsperioder. (Nästan alla prover är i viss mening ”klustrade” i tid-även om detta sällan beaktas i analysen.,) Till exempel, om lantmäteri hushåll inom en stad, vi kan välja att välja 100 kvarter och sedan intervjua varje hushåll inom de valda blocken.

kluster kan minska resor och administrativa kostnader. I exemplet ovan kan en intervjuare göra en enda resa för att besöka flera hushåll i ett block, snarare än att behöva köra till ett annat block för varje hushåll.

det betyder också att man inte behöver en urvalsram med alla element i målpopulationen., Istället kan kluster väljas från en klusternivåram, med en elementnivåram skapad endast för de valda klustren. I exemplet ovan kräver provet endast en stadskarta på blocknivå för inledande val, och sedan en karta på hushållsnivå över de 100 valda blocken, snarare än en karta på hushållsnivå över hela staden.

Klusterprovtagning (även känd som klusterprovtagning) ökar i allmänhet variationen i urvalsuppskattningar över den för enkel slumpmässig provtagning, beroende på hur klustren skiljer sig åt mellan varandra jämfört med variationen inom klustret., Av denna anledning kräver klusterprovtagning ett större urval än SRS för att uppnå samma noggrannhet – men kostnadsbesparingar från klusterning kan fortfarande göra detta till ett billigare alternativ.

Klusterprovtagning genomförs vanligen som flerstegsprovtagning. Detta är en komplex form av klusterprovtagning där två eller flera nivåer av enheter är inbäddade i varandra. Det första steget består i att konstruera de kluster som kommer att användas för att prova från., I det andra steget väljs ett urval av primära enheter slumpmässigt från varje kluster (i stället för att använda alla enheter som finns i alla valda kluster). I följande steg, i var och en av de valda klustren, väljs ytterligare prover av enheter och så vidare. Alla ultimate-enheter (individer, till exempel) som valts i det sista steget i denna procedur undersöks sedan. Denna teknik är således i huvudsak processen att ta slumpmässiga delprover av föregående slumpmässiga prov.,

flerstegsprovtagning kan avsevärt minska provtagningskostnaderna, där den fullständiga befolkningslistan skulle behöva konstrueras (innan andra provtagningsmetoder kunde tillämpas). Genom att eliminera arbetet med att beskriva kluster som inte väljs ut kan flerstegsprovtagning minska de stora kostnaderna i samband med traditionell klusterprovtagning. Varje prov får dock inte vara fullständigt representativt för hela befolkningen.,

kvotprovtagning

Huvudartikel: kvotprovtagning

i kvotprovtagning delas populationen först in i ömsesidigt exklusiva undergrupper, precis som i stratifierad provtagning. Därefter används bedömning för att välja ämnen eller enheter från varje segment baserat på en viss andel. Till exempel kan en intervjuare få veta att prov 200 kvinnor och 300 män mellan 45 och 60 år.

det är detta andra steg som gör tekniken till en av icke-sannolikhetsprovtagning. Vid kvotprovtagning är urvalet inte slumpmässigt., Till exempel kan intervjuare frestas att intervjua dem som ser mest hjälpsamma ut. Problemet är att dessa prover kan vara partisk eftersom inte alla får en chans att välja. Detta slumpmässiga element är dess största svaghet och kvot kontra Sannolikhet har varit en fråga om kontrovers i flera år.

Minimax samplingEdit

i obalanserade datauppsättningar, där samplingsförhållandet inte följer befolkningsstatistiken, kan man sampla datauppsättningen på ett konservativt sätt som kallas minimax sampling., Minimax-provtagningen har sitt ursprung i Anderson minimax-förhållande vars värde visat sig vara 0,5: i en binär klassificering bör klassprovstorlekarna väljas lika. Detta förhållande kan bevisas vara minimax-förhållande endast under antagandet av Lda-klassificerare med Gaussfördelningar. Begreppet Minimax provtagning har nyligen utvecklats för en allmän klass av klassificeringsregler, som kallas klass-wise smarta klassificerare., I detta fall väljs provtagningsförhållandet för klasser så att det värsta fallklassificeringsfelet över all möjlig befolkningsstatistik för klassens tidigare sannolikheter skulle vara det bästa.

Accidental samplingEdit

Accidental sampling (ibland kallad grab, convenience eller opportunity sampling) är en typ av nonprobability sampling som innebär att provet tas från den del av befolkningen som är nära handen. Det vill säga en befolkning väljs eftersom den är lättillgänglig och bekväm., Det kan vara genom att träffa personen eller inkludera en person i provet när man möter dem eller valt genom att hitta dem genom tekniska medel som internet eller via telefon. Forskaren som använder ett sådant prov kan inte vetenskapligt göra generaliseringar om den totala befolkningen från detta prov eftersom det inte skulle vara representativt nog., Till exempel, om intervjuaren skulle genomföra en sådan undersökning på ett köpcentrum tidigt på morgonen på en viss dag, skulle de personer som han/hon kunde intervjua begränsas till de som gavs där vid den givna tiden, vilket inte skulle representera andra samhällsmedlemmars åsikter i ett sådant område, om undersökningen skulle genomföras vid olika tidpunkter och flera gånger per vecka. Denna typ av provtagning är mest användbar för pilotprovning., Flera viktiga överväganden för forskare som använder bekvämlighetsprover är:

finns det kontroller inom forskningsdesignen eller experimentet som kan tjäna till att minska effekten av ett icke-slumpmässigt bekvämlighetsprov, vilket säkerställer att resultaten blir mer representativa för befolkningen?
finns det goda skäl att tro att ett visst bekvämlighetsprov skulle eller borde svara eller bete sig annorlunda än ett slumpmässigt urval från samma population?
ställs frågan av den forskning som på ett adekvat sätt kan besvaras med hjälp av ett bekvämlighetsprov?,

i samhällsvetenskaplig forskning är snöbollsprovtagning en liknande teknik, där befintliga studieämnen används för att rekrytera fler ämnen i provet. Vissa varianter av snöbollsprovtagning, såsom respondent driven provtagning, tillåter beräkning av urvalssannolikheter och är sannolikhetsprovtagningsmetoder under vissa förhållanden.

frivillig provtagning

ytterligare information: självval bias

den frivilliga provtagningsmetoden är en typ av icke-sannolikhetsurval. Volontärer väljer att slutföra en undersökning.,

volontärer kan bjudas in via annonser i sociala medier. Målpopulationen för annonser kan väljas efter egenskaper som plats, ålder, kön, inkomst, yrke, utbildning eller intressen med hjälp av verktyg som tillhandahålls av det sociala mediet. Annonsen kan innehålla ett meddelande om forskningen och länk till en undersökning. Efter att ha följt länken och slutfört undersökningen lämnar volontären in de uppgifter som ska ingå i urvalspopulationen. Denna metod kan nå en global befolkning men begränsas av kampanjbudgeten., Volontärer utanför den inbjudna befolkningen kan också ingå i provet.

det är svårt att göra generaliseringar från detta prov eftersom det kanske inte representerar den totala befolkningen. Ofta har volontärer ett starkt intresse för undersökningens huvudämne.

Line-intercept samplingEdit

Line-intercept sampling är en metod för samplingselement i en region där ett element provtas om ett valt linjesegment, kallat en ”transekt”, skär elementet.,

panelsamplingedit

Panelsampling är metoden att först välja en grupp deltagare genom en slumpmässig provtagningsmetod och sedan be den gruppen för (potentiellt samma) information flera gånger under en tidsperiod. Därför intervjuas varje deltagare vid två eller flera tidpunkter; varje period av datainsamling kallas en ”våg”. Metoden utvecklades av sociologen Paul Lazarsfeld 1938 som ett sätt att studera politiska kampanjer., Denna longitudinella provtagningsmetod möjliggör uppskattningar av förändringar i befolkningen, till exempel när det gäller kronisk sjukdom till arbetsstress till veckovisa livsmedelsutgifter. Panelprovtagning kan också användas för att informera forskare om förändringar inom människors hälsa på grund av ålder eller för att förklara förändringar i kontinuerliga beroende variabler som spousal interaktion. Det har funnits flera föreslagna metoder för att analysera paneldata, inklusive MANOVA, tillväxtkurvor och strukturell ekvationsmodellering med fördröjda effekter.,

Snowball samplingEdit

Snowball sampling innebär att hitta en liten grupp av ursprungliga respondenter och använda dem för att rekrytera fler respondenter. Det är särskilt användbart i fall där befolkningen är dold eller svår att räkna upp.

teoretisk samplingEdit

det här avsnittet behöver expansion. Du kan hjälpa till genom att lägga till det. (Juli 2015)

teoretisk provtagning sker när prover väljs på grundval av resultaten av de data som hittills samlats in med målet att utveckla en djupare förståelse av området eller utveckla teorier., Extrema eller mycket specifika fall kan väljas för att maximera sannolikheten för att ett fenomen faktiskt kommer att vara observerbart.