Prøvetaking (statistikk)

i noen av de typer bilder som er identifisert ovenfor, en rekke prøvetaking metoder kan benyttes hver for seg eller i kombinasjon.,f rammen

Tilgjengelighet av ekstra informasjon om enheter på rammen

Korrektheten krav, og behovet for å måle nøyaktighet

Om detaljert analyse av prøven er forventet

Kostnad/operative oppgaver

Enkelt tilfeldig utvalg på Rediger

utdypende artikkel: Simple random sampling

En visuell representasjon av å velge et enkelt tilfeldig utvalg

I et enkelt tilfeldig utvalg (SRS) av en gitt størrelse, alle delmengder av et utvalg rammen har en lik sannsynlighet for å bli valgt., Hvert element i bildet, og dermed har en lik sannsynlighet for utvalget: bildet er ikke delt eller delt. Videre, for et gitt par av elementer har samme sjanse for utvalget som alle andre slike par (og tilsvarende for tremannsrom, og så videre). Dette reduserer faren for bias og forenkler analyse av resultatene. I særdeleshet, er det avvik mellom individuelle resultater innenfor eksempel er en god indikator på variasjon i den generelle befolkningen, noe som gjør det relativt enkelt å anslå nøyaktigheten av resultatene.,

Enkelt tilfeldig utvalg kan være sårbare for prøvetaking feil fordi tilfeldigheten av valget kan resultere i et eksempel som ikke gjenspeiler sammensetningen av befolkningen. For eksempel, et enkelt tilfeldig utvalg på ti personer fra et gitt land vil i gjennomsnitt produsere fem menn og fem kvinner, men en gitt studie er sannsynlig å overrepresent ett kjønn og underrepresent den andre. Systematisk og stratifisert teknikker forsøk på å overvinne dette problemet ved å bruke informasjon om befolkningen» for å velge en mer «representativt» utvalg.,

Også, enkelt tilfeldig utvalg kan være tungvint og kjedelig når sampling fra en stor målgruppen. I noen tilfeller, etterforskere er interessert i problemstillinger som er spesifikke for undergrupper av befolkningen. For eksempel, forskere kan være interessert i å undersøke om kognitiv evne som en prediktor for utførelsen av jobben er like gjeldende på tvers av etniske grupper., Enkelt tilfeldig utvalg kan ikke imøtekomme behovene til forskere i denne situasjonen, fordi det ikke gir subsamples av befolkningen, og andre strategier for prøvetaking, for eksempel stratifisert sampling, kan brukes i stedet.,

Systematiske samplingEdit

utdypende artikkel: Systematisk prøvetaking

En visuell representasjon av å velge et tilfeldig utvalg ved hjelp av systematisk prøvetaking teknikk

Systematisk sampling (også kjent som intervall prøvetaking) er avhengig av å arrangere studiepopulasjonen i henhold til noen bestilling av ordningen og deretter velge elementer, og med jevne mellomrom gjennom at listen. Systematisk prøvetaking innebærer en tilfeldig start og deretter fortsetter med det utvalget av hver kth element fra da av og utover., I dette tilfellet, k=(bestandsstørrelse/eksempel størrelse). Det er viktig at startpunktet er ikke automatisk den første på listen, men er i stedet valgt tilfeldig fra i løpet av de første til kth element i listen. Et enkelt eksempel vil være å velge hver 10. navn fra telefonkatalogen (en «hver 10.’ eksempel, også referert til som ‘prøvetaking med et hopp på 10’).

Så lenge utgangspunktet er tilfeldig, systematisk sampling er en type sannsynlighet for prøvetaking., Det er lett å implementere og lagdelingen indusert kan gjøre det effektivt, hvis variabelen som listen er bestilt er korrelert med variable av interesse. «Hver 10.’ prøvetaking er spesielt nyttig for effektiv prøvetaking fra databaser.

For eksempel, tenk at vi ønsker å prøve mennesker fra en lang gate som starter i et fattig område (hus Nr 1) og ender opp i et dyrt district (hus Nr 1000)., Et enkelt tilfeldig utvalg av adresser fra denne gaten kan lett ende opp med altfor mange fra high end, og altfor få fra den lave enden (eller vice versa), som fører til et lite representative utvalg. Når du velger (f.eks.) hver 10th street nummer langs gaten sikrer at prøven er jevnt fordelt langs gaten, som representerer alle disse distriktene. (Merk at hvis vi alltid starte på huset #1 og slutten på #991, prøven er litt forutinntatt mot den lave enden, ved å tilfeldig velge start mellom #1 og #10, dette bias er eliminert.,

Imidlertid systematisk prøvetaking er spesielt sårbare for periodicities i listen. Hvis periodisitet er til stede, og perioden er en av flere eller faktor av intervallet brukt, prøven er spesielt sannsynlig å være representative for den generelle befolkningen, noe som gjør ordningen mindre nøyaktige enn enkelt tilfeldig utvalg.

For eksempel, tenk deg en gate hvor odd-nummererte husene er alle på nord (dyre) side av veien, og selv nummerert husene er alle på sør (billig) side., Under prøvetaking ordningen som er gitt ovenfor, er det umulig å få et representativt utvalg; enten hus samplet vil alle være fra odd-nummerert, dyre siden, eller de vil alle være fra selv-nummerert, billige side, med mindre forskeren har kjennskap til dette bias og unngår det ved hjelp av en hoppe som sikrer hopping mellom de to sidene (alle odd-nummererte hoppe over).

en Annen ulempe av systematisk prøvetaking er at selv i situasjoner hvor det er mer nøyaktig enn SRS, dens teoretiske egenskaper gjør det vanskelig å kvantifisere at nøyaktighet., (I de to eksemplene på systematisk prøvetaking som er gitt ovenfor, mye av den potensielle utvalgsfeilen er på grunn av variasjon mellom nærliggende hus – men fordi denne metoden aldri velger to nærliggende hus, og prøven vil ikke gi oss noen informasjon om at variasjon.)

Systematisk prøvetaking kan også tilpasses til en ikke-EPS tilnærming, for et eksempel, se diskusjon av PPS eksempler nedenfor.,

Stratifisert samplingEdit

utdypende artikkel: Stratifisert sampling

En visuell representasjon av å velge et tilfeldig utvalg med stratifisert sampling teknikk

Når befolkningen omfatter en rekke forskjellige kategorier, rammen kan være organisert av disse kategoriene inn i separate «strata.»Hvert stratum er det så trukket som et selvstendig sub-populasjon, hvorav enkelte elementer kan være tilfeldig valgt., Forholdet mellom størrelsen av denne tilfeldig utvalg (eller utdrag) til størrelsen på befolkningen, kalles et utvalg brøkdel. Det er flere potensielle fordeler ved å stratifisert sampling.

Først, å dele befolkningen inn i forskjellige, uavhengige strata kan gjøre det mulig for forskere å trekke slutninger om spesifikke undergrupper som kan ha gått tapt i en mer generalisert tilfeldig utvalg.,

Andre, benytte en stratifisert sampling metoden kan føre til mer effektiv statistiske estimater (forutsatt at strata er valgt basert på relevans i forhold til kriteriet i spørsmålet, i stedet for tilgjengelighet av prøvene). Selv om en stratifisert sampling tilnærming ikke føre til økt statistiske effektivitet, slik taktikk vil ikke føre til mindre effektivitet enn det som ville enkelt tilfeldig utvalg, forutsatt at hvert stratum er proporsjonal til gruppens størrelse i befolkningen.,

Tredje, er det noen ganger slik at data blir lettere tilgjengelig for den enkelte, pre-eksisterende strata innen en befolkning enn for den generelle befolkningen; i slike tilfeller, ved hjelp av et stratifisert sampling tilnærming kan være mer praktisk enn å samle inn data på tvers av grupper (selv om dette kan potensielt være i strid med det som tidligere er nevnt viktigheten av å benytte kriteriet-relevant strata).,

til Slutt, siden hvert stratum er behandlet som et selvstendig befolkningen, ulike prøvetaking tilnærminger kan brukes til ulike strata, potensielt aktivere forskere til å bruke den tilnærming som er best egnet (eller mest kostnadseffektive) for hver identifisert undergruppe i befolkningen.

Det er, imidlertid, noen potensielle ulemper med å bruke stratifisert sampling. Første, identifisere strata og implementere en slik tilnærming kan øke kostnadene og kompleksiteten av utvalg utvalg, samt fører til økt kompleksitet av bestandsestimater., For det andre, ved å undersøke flere kriterier, stratifying variabler kan være relatert til noen, men ikke for andre, noe som ytterligere kompliserer design, og potensielt redusere nytten av strata. Til slutt, i noen tilfeller (for eksempel design med et stort antall strata, eller de med en spesifisert minimum eksempel størrelse per gruppe), stratifisert sampling kan potensielt krever et større utvalg enn andre metoder (selv om det i de fleste tilfeller er det nødvendig utvalgsstørrelse ville ikke være større enn det som ville være nødvendig for enkelt tilfeldig utvalg).,

Et stratifisert sampling tilnærming er mest effektive når tre betingelser er oppfylt

Variasjonen innen strata er minimert
Variasjon mellom strata er maksimert
variablene på hvor befolkningen er stratifisert er sterkt korrelert med ønsket avhengige variabelen.

Fordeler fremfor andre metoder for prøvetaking

Fokuserer på viktige undergrupper av befolkningen, og ignorerer irrelevant seg.
Gjør bruk av ulike sampling teknikker for ulike undergrupper.
Forbedrer nøyaktighet/effektivisering av estimering.,
Tillater større balansering av statistiske kraften i tester av forskjeller mellom strata ved prøvetaking like tall fra strata varierer mye i størrelse.

Ulemper

Krever utvalg av relevante lagdelingen variabler som kan være vanskelig.
Er ikke nyttig når det ikke er noen homogen undergrupper.
Kan være dyrt å implementere.

Poststratification

Lagdelingen er noen ganger innført etter prøvetaking fase i en prosess som kalles «poststratification»., Denne tilnærmingen er vanligvis gjennomført på grunn av manglende kjennskap til en passende stratifying variabel eller når experimenter mangler nødvendig informasjon for å opprette en stratifying variabel under prøvetaking fase. Selv om metoden er utsatt for fallgrubene post hoc tilnærminger, det kan gi flere fordeler i den rette situasjonen. Gjennomføring vanligvis følger et enkelt tilfeldig utvalg. I tillegg til at for stratifisering på en underordnet variabel, poststratification kan brukes til å implementere vekting, som kan forbedre nøyaktigheten av et eksempel er estimater.,

Oversampling

Valg basert på sampling er en av de stratifisert sampling strategier. I valg-basert prøvetaking, dataene er stratifisert på mål og en prøve er tatt fra hvert stratum slik at den sjeldne målet klasse vil være mer representert i utvalget. Modellen er bygget deretter på denne partisk eksempel. Effekten av input variabler på målet er ofte beregnet med mer presisjon med valg-basert eksempel, selv om en mindre totale utvalgsstørrelsen er tatt, sammenlignet med et tilfeldig utvalg. Resultatene som regel må justeres for å korrigere for oversampling.,

Sannsynlighet-proporsjonal-til-størrelse samplingEdit

I noen tilfeller eksempel designer har tilgang til en «aux-variabel» eller «størrelse tiltak», som antas å være korrelert til variable av interesse, for hvert element i populasjonen. Disse dataene kan brukes til å forbedre nøyaktigheten i eksempel design. Ett alternativ er å bruke den ekstra variabel som grunnlag for stratifisering, som diskutert ovenfor.

et Annet alternativ er sannsynlighet proporsjonal med størrelsen (‘PP’) prøvetaking, der utvalget sannsynligheten for hvert element er satt til å være proporsjonal med størrelsen på tiltaket, opp til et maksimum av 1., I en enkel PPS design, disse utvalget sannsynligheter kan deretter brukes som grunnlag for Poisson-sampling. Men dette har den ulempen av variable eksempel størrelse, og ulike deler av befolkningen kan fortsatt være over – eller underrepresentert på grunn av sjanse variasjon i valg.

Systematisk sampling teori kan brukes til å lage en sannsynlighet proporsjonal med størrelsen eksempel. Dette er gjort ved å behandle hver teller i størrelse variabel som en enkel prøvetaking enhet. Prøvene blir deretter identifiseres ved å velge selv intervaller blant disse teller i størrelse variabel., Denne metoden kalles noen ganger PPS-sekvensiell eller nominal prøvetaking i tilfelle av revisjoner eller rettsmedisinske prøvetaking.

Eksempel: Anta at vi har seks skoler med bestander av 150, 180, 200, 220, 260, og 490 studenter henholdsvis (totalt 1500 studenter), og vi ønsker å bruke studenter som grunnlag for en PPS utvalg av størrelsen tre. For å gjøre dette, vi kan fordele den første skolen tallene 1 til 150, den andre skolen 151 til 330 (= 150 + 180), den tredje skolen 331 530, og så videre til den siste skolen (1011 1500)., Vi vil deretter generere et tilfeldig start mellom 1 og 500 (tilsvarer 1500/3) og regne gjennom skolen bestander av multispill på 500. Hvis våre tilfeldig start var 137, vi ville velge skoler som har vært tildelte nummer 137, 637, og 1137, dvs. den første, fjerde og sjette skoler.

PPS tilnærming kan forbedre nøyaktigheten for en gitt utvalgsstørrelse ved å konsentrere eksempel på store elementer som har størst innvirkning på bestandsestimater., PPS-sampling brukes ofte for undersøkelser av bedrifter, der element størrelse varierer sterkt og ekstra informasjon er ofte tilgjengelig – for eksempel, en undersøkelse som prøver å måle antall guest-nights tilbrakt på hotell kan bruke alle hotellets antall rom som en ekstra variabel. I noen tilfeller, en eldre måling av variable av interesse kan brukes som en ekstra variabel når du forsøker å produsere mer gjeldende anslag.,

Klynge samplingEdit

En visuell representasjon av å velge et tilfeldig utvalg bruke cluster sampling teknikk

utdypende artikkel: Cluster sampling

noen Ganger er det mer kostnadseffektivt å velge respondentene i grupper (‘klynger’). Sampling er ofte gruppert etter geografisk område, eller ved tidsperioder. (Nesten alle prøvene er i en viss forstand ‘samlet’ i tid – selv om dette er sjelden tatt hensyn til i analysen.,) For eksempel, hvis kartlegging husholdninger i en by, kan vi velge å velge 100 kvartaler og deretter intervjuet hver husholdning innenfor den valgte blokker.

Clustering kan redusere reise-og administrative kostnader. I eksempelet ovenfor, en journalist kan gjøre en enkel tur for å besøke flere husholdninger i ett kvartal, snarere enn å måtte kjøre til en annen blokk for hver husholdning.

Det betyr også at man ikke trenger en prøvetaking ramme oversikt over alle elementer i målgruppen., I stedet, klynger kan være valgt fra en klynge-nivå ramme, med et element-nivå ramme opprettet bare for det utvalgte klynger. I eksemplet ovenfor er bare et eksempel krever en blokk-nivå city-kart for første valgene, og deretter en husholdning-nivå kart over 100 utvalgte blokker, snarere enn en husholdning-nivå kart over hele byen.

Cluster sampling (også kjent som samlet sampling) øker generelt variabiliteten for eksempel anslag over at simple random sampling, avhengig av hvordan klynger skiller seg fra hverandre i forhold til innen-klyngen variasjon., For denne grunn, cluster sampling krever et større utvalg enn SRS å oppnå samme grad av nøyaktighet, men kostnadsbesparelser fra clustering kan fortsatt gjøre dette til et billigere alternativ.

Cluster sampling er ofte implementert som mc-sampling. Dette er en kompleks form av cluster sampling der to eller flere nivåer av enheter som er forankret én i den andre. Den første fasen består av å bygge klynger som vil bli brukt til å prøve fra., I den andre fasen, et utvalg av primær-enheter er tilfeldig valgt fra hver klynge (heller enn å bruke alle enheter finnes i alle valgte klynger). I følgende stadier, i hver av de utvalgte klynger, ekstra prøver av enhetene er valgt, og så videre. Alle ultimate enheter (personer, for eksempel) valgte i siste trinn av denne prosedyren blir deretter undersøkt. Denne teknikken, og dermed er i ferd med å ta tilfeldige subsamples av foregående stikkprøver.,

Mc-prøvetaking kan betydelig redusere prøvetaking kostnader, hvor hele befolkningen liste ville trenge å være konstruert (før andre metoder for prøvetaking kan gjelde). Ved å eliminere arbeid involvert i å beskrive klynger som ikke er valgt, flerfase prøvetaking kan redusere de store kostnadene forbundet med tradisjonelle cluster sampling. Men, hver prøve kan ikke være en fullstendig representativ for hele befolkningen.,

Kvote samplingEdit

utdypende artikkel: Kvote prøvetaking

I kvote prøvetaking, befolkningen er først opp i gjensidig utelukkende sub-grupper, akkurat som i stratifisert sampling. Så skjønn er brukt til å velge fag eller enheter fra hvert segment basert på en bestemt andel. For eksempel, en intervjuer kan bli bedt om å smake på 200 kvinner og 300 menn i alderen 45 til 60.

Det er det andre steget som gjør teknikken ett av ikke-sannsynlighet for prøvetaking. I kvote prøvetaking utvalg av utvalget er ikke tilfeldig., For eksempel, intervjuere kan bli fristet til å intervjue de som ser mest nyttig. Problemet er at disse prøvene kan være partisk fordi ikke alle får en sjanse til utvalget. Dette tilfeldig element er dens største svakhet og kvote versus sannsynlighet har vært et spørsmål om kontroverser i flere år.

Minimax samplingEdit

I ubalanserte datasett, hvor prøvetaking forholdet ikke følger befolkningen statistikk, kan du oppdatere datasettet på en konservativ måte kalles minimax prøvetaking., Den minimax prøvetaking har sin opprinnelse i Anderson minimax forhold som har en verdi som er bevist å være 0.5: i en binær klassifisering, klasse-utvalgene bør velges like. Dette forholdet kan være vist seg å være minimax forholdet bare under forutsetning av LDA classifier med Gaussiske fordelinger. Oppfatningen av minimax prøvetaking er nylig utviklet for en generell klasse av klassifisering regler, kalles klasse-messig smart classifiers., I dette tilfellet, på grunnlag av forholdet mellom klassene er valgt slik at de verste fall classifier feil over alle mulige befolkningen statistikk for klassen før sannsynligheter, ville være den beste.

Utilsiktet samplingEdit

Tilfeldig sampling (noen ganger kjent som grip, bekvemmelighet eller mulighet sampling) er en type nonprobability prøvetaking som innebærer eksempel som blir trukket fra den delen av befolkningen som er nær for hånden. Det er en befolkning er valgt fordi det er lett tilgjengelig og praktisk., Det kan være gjennom å møte den personen, eller ta med en person i utvalget når man møter dem eller valgt ved å finne dem gjennom teknologiske metoder, for eksempel internett eller via telefon. Forskeren ved hjelp av en slik prøve ikke vitenskapelig gjøre generaliseringer om den totale befolkningen fra denne prøven, fordi det ikke ville være representativ nok., For eksempel, hvis den som intervjuer var å gjennomføre en slik undersøkelse på et kjøpesenter tidlig på morgenen på en gitt dag, folk som han/hun kunne intervju ville være begrenset til de som er gitt der på den tid, som ikke ville representerer synspunktene til andre medlemmer av samfunnet i et slikt område, dersom undersøkelsen ble gjennomført på ulike tider av døgnet og flere ganger per uke. Denne type prøvetaking er mest nyttig for pilot-testing., Flere viktige hensyn for forskere ved hjelp av praktiske eksempler inkluderer:

Er det kontroller i forskning, design eller eksperiment, som kan tjene til å minske effekten av en ikke-tilfeldig praktiske prøven, og dermed sikre resultatene vil være mer representativt for befolkningen?
Er det god grunn til å tro at en bestemt praktisk eksempel vil eller bør reagere eller oppfører seg annerledes enn et tilfeldig utvalg fra samme populasjon?
Er spørsmålet som blir stilt av den forskning som kan tilstrekkelig besvares ved hjelp av en praktisk prøve?,

I samfunnsvitenskapelig forskning, snowball-sampling er en lignende teknikk, hvor eksisterende studien brukes til å rekruttere flere fag inn i prøven. Noen varianter av snowball sampling, slik som respondent driven sampling, tillater beregning av utvalget sannsynligheter og er sannsynligheten for prøvetaking metoder under visse betingelser.

Frivillig SamplingEdit

for Ytterligere informasjon: Self-selection bias

frivillig utvalgsmetode er en type ikke-sannsynlighet for prøvetaking. Frivillige velger å fullføre en undersøkelse.,

Frivillige kan bli invitert gjennom annonser i sosiale medier. Målgruppen for reklame kan være valgt av egenskaper som posisjon, alder, kjønn, inntekt, yrke, utdanning eller interesser ved hjelp av verktøy som tilbys av sosiale medium. Annonsen kan inneholde en melding om forskning og link til en undersøkelse. Etter å følge linken og fullføre undersøkelsen frivillig sender data til å bli inkludert i utvalget befolkningen. Denne metoden kan nå en global befolkning, men er begrenset av kampanjebudsjettet., Frivillige utenfor invitert befolkningen kan også være inkludert i utvalget.

Det er vanskelig å gjøre generaliseringer fra denne prøven, fordi det kan ikke representere den totale befolkningen. Ofte, frivillige har en sterk interesse i de viktigste temaet for undersøkelsen.

Line-skjæringspunkt samplingEdit

Line-skjæringspunkt sampling er en metode for prøvetaking elementer i en region hvor et element er samplet hvis en valgt linje-segmentet, kalt en «transect», skjærer element.,

Kontrollpanel samplingEdit

Kontrollpanel prøvetaking er metoden med først å velge en gruppe av deltakerne gjennom en random sampling metoden og deretter ber om at gruppen for (potensielt samme informasjon flere ganger over en periode av tid. Derfor, hver deltaker er intervjuet på to eller flere tidspunkter, og hver av perioden for datainnsamling er kalt en «bølge». Metoden ble utviklet av sosiologen Paul Lazarsfeld i 1938 som et middel til å studere politiske kampanjer., Dette langsgående sampling-metoden tillater beregninger av endringer i befolkningen, for eksempel med hensyn til kronisk sykdom til jobb stress å ukentlige mat utgifter. Panelet prøvetaking kan også brukes til å informere forskere om innen person, helse endringer som følge av alder eller bidra til å forklare endringer i kontinuerlige avhengige variabler, slik som ekteskapelig samhandling. Det har vært flere foreslåtte metoder for å analysere panel data, inkludert MANOVA, vekstkurver, og structural equation modeling med lagged effekter.,

Snøball samplingEdit

Snowball sampling innebærer å finne en liten gruppe av første respondentene og bruke dem til å rekruttere flere respondenter. Det er spesielt nyttig i tilfeller der befolkningen er skjulte og vanskelig å oppsummere.

Teoretiske samplingEdit

Dette avsnittet er behov for utvidelse. Du kan hjelpe ved å legge til det. (Juli 2015)

Teoretisk sampling skjer når prøvene er valgt på grunnlag av resultatene av de data som er samlet inn så langt, med et mål om å utvikle en dypere forståelse av området eller utvikle teorier., Ekstreme eller svært spesielle tilfeller kan være valgt for å maksimere sannsynligheten for et fenomen vil faktisk være observerbar.