Prøveudtagning (statistik)

inden for en af de typer rammer, der er identificeret ovenfor, kan der anvendes forskellige prøveudtagningsmetoder, individuelt eller i kombination.,f rammen

  • Tilgængelighed af ekstra oplysninger om enheder på rammen
  • krav til Nøjagtighed, og behovet for at måle nøjagtighed
  • Om detaljeret analyse af prøven forventes
  • Pris/operationelle problemer
  • Simpel tilfældig sampling Rediger

    uddybende artikel: Simpel tilfældig sampling

    En visuel repræsentation af, at vælge en simpel tilfældig stikprøve

    I en simpel tilfældig stikprøve (SRS) af en given størrelse, alle delmængder af en sampling frame har en lige sandsynlighed for at blive valgt., Hvert element i rammen har således en lige sandsynlighed for udvælgelse: rammen er ikke opdelt eller opdelt. Desuden har et givet par elementer samme chance for valg som ethvert andet sådant par (og tilsvarende for tredobler osv.). Dette minimerer bias og forenkler analyse af resultater. Især er variansen mellem individuelle resultater inden for stikprøven en god indikator for varians i den samlede befolkning, hvilket gør det relativt let at estimere resultaternes nøjagtighed.,

    enkel tilfældig prøveudtagning kan være sårbar over for prøveudtagningsfejl, fordi tilfældigheden af udvælgelsen kan resultere i en prøve, der ikke afspejler befolkningens sammensætning. For eksempel, en simpel tilfældig stikprøve på ti personer fra et givet land vil i gennemsnit producere fem mænd og fem kvinder, men ethvert givet forsøg vil sandsynligvis overrepræsentere det ene køn og underrepræsentere det andet. Systematiske og stratificerede teknikker forsøger at overvinde dette problem ved at “bruge information om befolkningen” til at vælge en mere “repræsentativ” prøve.,

    simpel tilfældig prøveudtagning kan også være besværlig og kedelig ved prøveudtagning fra en stor målpopulation. I nogle tilfælde er efterforskere interesseret i forskningsspørgsmål, der er specifikke for undergrupper af befolkningen. For eksempel kan forskere være interesserede i at undersøge, om kognitiv evne som forudsigelse af jobpræstationer er lige så anvendelig på tværs af racegrupper., Enkel tilfældig prøveudtagning kan ikke imødekomme forskernes behov i denne situation, fordi den ikke giver delprøver af befolkningen, og andre prøveudtagningsstrategier, såsom stratificeret prøveudtagning, kan bruges i stedet.,

    Systematiske samplingEdit

    uddybende artikel: Systematisk prøveudtagning

    En visuel repræsentation af udvælgelsen af en stikprøve ved hjælp af den systematiske stikprøver teknik

    en Systematisk prøveudtagning (også kendt som interval prøveudtagning) bygger på at arrangere den undersøgte population ifølge nogle bestilling ordning og derefter vælge elementer med jævne mellemrum gennem det ordnede liste. Systematisk prøveudtagning involverer en tilfældig start og fortsætter derefter med udvælgelsen af hvert kth-element fra Da af., I dette tilfælde k=(populationsstørrelse/stikprøvestørrelse). Det er vigtigt, at udgangspunktet ikke automatisk er det første på listen, men i stedet vælges tilfældigt fra det første til kth-elementet på listen. Et simpelt eksempel ville være at vælge hvert 10. navn fra telefonbogen (en’ hver 10. ‘prøve, også kaldet’sampling med et spring over 10’).

    så længe udgangspunktet er randomiseret, er systematisk prøveudtagning en type sandsynlighedsprøvetagning., Det er let at implementere, og stratifikationen induceret kan gøre det effektivt, hvis variablen, som listen er bestilt, er korreleret med variablen af interesse. ‘Hver 10.’ prøveudtagning er især nyttig til effektiv prøveudtagning fra databaser.Antag for eksempel, at vi ønsker at prøve folk fra en lang gade, der starter i et fattigt område (hus nummer 1) og slutter i et dyrt distrikt (hus nummer 1000)., Et simpelt tilfældigt udvalg af adresser fra denne gade kunne let ende med for mange fra den høje ende og for få fra den lave ende (eller omvendt), hvilket fører til en ikke-repræsentativ prøve. Valg (f.eks.) hvert 10. gadenummer langs gaden sikrer, at prøven fordeles jævnt langs længden af gaden, der repræsenterer alle disse distrikter. (Bemærk, at hvis vi altid starter ved Hus #1 og slutter ved # 991, er prøven lidt forspændt mod den lave ende; ved tilfældigt at vælge starten mellem # 1 og # 10 elimineres denne bias.,

    systematisk prøveudtagning er dog særligt sårbar over for periodiciteter på listen. Hvis periodicitet er til stede, og perioden er en multipel eller faktor i det anvendte interval, er prøven især sandsynligt, at den ikke er repræsentativ for den samlede befolkning, hvilket gør ordningen mindre nøjagtig end simpel stikprøveudtagning.

    For eksempel, kan du overveje en gade, hvor de ulige nummererede huse er alle på den nordlige (dyre) side af vejen, og de lige nummererede huse er alle på den sydlige (billige) side., Under prøvetagning ordning, der er givet ovenfor, er det umuligt at få en repræsentativ stikprøve; enten huse i stikprøven, vil alle være fra ulige numre, dyre side, eller de vil alle være fra selv-nummererede, billige side, medmindre forskeren har tidligere viden af denne bias, og man undgår det ved hjælp af et spring, som sikrer, at hoppe mellem de to sider (alle ulige springe).

    en anden ulempe ved systematisk prøveudtagning er, at selv i scenarier, hvor det er mere præcist end SRS, gør dets teoretiske egenskaber det vanskeligt at kvantificere denne nøjagtighed., (I de to eksempler på systematisk prøveudtagning, der er angivet ovenfor, skyldes meget af den potentielle prøveudtagningsfejl variation mellem naboboliger – men fordi denne metode aldrig vælger to naboboliger, vil prøven ikke give os nogen information om denne variation.)

    systematisk prøveudtagning kan også tilpasses til en ikke-EPS-tilgang; se f.eks. diskussion af PPS-prøver nedenfor.,

    Stratificeret samplingEdit

    uddybende artikel: Stratificeret sampling

    En visuel repræsentation af valg af en tilfældig stikprøve hjælp stratificeret sampling teknik

    Når befolkningen omfatter en række forskellige kategorier, rammen kan være organiseret af disse kategorier, i forskellige “lag.”Hvert lag udtages derefter som en uafhængig underpopulation, hvoraf individuelle elementer kan vælges tilfældigt., Forholdet mellem størrelsen af dette tilfældige valg (eller prøve) og størrelsen af befolkningen kaldes en prøveudtagningsfraktion. Der er flere potentielle fordele ved stratificeret prøveudtagning.for det første kan opdeling af befolkningen i forskellige, uafhængige lag gøre det muligt for forskere at drage konklusioner om specifikke undergrupper, der kan gå tabt i en mere generaliseret tilfældig prøve.,

    for det andet kan anvendelse af en stratificeret prøveudtagningsmetode føre til mere effektive statistiske estimater (forudsat at lag udvælges ud fra relevans for det pågældende kriterium i stedet for at være tilgængelige for prøverne). Selv hvis en stratificeret prøveudtagningsmetode ikke fører til øget statistisk effektivitet, vil en sådan taktik ikke resultere i mindre effektivitet end simpel tilfældig prøveudtagning, forudsat at hvert lag er proportional med gruppens størrelse i befolkningen.,

    Tredje, er det nogle gange sådan, at data er mere let tilgængelig for den enkelte, præ-eksisterende lag i en gruppe end for den samlede befolkning; i sådanne tilfælde, ved hjælp af en stratificeret sampling tilgang kan være mere bekvemt end at sammenstille data på tværs af grupper (selv om dette kan potentielt være i strid med den tidligere bemærkede vigtigheden af at udnytte kriterium-relevante strata).,

    da hvert lag behandles som en uafhængig population, kan forskellige prøveudtagningsmetoder anvendes på forskellige lag, hvilket potentielt gør det muligt for forskere at anvende den tilgang, der er bedst egnet (eller mest omkostningseffektiv) for hver identificeret undergruppe i befolkningen.

    Der er dog nogle potentielle ulemper ved at bruge stratificeret prøveudtagning. For det første kan identifikation af lag og implementering af en sådan tilgang øge omkostningerne og kompleksiteten ved stikprøveudvælgelse samt føre til øget kompleksitet af befolkningsestimater., For det andet, når man undersøger flere kriterier, kan stratificeringsvariabler være relateret til nogle, men ikke til andre, hvilket yderligere komplicerer designet og potentielt reducerer lagets anvendelighed. Endelig kan stratificeret prøveudtagning i nogle tilfælde (f.eks. design med et stort antal lag eller design med en bestemt minimumsstørrelse pr. gruppe) potentielt kræve en større stikprøve end andre metoder (selv om den krævede stikprøvestørrelse i de fleste tilfælde ikke er større end krævet ved simpel stikprøveudtagning).,

    En stratificeret sampling strategi er mest effektiv, når tre betingelser er opfyldt

    1. Variation inden for strata er minimeret
    2. Variation mellem strata er maksimeret
    3. De variabler, hvorpå befolkningen er stratificeret er stærkt korreleret med den ønskede afhængige variabel.

    fordele i forhold til andre prøveudtagningsmetoder

    1. fokuserer på vigtige underpopulationer og ignorerer irrelevante.
    2. tillader brug af forskellige prøveudtagningsteknikker til forskellige underpopulationer.
    3. forbedrer nøjagtigheden / effektiviteten af estimeringen.,
    4. tillader større afbalancering af den statistiske effekt af test af forskelle mellem lag ved prøveudtagning af lige antal fra lag, der varierer meget i størrelse.

    ulemper

    1. kræver udvælgelse af relevante stratifikationsvariabler, som kan være vanskelige.
    2. er ikke nyttigt, når der ikke er nogen homogene undergrupper.
    3. kan være dyrt at implementere.

    Poststratificering

    stratificering introduceres undertiden efter prøveudtagningsfasen i en proces kaldet “poststratificering”., Denne tilgang implementeres typisk på grund af manglende forudgående kendskab til en passende stratificeringsvariabel, eller når eksperimentatoren mangler de nødvendige oplysninger til at oprette en stratificeringsvariabel i prøveudtagningsfasen. Selvom metoden er modtagelig for faldgruberne i post hoc-tilgange, kan den give flere fordele i den rigtige situation. Implementering følger normalt en simpel tilfældig prøve. Ud over at tillade stratificering på en hjælpevariabel kan poststratificering bruges til at gennemføre vægtning, hvilket kan forbedre præcisionen af en prøvestimater.,valgbaseret prøveudtagning er en af de stratificerede prøveudtagningsstrategier. Ved valgbaseret prøveudtagning stratificeres dataene på målet, og der udtages en prøve fra hvert lag, så den sjældne målklasse vil være mere repræsenteret i prøven. Modellen er derefter bygget på denne forudindtaget prøve. Virkningerne af inputvariablerne på målet estimeres ofte med mere præcision med den valgbaserede prøve, selv når der udtages en mindre samlet stikprøvestørrelse sammenlignet med en tilfældig prøve. Resultaterne skal normalt justeres for at korrigere for oversampling.,

    Sandsynlighed-proportional-til-størrelse samplingEdit

    I nogle tilfælde prøve designer har adgang til en “ekstra variabel” eller “størrelsen mål”, menes at være korreleret til variabel af interesse, for hvert element i befolkningen. Disse data kan bruges til at forbedre nøjagtigheden i prøvedesign. En mulighed er at bruge hjælpevariablen som grundlag for stratificering som beskrevet ovenfor.

    en anden mulighed er Sandsynlighed proportional med størrelse (‘PPS’) prøvetagning, hvor udvælgelsen Sandsynlighed for hvert element er indstillet til at være proportional med dens størrelse mål, op til et maksimum på 1., I et simpelt PPS-design kan disse udvælgelsessandsynligheder derefter bruges som grundlag for Poisson-prøveudtagning. Dette har imidlertid ulempen ved variabel stikprøvestørrelse, og forskellige dele af befolkningen kan stadig være over – eller underrepræsenteret på grund af tilfældig variation i valg.

    systematisk samplingteori kan bruges til at skabe en sandsynlighed, der står i forhold til størrelsesprøven. Dette gøres ved at behandle hvert antal inden for størrelsesvariablen som en enkelt prøveudtagningsenhed. Prøver identificeres derefter ved at vælge med jævne mellemrum blandt disse tællinger inden for størrelsesvariablen., Denne metode kaldes undertiden PPS-sekventiel eller monetær enhedsprøveudtagning i tilfælde af revisioner eller retsmedicinsk prøveudtagning.

    Eksempel: lad os Antage, at vi har seks skoler med populationer af 150, 180, 200, 220, 260, og 490 elever henholdsvis (i alt 1500 elever), og vi ønsker at bruge studerende som grundlag for en PPS stikprøve af størrelsen tre. For at gøre dette, vi kunne afsætte den første skole tallene 1 til 150, den anden skole 151 330 (= 150 + 180), den tredje skole 331 til 530, – og så videre til den sidste skole (1011-1500)., Vi genererer derefter en tilfældig start mellem 1 og 500 (svarende til 1500/3) og tæller gennem skolepopulationerne med multipler på 500. Hvis vores tilfældige start var 137, ville vi vælge de skoler, der har fået tildelt numre 137, 637 og 1137, dvs.den første, fjerde og sjette skoler.

    PPS-metoden kan forbedre nøjagtigheden for en given stikprøvestørrelse ved at koncentrere prøven på store elementer, der har størst indflydelse på befolkningsestimater., PPS-prøveudtagning bruges ofte til undersøgelser af virksomheder, hvor elementstørrelsen varierer meget, og hjælpeinformation ofte er tilgængelig – for eksempel kan en undersøgelse, der forsøger at måle antallet af gæsteovernatninger på hoteller, bruge hvert hotels antal værelser som en hjælpevariabel. I nogle tilfælde kan en ældre måling af variablen af interesse bruges som en hjælpevariabel, når man forsøger at producere mere aktuelle estimater.,

    Cluster samplingEdit

    En visuel repræsentation af valg af en tilfældig stikprøve hjælp cluster sampling teknik

    uddybende artikel: Cluster-sampling

    nogle gange er det er mere omkostningseffektivt at vælge respondenterne i grupper (“klynger”). Prøveudtagning er ofte grupperet efter geografi, eller efter tidsperioder. (Næsten alle prøver er i en vis forstand ‘grupperet’ i tide – selvom dette sjældent tages i betragtning i analysen., Hvis vi f.eks. opmåler husstande i en by, kan vi vælge at vælge 100 byblokke og derefter intervie .e hver husstand inden for de valgte blokke.Clustering kan reducere rejse-og administrationsomkostninger. I eksemplet ovenfor kan en intervie .er foretage en enkelt tur for at besøge flere husstande i en blok, snarere end at skulle køre til en anden blok for hver husstand.

    det betyder også, at man ikke har brug for en samplingsramme, der viser alle elementer i målpopulationen., I stedet kan klynger vælges fra en klynge-niveau ramme, med et element – niveau ramme skabt kun for de valgte klynger. I eksemplet ovenfor kræver prøven kun et bykort på blokniveau til indledende valg og derefter et kort på husstandsniveau over de 100 udvalgte blokke snarere end et kort på husstandsniveau over hele byen.clustered sampling (også kendt som clustered sampling) øger generelt variabiliteten af prøvestimater over den ved simpel tilfældig prøveudtagning, afhængigt af hvordan klyngerne adskiller sig mellem hinanden sammenlignet med variationen inden for klyngen., Af denne grund kræver klyngeprøvning en større prøve end SRS for at opnå det samme niveau af nøjagtighed – men omkostningsbesparelser fra klyngning kan stadig gøre dette til en billigere mulighed.cluster sampling er almindeligt implementeret som flertrins sampling. Dette er en kompleks form for klyngeprøvning, hvor to eller flere niveauer af enheder er indlejret i den anden. Den første fase består i at konstruere de klynger, der vil blive brugt til at prøve fra., I anden fase vælges en stikprøve af primære enheder tilfældigt fra hver klynge (i stedet for at bruge alle enheder indeholdt i alle valgte klynger). I de følgende faser vælges yderligere prøver af enheder i hver af de udvalgte klynger og så videre. Alle endelige enheder (enkeltpersoner, for eksempel) valgt på det sidste trin i denne procedure undersøges derefter. Denne teknik er således i det væsentlige processen med at tage tilfældige delprøver af forudgående tilfældige prøver.,

    Flertrinsprøveudtagning kan i væsentlig grad reducere prøveudtagningsomkostningerne, hvor det er nødvendigt at udarbejde den komplette populationsliste (før andre prøveudtagningsmetoder kan anvendes). Ved at eliminere det arbejde, der er involveret i at beskrive klynger, der ikke er valgt, kan flertrinsprøvetagning reducere de store omkostninger forbundet med traditionel klyngeprøvning. Hver prøve kan dog ikke være en fuldstændig repræsentant for hele befolkningen.,

    Kvoteudtagningrediger

    Hovedartikel: Kvoteudtagning

    i kvoteudtagning opdeles populationen først i undergrupper, der udelukker hinanden, ligesom i stratificeret prøveudtagning. Derefter bruges dom til at vælge emner eller enheder fra hvert segment baseret på en bestemt andel. For eksempel kan en intervie .er blive bedt om at prøve 200 kvinder og 300 mænd mellem 45 og 60 år.

    det er dette andet trin, der gør teknikken til en af ikke-sandsynlighedsprøvetagning. Ved kvoteudtagning er udvælgelsen af stikprøven ikke tilfældig., For eksempel kan intervie .ere blive fristet til at intervie .e dem, der ser mest nyttige ud. Problemet er, at disse prøver kan være forudindtaget, fordi ikke alle får en chance for udvælgelse. Dette tilfældige element er dets største svaghed og kvote versus Sandsynlighed har været et spørgsmål om kontrovers i flere år.

    Minima.samplingEdit

    i ubalancerede datasæt, hvor prøveudtagningsforholdet ikke følger befolkningsstatistikken, kan man resample datasættet på en konservativ måde kaldet minima. sampling., Minima.-prøveudtagningen har sin oprindelse i Anderson minima. – forholdet, hvis værdi er vist sig at være 0, 5: i en binær klassificering skal klasseprøvestørrelserne vælges ens. Dette forhold kan kun bevises at være minima. – forhold under antagelse af LDA-klassifikator med Gauss-distributioner. Begrebet minima.sampling er for nylig udviklet til en generel klasse af klassificeringsregler, kaldet class-wiseise smart classifiers., I dette tilfælde vælges prøveudtagningsforholdet mellem klasser, så den værst tænkelige klassificeringsfejl over alle mulige befolkningsstatistikker for klassens forudgående sandsynligheder ville være den bedste.

    utilsigtet prøvetagningrediger

    utilsigtet prøveudtagning (undertiden kendt som grab, convenience eller opportunity sampling) er en type ikke-sandsynlighedsprøvetagning, der involverer prøven, der trækkes fra den del af befolkningen, der er tæt på hånden. Det vil sige, at en befolkning er valgt, fordi den er let tilgængelig og praktisk., Det kan være ved at møde personen eller inkludere en person i prøven, når man møder dem eller vælges ved at finde dem gennem teknologiske midler som internettet eller via telefon. Forskeren, der bruger en sådan prøve, kan ikke videnskabeligt foretage generaliseringer om den samlede befolkning fra denne prøve, fordi den ikke ville være repræsentativ nok., For eksempel, hvis intervieweren var til at gennemføre sådanne undersøgelser i et shopping center i morgen tidlig på en given dag, de mennesker, at han/hun kunne interview ville være begrænset til dem, der på det givne tidspunkt, hvilket ville ikke repræsentere af andre medlemmer af samfundet i et sådant område, hvis undersøgelsen blev foretaget på forskellige tidspunkter af dagen og flere gange om ugen. Denne type prøveudtagning er mest nyttig til pilotprøvning., Flere vigtige overvejelser for forskere, der bruger bekvemmelighedsprøver, omfatter:

    1. er der kontroller inden for forskningsdesignet eller eksperimentet, som kan tjene til at mindske virkningen af en ikke-tilfældig bekvemmelighedsprøve, hvilket sikrer, at resultaterne vil være mere repræsentative for befolkningen?
    2. er der god grund til at tro, at en bestemt bekvemmelighedsprøve ville eller skulle reagere eller opføre sig anderledes end en tilfældig prøve fra den samme population?
    3. er spørgsmålet stillet af forskningen, der kan besvares tilstrækkeligt ved hjælp af en bekvemmelighedsprøve?,

    i samfundsvidenskabelig forskning er sneboldprøveudtagning en lignende teknik, hvor eksisterende undersøgelsesemner bruges til at rekruttere flere emner i prøven. Nogle varianter af sneboldprøveudtagning, såsom respondentdrevet prøveudtagning, tillader beregning af udvælgelsessandsynligheder og er sandsynlighedsprøvetagningsmetoder under visse betingelser.

    frivillig Prøvetagningrediger

    yderligere oplysninger: selvvalgsbias

    den frivillige prøveudtagningsmetode er en type ikke-sandsynlighedsprøvetagning. Frivillige vælger at gennemføre en undersøgelse.,

    frivillige kan inviteres gennem reklamer i sociale medier. Målpopulationen for reklamer kan vælges efter egenskaber som placering, alder, køn, indkomst, beskæftigelse, uddannelse eller interesser ved hjælp af værktøjer leveret af det sociale medium. Annoncen kan indeholde en meddelelse om forskningen og link til en undersøgelse. Efter at have fulgt linket og afsluttet undersøgelsen indsender frivillige de data, der skal inkluderes i prøvepopulationen. Denne metode kan nå en global befolkning, men er begrænset af kampagnebudgettet., Frivillige uden for den inviterede befolkning kan også indgå i prøven.

    det er vanskeligt at foretage generaliseringer fra denne prøve, fordi den muligvis ikke repræsenterer den samlede befolkning. Ofte har frivillige en stærk interesse i undersøgelsens hovedemne.

    samplingEdit

    sampling af Linjeafsnit er en metode til prøveudtagning af elementer i et område, hvor et element udtages, hvis et valgt linjesegment, kaldet en “transekt”, skærer elementet.,

    panel samplingEdit

    Panel sampling er metoden til først at vælge en gruppe af deltagere gennem en tilfældig prøveudtagningsmetode og derefter bede den gruppe om (potentielt den samme) information flere gange over en periode. Derfor intervie .es hver deltager på to eller flere tidspunkter; hver periode med dataindsamling kaldes en “bølge”. Metoden blev udviklet af sociologen Paul la .arsfeld i 1938 som et middel til at studere politiske kampagner., Denne langsgående prøveudtagningsmetode tillader estimater af ændringer i befolkningen, for eksempel med hensyn til kronisk sygdom til jobstress til ugentlige fødevareudgifter. Panelprøveudtagning kan også bruges til at informere forskere om sundhedsændringer inden for personen på grund af alder eller til at hjælpe med at forklare ændringer i kontinuerlige afhængige variabler, såsom ægtefælleinteraktion. Der har været flere foreslåede metoder til at analysere paneldata, herunder Manova, vækstkurver og strukturel ligningsmodellering med forsinkede effekter.,

    sno .ball samplingEdit

    sno .ball sampling indebærer at finde en lille gruppe af indledende respondenter og bruge dem til at rekruttere flere respondenter. Det er især nyttigt i tilfælde, hvor befolkningen er skjult eller vanskelig at opregne.

    teoretisk samplingEdit

    dette afsnit skal udvides. Du kan hjælpe ved at tilføje til det. (Juli 2015)

    teoretisk prøveudtagning sker, når prøver udvælges på baggrund af resultaterne af de hidtil indsamlede data med det formål at udvikle en dybere forståelse af området eller udvikle teorier., Ekstreme eller meget specifikke tilfælde kan vælges for at maksimere sandsynligheden for, at et fænomen faktisk kan observeres.

    Share

    Skriv et svar

    Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *