Campionamento (statistiche)

All’interno di uno qualsiasi dei tipi di frame sopra identificati, è possibile utilizzare una varietà di metodi di campionamento, singolarmente o in combinazione.,f il frame

la Disponibilità di informazioni ausiliarie delle unità sul telaio

requisiti di Precisione, e la necessità di misurare la precisione

Se l’analisi dettagliata del campione è previsto

Costo/preoccupazioni operative

campionamento casuale Semplice Modifica

articolo Principale: Campionamento casuale semplice

Una rappresentazione visiva della selezione di un semplice campione casuale

In un semplice campione casuale (SRS) di una certa dimensione, tutti i sottoinsiemi di un telaio di campionamento hanno una uguale probabilità di essere selezionato., Ogni elemento del frame ha quindi una uguale probabilità di selezione: il frame non è suddiviso o partizionato. Inoltre, ogni coppia di elementi ha la stessa possibilità di selezione di qualsiasi altra coppia (e allo stesso modo per le triple e così via). Ciò riduce al minimo i pregiudizi e semplifica l’analisi dei risultati. In particolare, la varianza tra i singoli risultati all’interno del campione è un buon indicatore della varianza nella popolazione complessiva, il che rende relativamente facile stimare l’accuratezza dei risultati.,

Il campionamento casuale semplice può essere vulnerabile all’errore di campionamento perché la casualità della selezione può risultare in un campione che non riflette la composizione della popolazione. Per esempio, un semplice campione casuale di dieci persone provenienti da un determinato paese produrrà in media cinque uomini e cinque donne, ma ogni dato processo rischia di sovrarappresentare un sesso e sottorappresentare l’altro. Tecniche sistematiche e stratificate tentano di superare questo problema “utilizzando le informazioni sulla popolazione” per scegliere un campione più “rappresentativo”.,

Inoltre, il semplice campionamento casuale può essere ingombrante e noioso quando si campiona da una vasta popolazione target. In alcuni casi, gli investigatori sono interessati a domande di ricerca specifiche per sottogruppi della popolazione. Ad esempio, i ricercatori potrebbero essere interessati a esaminare se la capacità cognitiva come predittore delle prestazioni lavorative sia ugualmente applicabile tra i gruppi razziali., Il semplice campionamento casuale non può soddisfare le esigenze dei ricercatori in questa situazione, perché non fornisce sottocampioni della popolazione e possono essere utilizzate altre strategie di campionamento, come il campionamento stratificato.,

Sistematica samplingEdit

articolo Principale: campionamento Sistematico

Una rappresentazione visiva di selezionare un campione casuale utilizzando il campionamento sistematico tecnica

campionamento Sistematico (noto anche come intervallo di campionamento) si basa sull’organizzazione di uno studio di popolazione, secondo alcuni ordinamento schema e quindi la selezione di elementi a intervalli regolari che l’elenco ordinato. Campionamento sistematico comporta un inizio casuale e poi procede con la selezione di ogni elemento kth da allora in poi., In questo caso, k=(dimensione della popolazione / dimensione del campione). È importante che il punto di partenza non sia automaticamente il primo nell’elenco, ma sia scelto casualmente dall’interno del primo all’elemento kth nell’elenco. Un semplice esempio potrebbe essere quello di selezionare ogni 10 ° nome dall’elenco telefonico (un campione ” ogni 10°”, noto anche come “campionamento con un salto di 10”).

Finché il punto di partenza è randomizzato, il campionamento sistematico è un tipo di campionamento probabilistico., È facile da implementare e la stratificazione indotta può renderla efficiente, se la variabile con cui è ordinata la lista è correlata con la variabile di interesse. Il campionamento “ogni decimo” è particolarmente utile per un campionamento efficiente dai database.

Ad esempio, supponiamo di voler campionare le persone da una strada lunga che inizia in una zona povera (casa n.1) e termina in un quartiere costoso (casa n. 1000)., Una semplice selezione casuale di indirizzi da questa strada potrebbe facilmente finire con troppi dalla fascia alta e troppo pochi dalla fascia bassa (o viceversa), portando ad un campione non rappresentativo. La selezione (ad esempio) di ogni numero civico 10 lungo la strada assicura che il campione sia distribuito uniformemente lungo la lunghezza della strada, rappresentando tutti questi distretti. (Nota che se iniziamo sempre dalla casa # 1 e finiamo al # 991, il campione è leggermente distorto verso la fascia bassa; selezionando casualmente l’inizio tra #1 e #10, questo pregiudizio viene eliminato.,

Tuttavia, il campionamento sistematico è particolarmente vulnerabile alle periodicità dell’elenco. Se la periodicità è presente e il periodo è un multiplo o un fattore dell’intervallo utilizzato, è particolarmente probabile che il campione non sia rappresentativo della popolazione complessiva, rendendo lo schema meno accurato del semplice campionamento casuale.

Ad esempio, si consideri una strada in cui le case dispari sono tutte sul lato nord (costoso) della strada, e le case pari sono tutte sul lato sud (economico)., Secondo lo schema di campionamento di cui sopra, è impossibile ottenere un campione rappresentativo; o le case campionate saranno tutte dal lato dispari, costoso, o saranno tutte dal lato pari, economico, a meno che il ricercatore non abbia una conoscenza precedente di questo pregiudizio e lo eviti usando un salto che assicura il salto tra i due lati (qualsiasi salto dispari).

Un altro inconveniente del campionamento sistematico è che anche in scenari in cui è più preciso di SRS, le sue proprietà teoriche rendono difficile quantificare tale accuratezza., (Nei due esempi di campionamento sistematico sopra riportati, gran parte del potenziale errore di campionamento è dovuto alla variazione tra case vicine – ma poiché questo metodo non seleziona mai due case vicine, il campione non ci fornirà alcuna informazione su tale variazione.)

Il campionamento sistematico può anche essere adattato a un approccio non EPS; per un esempio, vedere la discussione dei campioni PPS di seguito.,

Stratificato samplingEdit

articolo Principale: campionamento Stratificato

Una rappresentazione visiva di selezionare un campione casuale utilizzando il campionamento stratificato tecnica

Quando la popolazione comprende un numero di categorie distinte, il telaio può essere organizzato da queste categorie in diversi “strati.”Ogni strato viene quindi campionato come una sottopopolazione indipendente, dalla quale i singoli elementi possono essere selezionati in modo casuale., Il rapporto tra la dimensione di questa selezione casuale (o campione) e la dimensione della popolazione è chiamato frazione di campionamento. Ci sono diversi potenziali benefici per il campionamento stratificato.

Innanzitutto, dividere la popolazione in strati distinti e indipendenti può consentire ai ricercatori di trarre inferenze su sottogruppi specifici che possono essere persi in un campione casuale più generalizzato.,

In secondo luogo, l’utilizzo di un metodo di campionamento stratificato può portare a stime statistiche più efficienti (a condizione che gli strati siano selezionati in base alla pertinenza al criterio in questione, anziché alla disponibilità dei campioni). Anche se un approccio di campionamento stratificato non porta ad una maggiore efficienza statistica, tale tattica non si tradurrà in meno efficienza di quanto sarebbe semplice campionamento casuale, a condizione che ogni strato è proporzionale alla dimensione del gruppo nella popolazione.,

In terzo luogo, a volte è il caso che i dati siano più facilmente disponibili per singoli strati preesistenti all’interno di una popolazione che per la popolazione complessiva; in tali casi, l’utilizzo di un approccio di campionamento stratificato può essere più conveniente dell’aggregazione di dati tra gruppi (sebbene ciò possa potenzialmente essere in contrasto con l’importanza precedentemente notata,

Infine, poiché ogni strato è trattato come una popolazione indipendente, diversi approcci di campionamento possono essere applicati a diversi strati, consentendo potenzialmente ai ricercatori di utilizzare l’approccio più adatto (o più conveniente) per ciascun sottogruppo identificato all’interno della popolazione.

Ci sono, tuttavia, alcuni potenziali inconvenienti nell’uso del campionamento stratificato. Innanzitutto, identificare gli strati e implementare tale approccio può aumentare il costo e la complessità della selezione del campione, oltre a portare a una maggiore complessità delle stime della popolazione., In secondo luogo, quando si esaminano più criteri, le variabili stratificanti possono essere correlate ad alcune, ma non ad altre, complicando ulteriormente il design e riducendo potenzialmente l’utilità degli strati. Infine, in alcuni casi (come i disegni con un numero elevato di strati o quelli con una dimensione minima del campione specificata per gruppo), il campionamento stratificato può potenzialmente richiedere un campione più grande di altri metodi (anche se nella maggior parte dei casi, la dimensione del campione richiesta non sarebbe più grande di quella richiesta per un semplice campionamento casuale).,

Un approccio di campionamento stratificato è più efficace quando sono soddisfatte tre condizioni

La variabilità all’interno degli strati è ridotta al minimo
La variabilità tra gli strati è massimizzata
Le variabili su cui la popolazione è stratificata sono fortemente correlate con la variabile dipendente desiderata.

Vantaggi rispetto ad altri metodi di campionamento

Si concentra su sottopopolazioni importanti e ignora quelli irrilevanti.
Consente l’uso di diverse tecniche di campionamento per diverse sottopopolazioni.
Migliora la precisione / efficienza della stima.,
Consente un maggiore bilanciamento del potere statistico delle prove delle differenze tra strati campionando numeri uguali da strati di dimensioni molto variabili.

Svantaggi

Richiede la selezione di variabili di stratificazione rilevanti che possono essere difficili.
Non è utile quando non ci sono sottogruppi omogenei.
Può essere costoso da implementare.

Poststratificazione

La stratificazione viene talvolta introdotta dopo la fase di campionamento in un processo chiamato “poststratificazione”., Questo approccio è tipicamente implementato a causa di una mancanza di conoscenza preliminare di una variabile stratificante appropriata o quando lo sperimentatore non ha le informazioni necessarie per creare una variabile stratificante durante la fase di campionamento. Sebbene il metodo sia suscettibile alle insidie degli approcci post hoc, può fornire diversi vantaggi nella giusta situazione. L’implementazione di solito segue un semplice campione casuale. Oltre a consentire la stratificazione su una variabile ausiliaria, la poststratificazione può essere utilizzata per implementare la ponderazione, che può migliorare la precisione delle stime di un campione.,

L’oversampling

Il campionamento basato sulla scelta è una delle strategie di campionamento stratificato. Nel campionamento basato sulla scelta, i dati sono stratificati sul target e un campione viene prelevato da ogni strato in modo che la classe target rara sia più rappresentata nel campione. Il modello viene quindi costruito su questo campione parziale. Gli effetti delle variabili di input sul target sono spesso stimati con maggiore precisione con il campione basato sulla scelta anche quando viene presa una dimensione complessiva del campione più piccola, rispetto a un campione casuale. I risultati di solito devono essere regolati per correggere il sovracampionamento.,

Probability-proportional-to-size samplingEdit

In alcuni casi il progettista del campione ha accesso a una “variabile ausiliaria” o “misura di dimensione”, che si ritiene correlata alla variabile di interesse, per ogni elemento della popolazione. Questi dati possono essere utilizzati per migliorare la precisione nella progettazione del campione. Un’opzione è usare la variabile ausiliaria come base per la stratificazione, come discusso sopra.

Un’altra opzione è probability proportional to size (‘PPS’) campionamento, in cui la probabilità di selezione per ogni elemento è impostato per essere proporzionale alla sua misura di dimensione, fino ad un massimo di 1., In un semplice progetto PPS, queste probabilità di selezione possono quindi essere utilizzate come base per il campionamento di Poisson. Tuttavia, questo ha lo svantaggio della dimensione del campione variabile, e diverse porzioni della popolazione possono ancora essere sovrarappresentate o sottorappresentate a causa della variazione casuale nelle selezioni.

La teoria del campionamento sistematico può essere utilizzata per creare una probabilità proporzionale alla dimensione del campione. Questo viene fatto trattando ogni conteggio all’interno della variabile di dimensione come una singola unità di campionamento. I campioni vengono quindi identificati selezionando a intervalli regolari tra questi conteggi all’interno della variabile di dimensione., Questo metodo è talvolta chiamato PPS-campionamento sequenziale o monetario in caso di audit o campionamento forense.

Esempio: Supponiamo di avere sei scuole con popolazioni di 150, 180, 200, 220, 260, e 490 studenti rispettivamente (totale 1500 studenti), e vogliamo usare la popolazione studentesca come base per un campione PPS di taglia tre. Per fare ciò, potremmo assegnare i primi numeri scolastici da 1 a 150, la seconda scuola da 151 a 330 (= 150 + 180), la terza scuola da 331 a 530 e così via all’ultima scuola (da 1011 a 1500)., Generiamo quindi un inizio casuale tra 1 e 500 (pari a 1500/3) e contiamo attraverso le popolazioni scolastiche per multipli di 500. Se il nostro inizio casuale fosse 137, selezioneremmo le scuole a cui sono stati assegnati i numeri 137, 637 e 1137, cioè la prima, la quarta e la sesta scuola.

L’approccio PPS può migliorare l’accuratezza per una data dimensione del campione concentrando il campione su elementi di grandi dimensioni che hanno il maggiore impatto sulle stime della popolazione., Il campionamento PPS è comunemente usato per le indagini sulle aziende, in cui le dimensioni degli elementi variano notevolmente e spesso sono disponibili informazioni ausiliarie-ad esempio, un’indagine che tenta di misurare il numero di notti trascorse in hotel potrebbe utilizzare il numero di camere di ciascun hotel come variabile ausiliaria. In alcuni casi, una misurazione precedente della variabile di interesse può essere utilizzata come variabile ausiliaria quando si tenta di produrre stime più attuali.,

Cluster samplingEdit

Una rappresentazione visiva di selezionare un campione casuale utilizzando il campionamento a grappolo (cluster tecnica

articolo Principale: campionamento a grappolo (Cluster

a Volte è più costo-efficace per selezionare gli intervistati in gruppi (cluster). Il campionamento è spesso raggruppato per geografia o per periodi di tempo. (Quasi tutti i campioni sono in un certo senso “raggruppati” nel tempo – anche se questo è raramente preso in considerazione nell’analisi.,) Ad esempio, se si esaminano le famiglie all’interno di una città, potremmo scegliere di selezionare 100 blocchi di città e quindi intervistare ogni famiglia all’interno dei blocchi selezionati.

Il clustering può ridurre i costi di viaggio e amministrativi. Nell’esempio sopra, un intervistatore può fare un singolo viaggio per visitare diverse famiglie in un blocco, piuttosto che dover guidare in un blocco diverso per ogni famiglia.

Significa anche che non è necessario un frame di campionamento che elenca tutti gli elementi nella popolazione target., Invece, i cluster possono essere scelti da un frame a livello di cluster, con un frame a livello di elemento creato solo per i cluster selezionati. Nell’esempio precedente, l’esempio richiede solo una mappa della città a livello di blocco per le selezioni iniziali e quindi una mappa a livello di famiglia dei 100 blocchi selezionati, piuttosto che una mappa a livello di famiglia dell’intera città.

Il campionamento cluster (noto anche come campionamento cluster) aumenta generalmente la variabilità delle stime del campione al di sopra di quella del semplice campionamento casuale, a seconda di come i cluster differiscono tra loro rispetto alla variazione all’interno del cluster., Per questo motivo, il campionamento cluster richiede un campione più grande di SRS per ottenere lo stesso livello di precisione, ma i risparmi sui costi derivanti dal clustering potrebbero comunque rendere questa opzione più economica.

Il campionamento cluster è comunemente implementato come campionamento multistadio. Questa è una forma complessa di campionamento cluster in cui due o più livelli di unità sono incorporati uno nell’altro. La prima fase consiste nella costruzione dei cluster che verranno utilizzati per campionare., Nella seconda fase, un campione di unità primarie viene selezionato casualmente da ciascun cluster (anziché utilizzare tutte le unità contenute in tutti i cluster selezionati). Nelle fasi successive, in ciascuno di questi cluster selezionati, vengono selezionati ulteriori campioni di unità e così via. Tutte le unità ultimate (individui, ad esempio) selezionate nell’ultima fase di questa procedura vengono quindi esaminate. Questa tecnica, quindi, è essenzialmente il processo di prelievo di sottocampioni casuali di campioni casuali precedenti.,

Il campionamento multistadio può ridurre sostanzialmente i costi di campionamento, laddove sarebbe necessario costruire l’elenco completo della popolazione (prima di poter applicare altri metodi di campionamento). Eliminando il lavoro necessario per descrivere i cluster non selezionati, il campionamento multistadio può ridurre gli ingenti costi associati al campionamento cluster tradizionale. Tuttavia, ogni campione potrebbe non essere un rappresentante completo dell’intera popolazione.,

Campionamento delle quote

Articolo principale: Campionamento delle quote

Nel campionamento delle quote, la popolazione viene prima segmentata in sottogruppi che si escludono a vicenda, proprio come nel campionamento stratificato. Quindi il giudizio viene utilizzato per selezionare i soggetti o le unità di ciascun segmento in base a una proporzione specificata. Ad esempio, a un intervistatore può essere detto di campionare 200 femmine e 300 maschi tra i 45 ei 60 anni.

È questo secondo passo che rende la tecnica un campionamento non probabilistico. Nel campionamento in quota la selezione del campione non è casuale., Ad esempio, gli intervistatori potrebbero essere tentati di intervistare coloro che sembrano più utili. Il problema è che questi campioni possono essere prevenuti perché non tutti hanno la possibilità di selezione. Questo elemento casuale è la sua più grande debolezza e la quota rispetto alla probabilità è stata oggetto di controversie per diversi anni.

Minimax samplingEdit

In set di dati squilibrati, dove il rapporto di campionamento non segue le statistiche di popolazione, si può ricampionare il set di dati in modo conservativo chiamato campionamento minimax., Il campionamento minimax ha la sua origine nel rapporto minimax di Anderson il cui valore è dimostrato essere 0.5: in una classificazione binaria, le dimensioni del campione di classe dovrebbero essere scelte allo stesso modo. Questo rapporto può essere dimostrato come rapporto minimax solo sotto l’ipotesi del classificatore LDA con distribuzioni gaussiane. La nozione di campionamento minimax è stata recentemente sviluppata per una classe generale di regole di classificazione, chiamata class-wise smart classifiers., In questo caso, il rapporto di campionamento delle classi viene selezionato in modo che l’errore del classificatore peggiore su tutte le possibili statistiche di popolazione per le probabilità precedenti della classe sia il migliore.

Campionamento accidentaledit

Il campionamento accidentale (a volte noto come grab, convenience o opportunity sampling) è un tipo di campionamento non probabile che coinvolge il campione prelevato da quella parte della popolazione che è vicina alla mano. Cioè, una popolazione è selezionata perché è prontamente disponibile e conveniente., Può essere attraverso incontrare la persona o includere una persona nel campione quando uno li incontra o scelto trovandoli attraverso mezzi tecnologici come Internet o tramite telefono. Il ricercatore che utilizza un tale campione non può fare scientificamente generalizzazioni sulla popolazione totale da questo campione perché non sarebbe abbastanza rappresentativo., Per esempio, se l’intervistatore dovevano condurre un sondaggio presso un centro commerciale di prima mattina in un dato giorno, le persone che lui/lei potrebbe intervista sarebbe limitata a quelle date lì in quel dato momento, che potrebbe non rappresentare il punto di vista degli altri membri della società in tale area, se l’indagine sono state condotte in diversi momenti della giornata e più volte a settimana. Questo tipo di campionamento è molto utile per i test pilota., Diverse considerazioni importanti per i ricercatori che utilizzano campioni di convenienza includono:

Esistono controlli all’interno del progetto di ricerca o dell’esperimento che possono servire a ridurre l’impatto di un campione di convenienza non casuale, garantendo così che i risultati siano più rappresentativi della popolazione?
Ci sono buone ragioni per credere che un particolare campione di convenienza avrebbe o dovrebbe rispondere o comportarsi in modo diverso rispetto a un campione casuale della stessa popolazione?
La domanda che viene posta dalla ricerca può essere adeguatamente risolta utilizzando un campione di convenienza?,

Nella ricerca di scienze sociali, il campionamento a palle di neve è una tecnica simile, in cui i soggetti di studio esistenti vengono utilizzati per reclutare più soggetti nel campione. Alcune varianti del campionamento a palle di neve, come il campionamento guidato dagli intervistati, consentono il calcolo delle probabilità di selezione e sono metodi di campionamento probabilistico in determinate condizioni.

Campionamento volontariomodifica

Ulteriori informazioni: Self-selection bias

Il metodo di campionamento volontario è un tipo di campionamento non probabilistico. I volontari scelgono di completare un sondaggio.,

I volontari possono essere invitati attraverso pubblicità nei social media. La popolazione target per gli annunci pubblicitari può essere selezionata in base a caratteristiche come posizione, età, sesso, reddito, occupazione, istruzione o interessi utilizzando strumenti forniti dal mezzo sociale. L’annuncio può includere un messaggio sulla ricerca e link a un sondaggio. Dopo aver seguito il link e completato il sondaggio il volontario invia i dati da includere nella popolazione campione. Questo metodo può raggiungere una popolazione globale ma è limitato dal budget della campagna., I volontari al di fuori della popolazione invitata possono anche essere inclusi nel campione.

È difficile fare generalizzazioni da questo esempio perché potrebbe non rappresentare la popolazione totale. Spesso i volontari hanno un forte interesse per l’argomento principale del sondaggio.

Campionamento di intercettazionedit

Il campionamento di intercettazione di linea è un metodo di campionamento di elementi in una regione in cui un elemento viene campionato se un segmento di linea scelto, chiamato “transetto”, interseca l’elemento.,

Panel samplingEdit

Panel sampling è il metodo per selezionare prima un gruppo di partecipanti attraverso un metodo di campionamento casuale e quindi chiedere a quel gruppo (potenzialmente le stesse) informazioni più volte per un periodo di tempo. Pertanto, ogni partecipante viene intervistato in due o più punti temporali; ogni periodo di raccolta dei dati è chiamato “onda”. Il metodo è stato sviluppato dal sociologo Paul Lazarsfeld nel 1938 come mezzo per studiare campagne politiche., Questo metodo di campionamento longitudinale consente di stimare i cambiamenti nella popolazione, ad esempio per quanto riguarda le malattie croniche allo stress lavorativo alle spese alimentari settimanali. Il campionamento del pannello può anche essere utilizzato per informare i ricercatori sui cambiamenti di salute all’interno della persona dovuti all’età o per aiutare a spiegare i cambiamenti nelle variabili dipendenti continue come l’interazione sponsale. Sono stati proposti diversi metodi di analisi dei dati del pannello, tra cui MANOVA, curve di crescita e modellazione di equazioni strutturali con effetti ritardati.,

Snowball samplingEdit

Snowball sampling consiste nel trovare un piccolo gruppo di rispondenti iniziali e utilizzarli per reclutare più rispondenti. È particolarmente utile nei casi in cui la popolazione è nascosta o difficile da enumerare.

Campionamento teoricomodifica

Questa sezione necessita di espansione. Puoi aiutare aggiungendo ad esso. (Luglio 2015)

Il campionamento teorico si verifica quando i campioni vengono selezionati sulla base dei risultati dei dati raccolti finora con l’obiettivo di sviluppare una comprensione più profonda dell’area o sviluppare teorie., Potrebbero essere selezionati casi estremi o molto specifici al fine di massimizzare la probabilità che un fenomeno sia effettivamente osservabile.