dans n’importe lequel des types de cadres identifiés ci-dessus, diverses méthodes d’échantillonnage peuvent être utilisées, individuellement ou en combinaison.,f l’image
l’échantillonnage aléatoire Simple Edition
Une représentation visuelle de la sélection d’un échantillon aléatoire simple
Dans un échantillon aléatoire simple (SRS) d’une taille donnée, tous les sous-ensembles d’un cadre d’échantillonnage ont une probabilité égale d’être sélectionné., Chaque élément de la trame a donc une probabilité égale de sélection: la trame n’est ni subdivisée ni partitionnée. De plus, toute paire d’éléments donnée a les mêmes chances de sélection que toute autre paire de ce type (et de même pour les triples, etc.). Cela minimise les biais et simplifie l’analyse des résultats. En particulier, la variance entre les résultats individuels au sein de l’échantillon est un bon indicateur de la variance dans la population globale, ce qui rend relativement facile l’estimation de l’exactitude des résultats.,
l’échantillonnage aléatoire Simple peut être vulnérable aux erreurs d’échantillonnage, car le caractère aléatoire de la sélection peut donner un échantillon qui ne reflète pas la composition de la population. Par exemple, un simple échantillon aléatoire de dix personnes d’un pays donné produira en moyenne cinq hommes et cinq femmes, mais tout essai donné est susceptible de surreprésenter un sexe et de sous-représenter l’autre. Des techniques systématiques et stratifiées tentent de surmonter ce problème en « utilisant des informations sur la population » pour choisir un échantillon plus « représentatif ».,
En outre, l’échantillonnage aléatoire simple peut être fastidieux et fastidieux lors de l’échantillonnage à partir d’une grande population cible. Dans certains cas, les chercheurs s’intéressent à des questions de recherche spécifiques à des sous-groupes de la population. Par exemple, les chercheurs pourraient être intéressés à examiner si la capacité cognitive en tant que prédicteur du rendement au travail est également applicable à tous les groupes raciaux., L’échantillonnage aléatoire Simple ne peut pas répondre aux besoins des chercheurs dans cette situation, car il ne fournit pas de sous-échantillons de la population, et d’autres stratégies d’échantillonnage, telles que l’échantillonnage stratifié, peuvent être utilisées à la place.,
échantillonnage Systèmemodifier
une représentation visuelle de la sélection d’un échantillon aléatoire à l’aide de la technique d’échantillonnage systématique
l’échantillonnage systématique (également appelé échantillonnage par intervalles) repose sur l’organisation de la population éléments à intervalles réguliers à travers cette liste ordonnée. L’échantillonnage systématique implique un départ aléatoire, puis procède à la sélection de chaque kème élément à partir de ce moment., Dans ce cas, k=(Taille de la population/taille de l’échantillon). Il est important que le point de départ ne soit pas automatiquement le premier de la liste, mais soit choisi au hasard entre le premier et le kème élément de la liste. Un exemple simple serait de sélectionner chaque 10ème nom dans l’annuaire téléphonique (un échantillon « tous les 10ème », également appelé « échantillonnage avec un saut de 10 »).
tant Que le point de départ est aléatoire, l’échantillonnage systématique est un type d’échantillonnage de probabilité., Il est facile à mettre en œuvre et la stratification induite peut le rendre efficace, si la variable par laquelle la liste est ordonnée est corrélée à la variable d’intérêt. Un échantillonnage « tous les 10 » est particulièrement utile pour un échantillonnage efficace à partir de bases de données.
par exemple, supposons que nous souhaitions échantillonner les gens d’une longue rue qui commence dans un quartier pauvre (maison n ° 1) et se termine dans un quartier cher (maison n ° 1000)., Une simple sélection aléatoire d’adresses de cette rue pourrait facilement se retrouver avec trop de haut de gamme et trop peu de bas de gamme (ou vice versa), conduisant à un échantillon non représentatif. En sélectionnant (par exemple) chaque numéro de la 10e rue le long de la rue, l’échantillon est réparti uniformément sur toute la longueur de la rue, représentant tous ces quartiers. (Notez que si nous commençons toujours à la maison # 1 et finissons à #991, l’échantillon est légèrement biaisé vers l’extrémité basse; en sélectionnant aléatoirement le début entre #1 et #10, ce biais est éliminé.,
cependant, l’échantillonnage systématique est particulièrement vulnérable aux périodicités de la liste. Si la périodicité est présente et que la période est un multiple ou un facteur de l’intervalle utilisé, l’échantillon est particulièrement susceptible d’être non représentatif de la population globale, ce qui rend le schéma moins précis qu’un simple échantillonnage aléatoire.
par exemple, considérons une rue où les maisons impaires sont toutes du côté nord (cher) de la route, et les maisons paires sont toutes du côté sud (bon marché)., Selon le schéma d’échantillonnage donné ci-dessus, il est impossible d’obtenir un échantillon représentatif; soit les maisons échantillonnées seront toutes du côté impair, cher, ou elles seront toutes du côté pair, bon marché, à moins que le chercheur ait une connaissance préalable de ce biais et l’évite en utilisant un saut qui assure le saut entre les deux côtés (tout saut Impair).
un autre inconvénient de l’échantillonnage systématique est que même dans les scénarios où il est plus précis que SRS, ses propriétés théoriques rendent difficile la quantification de cette précision., (Dans les deux exemples d’échantillonnage systématique qui sont donnés ci – dessus, une grande partie de l’erreur d’échantillonnage potentielle est due à la variation entre les maisons voisines-mais comme cette méthode ne sélectionne jamais deux maisons voisines, l’échantillon ne nous donnera aucune information sur cette variation.)
l’échantillonnage systématique peut également être adapté à une approche non-EPS; pour un exemple, voir la discussion des échantillons PPS ci-dessous.,
échantillonnage Stratifiémedit
représentation visuelle de la sélection d’un échantillon aléatoire à l’aide de la technique d’échantillonnage stratifié
lorsque la population englobe un certain nombre de catégories distinctes, la trame peut être organisée par ces catégories dans des « strates » distinctes. »Chaque strate est ensuite échantillonnée en tant que sous-population indépendante, à partir de laquelle des éléments individuels peuvent être sélectionnés au hasard., Le rapport entre la taille de cette sélection aléatoire (ou échantillon) et la taille de la population est appelé fraction d’échantillonnage. L’échantillonnage stratifié présente plusieurs avantages potentiels.
premièrement, la division de la population en strates distinctes et indépendantes peut permettre aux chercheurs de tirer des inférences sur des sous-groupes spécifiques qui peuvent être perdus dans un échantillon aléatoire plus généralisé.,
Deuxièmement, l’utilisation d’une méthode d’échantillonnage stratifié peut conduire à des estimations statistiques plus efficaces (à condition que les strates soient sélectionnées en fonction de leur pertinence par rapport au critère en question, plutôt que de la disponibilité des échantillons). Même si une méthode d’échantillonnage stratifié ne conduit pas à une efficacité statistique accrue, une telle tactique ne se traduira pas par une efficacité moindre qu’un simple échantillonnage aléatoire, à condition que chaque strate soit proportionnelle à la taille du groupe dans la population.,
troisièmement, il arrive parfois que les données soient plus facilement disponibles pour les strates individuelles préexistantes au sein d’une population que pour la population globale; dans de tels cas, l’utilisation d’une méthode d’échantillonnage stratifié peut être plus pratique que l’agrégation des données entre groupes (bien que cela puisse être en contradiction avec l’importance,
enfin, étant donné que chaque strate est traitée comme une population indépendante, différentes approches d’échantillonnage peuvent être appliquées à différentes strates, ce qui pourrait permettre aux chercheurs d’utiliser l’approche la mieux adaptée (ou la plus rentable) pour chaque sous-groupe identifié au sein de la population.
l’utilisation de l’échantillonnage stratifié présente toutefois quelques inconvénients potentiels. Premièrement, l’identification des strates et la mise en œuvre d’une telle approche peuvent accroître le coût et la complexité de la sélection de l’échantillon, ainsi que la complexité accrue des estimations de la population., Deuxièmement, lorsque l’on examine plusieurs critères, les variables de stratification peuvent être liées à certains, mais pas à d’autres, ce qui complique davantage la conception et réduit potentiellement l’utilité des strates. Enfin, dans certains cas (par exemple, les plans comportant un grand nombre de strates ou ceux dont la taille minimale d’échantillon est spécifiée par groupe), l’échantillonnage stratifié peut nécessiter un échantillon plus grand que les autres méthodes (bien que dans la plupart des cas, la taille d’échantillon requise ne soit pas supérieure à celle requise pour un échantillonnage aléatoire simple).,
Une méthode d’échantillonnage stratifié est plus efficace lorsque trois conditions sont remplies
- La variabilité à l’intérieur des strates est minimisée
- La variabilité entre les strates est maximisée
- Les variables sur lesquelles la population est stratifiée sont fortement corrélées avec la variable dépendante souhaitée.
avantages par rapport aux autres méthodes d’échantillonnage
- Se concentre sur les sous-populations importantes et ignore celles qui ne sont pas pertinentes.
- Permet l’utilisation de différentes techniques d’échantillonnage pour les différentes sous-populations.
- Améliore la précision/efficacité de l’estimation.,
- permet un meilleur équilibrage de la puissance statistique des tests des différences entre les strates en échantillonnant des nombres égaux à partir de strates dont la taille varie considérablement.
inconvénients
- nécessite la sélection de variables de stratification pertinentes, ce qui peut être difficile.
- N’est pas utile lorsqu’il n’y a pas de sous-groupes homogènes.
- Peut être coûteux à mettre en œuvre.
Poststratification
La Stratification est parfois introduite après la phase d’échantillonnage dans un processus appelé « poststratification »., Cette approche est généralement mise en œuvre en raison d’un manque de connaissance préalable d’une variable de stratification appropriée ou lorsque l’expérimentateur n’a pas les informations nécessaires pour créer une variable de stratification pendant la phase d’échantillonnage. Bien que la méthode soit sensible aux pièges des approches post hoc, elle peut fournir plusieurs avantages dans la bonne situation. La mise en œuvre suit généralement un simple échantillon aléatoire. En plus de permettre la stratification sur une variable auxiliaire, la poststratification peut être utilisée pour mettre en œuvre la pondération, ce qui peut améliorer la précision des estimations d’un échantillon.,
suréchantillonnage
l’échantillonnage par choix est l’une des stratégies d’échantillonnage stratifié. Dans l’échantillonnage basé sur le choix, les données sont stratifiées sur la cible et un échantillon est prélevé dans chaque strate afin que la classe cible rare soit plus représentée dans l’échantillon. Le modèle est construit sur cet échantillon biaisé. Les effets des variables d’entrée sur la cible sont souvent estimés avec plus de précision avec l’échantillon basé sur le choix, même lorsqu’une taille d’échantillon globale plus petite est prise, par rapport à un échantillon aléatoire. Les résultats doivent généralement être ajustés pour corriger le suréchantillonnage.,
échantillonnage Probabilitémodifier
Dans certains cas, le concepteur de l’échantillon a accès à une « variable auxiliaire » ou à une « mesure de taille », que l’on croit corrélée à la variable d’intérêt, pour chaque élément de la population. Ces données peuvent être utilisées pour améliorer la précision du plan d’échantillonnage. Une option consiste à utiliser la variable auxiliaire comme base de stratification, comme discuté ci-dessus.
Une autre option est l’échantillonnage de probabilité proportionnelle à la taille (« PPS »), dans lequel la probabilité de sélection pour chaque élément est définie pour être proportionnelle à sa mesure de taille, jusqu’à un maximum de 1., Dans un plan PPS simple, ces probabilités de sélection peuvent ensuite être utilisées comme base pour l’échantillonnage de Poisson. Cependant, cela présente l’inconvénient de la taille variable de l’échantillon, et différentes portions de la population peuvent encore être surreprésentées ou sous – représentées en raison de la variation aléatoire des sélections.
la théorie de l’échantillonnage systématique peut être utilisée pour créer une probabilité proportionnelle à la taille de l’échantillon. Pour ce faire, chaque comptage dans la variable de taille est traité comme une seule unité d’échantillonnage. Les échantillons sont ensuite identifiés en sélectionnant à intervalles réguliers parmi ces dénombrements dans la variable de taille., Cette méthode est parfois appelée PPS-échantillonnage séquentiel ou unitaire monétaire dans le cas d’audits ou d’échantillonnage médico-légal.
exemple: supposons que nous ayons six écoles avec des populations de 150, 180, 200, 220, 260, et 490 étudiants respectivement (total 1500 étudiants), et nous voulons utiliser la population étudiante comme base pour un échantillon PPS de taille trois. Pour ce faire, nous pourrions attribuer les numéros de première école 1 à 150, la deuxième école 151 à 330 (= 150 + 180), la troisième école 331 à 530, et ainsi de suite à la dernière école (1011 à 1500)., Nous générons ensuite un départ aléatoire entre 1 et 500 (égal à 1500/3) et comptons à travers les populations scolaires par multiples de 500. Si notre départ aléatoire était 137, nous sélectionnerions les écoles qui ont reçu les numéros 137, 637 et 1137, c’est-à-dire les première, quatrième et sixième écoles.
l’approche PPS peut améliorer la précision pour une taille d’échantillon donnée en concentrant l’échantillon sur les grands éléments qui ont le plus d’impact sur les estimations de la population., L’échantillonnage PPS est couramment utilisé pour les enquêtes auprès des entreprises, où la taille des éléments varie considérablement et où des informations auxiliaires sont souvent disponibles – par exemple, une enquête visant à mesurer le nombre de nuitées passées dans les hôtels peut utiliser le nombre de chambres de chaque hôtel comme variable auxiliaire. Dans certains cas, une mesure plus ancienne de la variable d’intérêt peut être utilisée comme variable auxiliaire pour tenter de produire des estimations plus actuelles.,
Cluster samplingEdit
une représentation visuelle de la sélection d’un échantillon aléatoire à l’aide de la technique d’échantillonnage en grappes
Article principal: échantillonnage en grappes
parfois, il est plus rentable de sélectionner les répondants en groupes (« clusters »). L’échantillonnage est souvent groupé par géographie ou par périodes. (Presque tous les échantillons sont en quelque sorte « groupés » dans le temps – bien que cela soit rarement pris en compte dans l’analyse.,) Par exemple, si nous enquêtons sur des ménages dans une ville, nous pouvons choisir de sélectionner 100 blocs de ville, puis interroger chaque ménage dans les blocs sélectionnés.
Le regroupement peut réduire les frais de déplacement et d’administration. Dans l’exemple ci-dessus, un enquêteur peut faire un voyage unique à visiter plusieurs ménages dans un bloc, plutôt que d’avoir à conduire à un bloc différent pour chaque ménage.
Cela signifie également que l’on n’a pas besoin d’un cadre d’échantillonnage liste tous les éléments de la population cible., Au lieu de cela, les clusters peuvent être choisis à partir d’une trame au niveau du cluster, avec une trame au niveau de l’élément créée uniquement pour les clusters sélectionnés. Dans l’exemple ci-dessus, l’échantillon nécessite uniquement une carte de ville au niveau des blocs pour les sélections initiales, puis une carte au niveau des ménages des 100 blocs sélectionnés, plutôt qu’une carte au niveau des ménages de la ville entière.
l’échantillonnage en grappes (aussi appelé échantillonnage en grappes) augmente généralement la variabilité des estimations de l’échantillon au-dessus de celle de l’échantillonnage aléatoire simple, selon la façon dont les grappes diffèrent les unes des autres par rapport à la variation intra-grappe., Pour cette raison, l’échantillonnage en grappes nécessite un échantillon plus grand que le SRS pour atteindre le même niveau de précision – mais les économies de coûts liées au regroupement pourraient toujours en faire une option moins coûteuse.
l’échantillonnage en grappes est généralement mis en œuvre en tant qu’échantillonnage à plusieurs étages. Il s’agit d’une forme complexe d’échantillonnage en grappes dans laquelle deux niveaux ou plus d’unités sont incorporés l’un dans l’autre. La première étape consiste à construire les grappes qui seront utilisées pour échantillonner à partir de., Dans la deuxième étape, un échantillon d’unités primaires est sélectionné au hasard dans chaque groupe (plutôt que d’utiliser toutes les unités contenues dans tous les groupes sélectionnés). Dans les étapes suivantes, dans chacun de ces groupes sélectionnés, des échantillons supplémentaires d’unités sont sélectionnés, et ainsi de suite. Toutes les unités ultimes (individus, par exemple) sélectionnées à la dernière étape de cette procédure sont ensuite interrogées. Cette technique consiste donc essentiellement à prélever des sous-échantillons aléatoires d’échantillons aléatoires précédents.,
l’échantillonnage en plusieurs étapes peut réduire considérablement les coûts d’échantillonnage, lorsque la liste complète de la population devrait être établie (avant que d’autres méthodes d’échantillonnage puissent être appliquées). En éliminant le travail de description des grappes qui ne sont pas sélectionnées, l’échantillonnage en plusieurs étapes peut réduire les coûts importants associés à l’échantillonnage en grappes traditionnel. Cependant, chaque échantillon peut ne pas être pleinement représentatif de l’ensemble de la population.,
échantillonnage Contingentemodifier
dans l’échantillonnage contingentaire, la population est d’abord segmentée en sous-groupes mutuellement exclusifs, tout comme dans l’échantillonnage stratifié. Ensuite, le jugement est utilisé pour sélectionner les sujets ou les unités de chaque segment en fonction d’une proportion spécifiée. Par exemple, on peut demander à un intervieweur d’échantillonner 200 femmes et 300 hommes âgés de 45 à 60 ans.
c’est cette deuxième étape qui fait de la technique un échantillonnage non probabiliste. Dans l’échantillonnage par quotas, la sélection de l’échantillon n’est pas aléatoire., Par exemple, les intervieweurs pourraient être tentés d’interviewer ceux qui semblent les plus utiles. Le problème est que ces échantillons peuvent être biaisés parce que tout le monde n’a pas de chance de sélection. Cet élément aléatoire est sa plus grande faiblesse et le quota par rapport à la probabilité fait l’objet de controverses depuis plusieurs années.
Minimax samplingEdit
dans les ensembles de données déséquilibrés, où le taux d’échantillonnage ne suit pas les statistiques de population, on peut rééchantillonner l’ensemble de données d’une manière conservatrice appelée échantillonnage minimax., L’échantillonnage minimax trouve son origine dans le rapport Minimax D’Anderson dont la valeur s’avère être de 0,5: dans une classification binaire, les tailles des échantillons de classe doivent être choisies de manière égale. Ce rapport ne peut être prouvé comme rapport minimax que sous l’hypothèse du Classificateur LDA avec des distributions gaussiennes. La notion d’échantillonnage minimax a récemment été développée pour une classe générale de règles de classification, appelées classificateurs intelligents par classe., Dans ce cas, le taux d’échantillonnage des classes est choisi de manière à ce que l’erreur de classificateur la plus défavorable sur toutes les statistiques de population possibles pour les probabilités antérieures de classe soit la meilleure.
échantillonnage Accidentelmodifier
l’échantillonnage accidentel (parfois connu sous le nom d’échantillonnage de saisie, de commodité ou d’opportunité) est un type d’échantillonnage non probabiliste qui implique que l’échantillon soit prélevé dans la partie de la population qui est proche. C’est, d’une population est sélectionnée, car il est facilement disponible et pratique., Cela peut être en rencontrant la personne ou en incluant une personne dans l’échantillon lorsque l’on la rencontre ou choisi en la trouvant par des moyens technologiques tels qu’internet ou par téléphone. Le chercheur utilisant un tel échantillon ne peut pas faire scientifiquement des généralisations sur la population totale de cet échantillon car il ne serait pas assez représentatif., Par exemple, si l’intervieweur devait mener une telle enquête dans un centre commercial tôt le matin un jour donné, les personnes qu’il/elle pourrait interviewer seraient limitées à celles qui y sont données à ce moment donné, ce qui ne représenterait pas les points de vue des autres membres de la société dans un tel domaine, si l’enquête devait être menée à différents moments de la journée et plusieurs fois par semaine. Ce type d’échantillonnage est très utile pour les essais pilotes., Voici plusieurs considérations importantes pour les chercheurs qui utilisent des échantillons de commodité:
- y a-t-il des contrôles dans le plan de recherche ou l’expérience qui peuvent servir à réduire l’impact d’un échantillon de commodité non aléatoire, assurant ainsi que les résultats seront plus représentatifs de la population?
- y a-t-il de bonnes raisons de croire qu’un échantillon de commodité particulier réagirait ou se comporterait différemment d’un échantillon aléatoire de la même population?
- la question posée par la recherche peut-elle répondre de manière adéquate à l’aide d’un échantillon de commodité?,
dans la recherche en sciences sociales, l’échantillonnage en boule de neige est une technique similaire, où les sujets d’étude existants sont utilisés pour recruter plus de sujets dans l’échantillon. Certaines variantes de l’échantillonnage en boule de neige, comme l’échantillonnage piloté par les répondants, permettent de calculer les probabilités de sélection et sont des méthodes d’échantillonnage probabiliste dans certaines conditions.
échantillonnage Volontairemodifier
La méthode d’échantillonnage volontaire est un type d’échantillonnage non probabiliste. Les bénévoles choisissent de répondre à un sondage.,
Les bénévoles peuvent être invités par le biais de publicités dans les médias sociaux. La population cible pour les publicités peut être sélectionnée en fonction de caractéristiques telles que l’emplacement, l’âge, le sexe, le revenu, la profession, l’éducation ou les intérêts à l’aide d’outils fournis par le média social. La publicité peut inclure un message sur la recherche et un lien vers un sondage. Après avoir suivi le lien et rempli l’enquête, le volontaire soumet les données à inclure dans la population de l’échantillon. Cette méthode peut atteindre une population mondiale mais est limitée par le budget de la campagne., Des bénévoles ne faisant pas partie de la population invitée peuvent également être inclus dans l’échantillon.
Il est difficile de faire des généralisations à partir de cet échantillon car il peut ne pas représenter la population totale. Souvent, les bénévoles ont un fort intérêt pour le sujet principal de l’enquête.
Line-intercept samplingEdit
Line-intercept sampling est une méthode d’échantillonnage d’éléments dans une région par laquelle un élément est échantillonné si un segment de ligne choisi, appelé « transect », coupe l’élément.,
Panel samplingEdit
L’échantillonnage par Panel est la méthode consistant à sélectionner d’abord un groupe de participants au moyen d’une méthode d’échantillonnage aléatoire, puis à demander à ce groupe des informations (potentiellement les mêmes) plusieurs fois sur une période de temps. Par conséquent, chaque participant est interviewé à deux moments ou plus; chaque période de collecte de données est appelée une « vague ». La méthode a été développée par le sociologue Paul Lazarsfeld en 1938 comme moyen d’étudier les campagnes politiques., Cette méthode d’échantillonnage longitudinal permet d’estimer les changements dans la population, par exemple en ce qui concerne les maladies chroniques, le stress au travail et les dépenses alimentaires hebdomadaires. L’échantillonnage par Panel peut également être utilisé pour informer les chercheurs sur les changements de la santé au sein de la personne en raison de l’âge ou pour aider à expliquer les changements dans les variables dépendantes continues telles que l’interaction avec le conjoint. Plusieurs méthodes ont été proposées pour analyser les données du panel, notamment la MANOVA, les courbes de croissance et la modélisation d’équations structurelles avec des effets décalés.,
échantillonnage boule de Snowmodifier
l’échantillonnage boule de neige consiste à trouver un petit groupe de répondants initiaux et à les utiliser pour recruter plus de répondants. Il est particulièrement utile dans les cas où la population est cachée ou difficile à dénombrer.
Samplingedit théorique
l’échantillonnage théorique se produit lorsque des échantillons sont sélectionnés sur la base des résultats des données collectées jusqu’à présent dans le but de développer une compréhension plus approfondie de la zone ou de développer des théories., Des cas extrêmes ou très spécifiques peuvent être sélectionnés afin de maximiser la probabilité qu’un phénomène soit réellement observable.