w ramach dowolnego z typów ramek określonych powyżej można stosować różne metody pobierania próbek, pojedynczo lub łącznie.,f ramka
prosta edycja losowego pobierania próbek
wizualna reprezentacja wyboru prostej próby losowej
w prostej próbie losowej (SRS) o danej wielkości, wszystkie podzbiory ramki próbkowania mają równe prawdopodobieństwo wyboru., Każdy element ramki ma zatem równe prawdopodobieństwo wyboru: Ramka nie jest dzielona ani dzielona. Co więcej, każda dana para elementów ma taką samą szansę na wybór jak każda inna taka para(i podobnie dla trójek, i tak dalej). Minimalizuje to uprzedzenia i upraszcza analizę wyników. W szczególności wariancja między poszczególnymi wynikami w próbce jest dobrym wskaźnikiem wariancji w ogólnej populacji, co sprawia, że stosunkowo łatwo oszacować dokładność wyników.,
proste losowe pobieranie próbek może być podatne na błąd pobierania próbek, ponieważ losowość wyboru może spowodować próbę, która nie odzwierciedla składu populacji. Na przykład, prosta próbka losowa dziesięciu osób z danego kraju wytworzy średnio pięciu mężczyzn i pięć kobiet, ale każda próba może być nadmiernie reprezentowana przez jedną płeć, a niedostatecznie reprezentowana przez drugą. Systematyczne i warstwowe techniki próbują przezwyciężyć ten problem poprzez „wykorzystanie informacji o populacji”, aby wybrać bardziej” reprezentatywną ” próbkę.,
ponadto proste losowe pobieranie próbek może być uciążliwe i żmudne podczas pobierania próbek z dużej populacji docelowej. W niektórych przypadkach badacze są zainteresowani pytaniami badawczymi specyficznymi dla podgrup populacji. Na przykład, naukowcy mogą być zainteresowani zbadaniem, czy zdolności poznawcze jako predyktor wydajności pracy jest równie zastosowanie w całej grupie rasowej., Proste losowe pobieranie próbek nie może pomieścić potrzeb naukowców w tej sytuacji, ponieważ nie zapewnia podpróbek populacji, a inne strategie pobierania próbek, takie jak próbkowanie warstwowe, mogą być stosowane zamiast.,
Systematic samplingEdit
Systematic sampling (znany również jako próbkowanie interwałowe) polega na ułożeniu badanej populacji zgodnie z pewnym schematem porządkowania, a następnie wybranie elementów w regularnych odstępach czasu przez tę uporządkowaną listę. Systematyczne pobieranie próbek obejmuje losowy początek, a następnie rozpoczyna się od wyboru każdego elementu kth od tego czasu., W tym przypadku k=(wielkość populacji/wielkość próby). Ważne jest, aby punkt początkowy nie był automatycznie pierwszym na liście, ale był losowo wybierany od pierwszego do elementu kth na liście. Prostym przykładem może być wybranie co dziesiątej nazwy z książki telefonicznej(próbka „co dziesiątą”, określana również jako „próbkowanie z pominięciem 10”).
tak długo, jak punkt początkowy jest randomizowany, systematyczne pobieranie próbek jest rodzajem próbkowania prawdopodobieństwa., Jest to łatwe do wdrożenia, a wywołana stratyfikacja może uczynić go efektywnym, jeśli zmienna, według której lista jest uporządkowana, jest skorelowana ze zmienną zainteresowania. Pobieranie próbek „co dziesiąte” jest szczególnie przydatne do efektywnego pobierania próbek z baz danych.
Załóżmy na przykład, że chcemy pobrać próbki ludzi z długiej ulicy, która zaczyna się w biednej okolicy (dom nr 1), a kończy w drogiej dzielnicy (dom nr 1000)., Prosty losowy wybór adresów z tej ulicy może łatwo skończyć się zbyt dużą liczbą z high end i zbyt małą z low end( lub odwrotnie), prowadząc do niereprezentatywnej próbki. Wybranie (np.) co 10 numer ulicy wzdłuż ulicy zapewnia, że próbka jest rozłożona równomiernie na długości ulicy, reprezentujących wszystkie te dzielnice. (Zauważ, że jeśli zawsze zaczynamy od domu #1 i kończymy na #991, próbka jest lekko stronnicza w kierunku niskiego końca; wybierając losowo początek między #1 A #10, Błąd ten jest eliminowany.,
jednak systematyczne pobieranie próbek jest szczególnie podatne na periodyczność na liście. Jeśli występuje okresowość, a okres jest wielokrotnością lub czynnikiem zastosowanego przedziału, próba jest szczególnie prawdopodobna, że nie będzie reprezentatywna dla całej populacji, co sprawi, że schemat będzie mniej dokładny niż proste losowe pobieranie próbek.
na przykład rozważ ulicę, gdzie domy o nieparzystych numerach są po północnej (drogiej) stronie drogi, a domy o parzystych numerach są po południowej (taniej) stronie., Zgodnie ze schematem pobierania próbek podanym powyżej, niemożliwe jest uzyskanie reprezentatywnej próbki; albo domy pobrane będą wszystkie z nieparzystej, kosztownej strony, lub wszystkie będą z parzystej, taniej strony, chyba że badacz ma wcześniejszą wiedzę na temat tego błędu i unika go za pomocą przeskoku, który zapewnia przeskakiwanie między dwiema stronami(wszelkie nieparzyste przeskoki).
kolejną wadą systematycznego pobierania próbek jest to, że nawet w scenariuszach, w których jest on dokładniejszy niż SRS, jego właściwości teoretyczne utrudniają oszacowanie tej dokładności., (W dwóch przykładach systematycznego pobierania próbek, które są podane powyżej, większość potencjalnego błędu pobierania próbek wynika z różnic między sąsiednimi domami – ale ponieważ ta metoda nigdy nie wybiera dwóch sąsiednich domów, próbka nie da nam żadnych informacji na temat tej zmiany.)
systematyczne pobieranie próbek można również dostosować do podejścia innego niż EPS; na przykład patrz omówienie próbek PPS poniżej.,
Samplingedit
wizualna reprezentacja wyboru próbki losowej przy użyciu techniki próbkowania warstwowego
gdy populacja obejmuje wiele odrębnych kategorii, ramka może być zorganizowana przez te kategorie w osobne „warstwy.”Każda warstwa jest następnie pobierana jako niezależna subpopulacja, z której poszczególne elementy mogą być losowo wybrane., Stosunek wielkości tego losowego wyboru (lub próbki) do wielkości populacji nazywa się frakcji próbkowania. Istnieje kilka potencjalnych korzyści dla warstwowego pobierania próbek.
Po pierwsze, dzielenie populacji na odrębne, niezależne warstwy może umożliwić badaczom wyciągnąć wnioski na temat konkretnych podgrup, które mogą zostać utracone w bardziej uogólnionej próbie losowej.,
Po Drugie, wykorzystanie metody pobierania próbek warstwowych może prowadzić do bardziej efektywnych szacunków statystycznych (pod warunkiem, że warstwy są wybierane na podstawie znaczenia dla danego kryterium, zamiast dostępności próbek). Nawet jeśli podejście do warstwowego pobierania próbek nie prowadzi do zwiększenia skuteczności statystycznej, taka taktyka nie spowoduje mniejszej wydajności niż zwykłe losowe pobieranie próbek, pod warunkiem, że każda warstwa jest proporcjonalna do wielkości grupy w populacji.,
Po Trzecie, czasami zdarza się, że dane są łatwiej dostępne dla poszczególnych, wcześniej istniejących warstw w populacji niż dla całej populacji; w takich przypadkach, przy użyciu podejścia warstwowego pobierania próbek może być wygodniejsze niż agregowanie danych w grupach (choć może to potencjalnie być w sprzeczności z wcześniej zauważone znaczenie wykorzystania kryterium odpowiednich warstw).,
wreszcie, ponieważ każda warstwa jest traktowana jako niezależna populacja, różne podejścia do pobierania próbek mogą być stosowane do różnych warstw, potencjalnie umożliwiając naukowcom stosowanie podejścia najlepiej dopasowanego (lub najbardziej opłacalne) dla każdej zidentyfikowanej podgrupy w populacji.
istnieją jednak pewne potencjalne wady korzystania z próbkowania warstwowego. Po pierwsze, identyfikacja warstw i wdrożenie takiego podejścia może zwiększyć koszt i złożoność wyboru próbki, jak również prowadzi do zwiększenia złożoności szacunków populacji., Po drugie, podczas badania wielu kryteriów, zmienne stratyfikujące mogą być związane z niektórymi, ale nie z innymi, co dodatkowo komplikuje projekt i potencjalnie Zmniejsza użyteczność warstw. Wreszcie, w niektórych przypadkach (takich jak projekty z dużą liczbą warstw lub te z określoną minimalną wielkością próby na Grupę), warstwowe pobieranie próbek może potencjalnie wymagać większej próby niż inne metody (chociaż w większości przypadków wymagany rozmiar próby nie byłby większy niż byłby wymagany dla prostego losowego pobierania próbek).,
podejście próbkowania warstwowego jest najbardziej skuteczne, gdy spełnione są trzy warunki
- zmienność w obrębie warstw są zminimalizowane
- zmienność między warstwami są zmaksymalizowane
- zmienne, na których populacja jest stratyfikowana są silnie skorelowane z pożądaną zmienną zależną.
przewaga nad innymi metodami pobierania próbek
- skupia się na ważnych subpopulacjach i ignoruje nieistotne.
- umożliwia stosowanie różnych technik próbkowania dla różnych subpopulacji.
- poprawia dokładność / efektywność estymacji.,
- pozwala na większe zrównoważenie mocy statystycznej badań różnic między warstwami poprzez pobranie równych liczb z warstw różniących się wielkością.
- wymaga doboru odpowiednich zmiennych stratyfikacyjnych, co może być trudne.
- nie jest użyteczne, gdy nie ma jednorodnych podgrup.
- może być kosztowne w implementacji.
Poststratyfikacja
stratyfikacja jest czasami wprowadzana po fazie pobierania próbek w procesie zwanym „poststratyfikacją”., Podejście to jest zazwyczaj realizowane ze względu na brak uprzedniej wiedzy o odpowiedniej zmiennej stratyfikacyjnej lub gdy eksperymentator nie ma niezbędnych informacji, aby utworzyć zmienną stratyfikacyjną podczas fazy pobierania próbek. Chociaż metoda jest podatna na pułapki podejścia post hoc, może przynieść kilka korzyści we właściwej sytuacji. Implementacja zwykle następuje po prostej próbie losowej. Oprócz pozwalając na stratyfikacji na zmiennej pomocniczej, poststratyfikacji mogą być wykorzystane do wdrożenia ważenia, które mogą poprawić precyzję próby w szacunki.,
Oversampling
selection-based sampling jest jedną ze stratyfikowanych strategii próbkowania. W doborze na podstawie próbkowania, dane są stratyfikowane na celu i próbka jest pobierana z każdej warstwy tak, że rzadka Klasa docelowa będzie bardziej reprezentowana w próbce. Model jest następnie zbudowany na tej próbce stronniczej. Wpływ zmiennych wejściowych na cel są często szacowane z większą precyzją z próbki opartej na wyborze, nawet gdy mniejszy Całkowity rozmiar próby jest pobrany, w porównaniu do próby losowej. Wyniki zazwyczaj muszą być dostosowane do oversamplingu.,
Probability-proportional-to-size samplingEdit
w niektórych przypadkach projektant próbki ma dostęp do „zmiennej pomocniczej” lub „miary wielkości”, uważanej za skorelowaną ze zmienną zainteresowania, dla każdego elementu w populacji. Dane te mogą być wykorzystane do poprawy dokładności w projektowaniu próbki. Jedną z opcji jest użycie zmiennej pomocniczej jako podstawy stratyfikacji, jak opisano powyżej.
inną opcją jest próbkowanie prawdopodobieństwa proporcjonalnego do rozmiaru („PPS”), w którym prawdopodobieństwo wyboru dla każdego elementu jest ustawione na proporcjonalne do jego miary wielkości, maksymalnie do 1., W prostej konstrukcji PPS te prawdopodobieństwa wyboru mogą być następnie wykorzystane jako podstawa do pobierania próbek Poissona. Jednak ma to wadę zmiennej wielkości próby, a różne części populacji mogą być nadal nad-lub niedostatecznie reprezentowane ze względu na zmienność szans w selekcji.
systematyczna teoria pobierania próbek może być używana do tworzenia prawdopodobieństwa proporcjonalnego do wielkości próbki. Odbywa się to poprzez traktowanie każdej liczby w ramach zmiennej wielkości jako pojedynczej jednostki próbkowania. Próbki są następnie identyfikowane przez wybieranie w parzystych odstępach między tymi liczbami w zmiennej wielkości., Metoda ta jest czasami nazywana PPS-sekwencyjnego lub monetarnego próbkowania jednostki w przypadku audytów lub próbkowania Kryminalistycznego.
przykład: załóżmy, że mamy sześć szkół z populacjami 150, 180, 200, 220, 260, i 490 studentów odpowiednio (razem 1500 studentów), i chcemy wykorzystać populację studentów jako podstawę dla próbki PPS wielkości trzech. Aby to zrobić, możemy przydzielić pierwszy numer szkoły 1 do 150, druga szkoła 151 do 330 (=150 + 180), trzecia Szkoła 331 do 530, i tak dalej do ostatniej szkoły (1011 do 1500)., Następnie generujemy losowy start między 1 A 500 (równy 1500/3) i liczymy przez populacje szkolne wielokrotności 500. Gdyby nasz losowy start wynosił 137, wybralibyśmy szkoły, którym przydzielono numery 137, 637 i 1137, tj. pierwszą, czwartą i szóstą szkołę.
podejście PPS może poprawić dokładność dla danej wielkości próby poprzez koncentrację próbki na dużych elementach, które mają największy wpływ na szacunki populacji., Próbkowanie PPS jest powszechnie stosowane w ankietach firm, w których rozmiar elementu jest bardzo różny, a informacje pomocnicze są często dostępne – na przykład ankieta próbująca zmierzyć liczbę noclegów spędzonych w hotelach może wykorzystywać liczbę pokoi w każdym hotelu jako zmienną pomocniczą. W niektórych przypadkach starszy pomiar zmiennej zainteresowania może być stosowany jako zmienna pomocnicza, gdy próbuje produkować bardziej aktualne szacunki.,
Cluster samplingEdit
czasami bardziej opłacalne jest wybieranie respondentów w grupach („klastry”). Pobieranie próbek jest często grupowane przez geografię lub okresy czasu. (Prawie wszystkie próbki są w pewnym sensie „grupowane” w czasie-chociaż rzadko jest to brane pod uwagę w analizie.,) Na przykład, jeśli badamy gospodarstwa domowe w mieście, możemy wybrać 100 bloków miejskich, a następnie przesłuchać każde gospodarstwo domowe w wybranych blokach.
grupowanie może zmniejszyć koszty podróży i administracyjne. W powyższym przykładzie ankieter może odbyć pojedynczą podróż, aby odwiedzić kilka gospodarstw domowych w jednym bloku, zamiast jechać do innego bloku dla każdego gospodarstwa domowego.
oznacza to również, że nie trzeba ramki próbkowania z listą wszystkich elementów w populacji docelowej., Zamiast tego klastry mogą być wybierane z klastra na poziomie klastra, z ramką na poziomie elementu utworzoną tylko dla wybranych klastrów. W powyższym przykładzie próbka wymaga tylko mapy miasta na poziomie bloku do początkowych selekcji, a następnie mapy 100 wybranych bloków na poziomie gospodarstwa domowego, a nie mapy całego miasta na poziomie gospodarstwa domowego.
próbkowanie klastra (znany również jako próbkowania klastrów) ogólnie zwiększa zmienność szacunki próbki powyżej prostego losowego pobierania próbek, w zależności od tego, jak klastry różnią się między sobą w porównaniu do zmienności wewnątrz klastra., Z tego powodu pobieranie próbek klastrowych wymaga większej próbki niż SRS, aby osiągnąć ten sam poziom dokładności – ale oszczędności wynikające z klastrowania mogą nadal uczynić to tańszą opcją.
próbkowanie klastrowe jest powszechnie realizowane jako próbkowanie wielostopniowe. Jest to złożona forma próbkowania klastra, w którym dwa lub więcej poziomów jednostek są osadzone jeden w drugim. Pierwszy etap polega na konstruowaniu klastrów, z których będą pobierane próbki., W drugim etapie losowo wybierana jest próbka podstawowych jednostek z każdego klastra (zamiast używać wszystkich jednostek zawartych we wszystkich wybranych klastrach). W kolejnych etapach, w każdym z tych wybranych klastrów, wybierane są dodatkowe próbki jednostek i tak dalej. Wszystkie jednostki ostateczne (na przykład osoby) wybrane na ostatnim etapie tej procedury są następnie badane. Technika ta jest więc zasadniczo procesem pobierania losowych podpróbek poprzednich losowych próbek.,
wielostopniowe pobieranie próbek może znacznie obniżyć koszty pobierania próbek, w przypadku gdy musiałby być skonstruowany kompletny wykaz populacji (przed zastosowaniem innych metod pobierania próbek). Eliminując pracę związaną z opisywaniem klastrów, które nie są wybrane, próbkowanie wielostopniowe może zmniejszyć duże koszty związane z tradycyjnym próbkowaniem klastrowym. Jednakże każda próba może nie być w pełni reprezentatywna dla całej populacji.,
Samplingedit
w próbkowaniu kwot populacja jest najpierw segmentowana na wzajemnie wykluczające się podgrupy, podobnie jak w próbkowaniu warstwowym. Następnie stosuje się ocenę do wyboru przedmiotów lub jednostek z każdego segmentu na podstawie określonej proporcji. Na przykład ankieter może zostać poproszony o próbkę 200 kobiet i 300 mężczyzn w wieku od 45 do 60 lat.
jest to drugi krok, który sprawia, że technika jednego z próbkowania bez prawdopodobieństwa. W przypadku pobierania próbek kontyngentowych wybór próbki nie jest losowy., Na przykład ankieterzy mogą pokusić się o wywiad z tymi, którzy wyglądają na najbardziej pomocnych. Problem polega na tym, że te próbki mogą być stronnicze, ponieważ nie każdy ma szansę wyboru. Ten element losowy jest jego największą słabością i kontyngent a prawdopodobieństwo jest przedmiotem kontrowersji od kilku lat.
Minimax samplingEdit
w niezrównoważonych zestawach danych, gdzie współczynnik próbkowania nie wynika ze statystyk populacji, można ponownie pobrać zbiór danych w konserwatywny sposób zwany Minimax sampling., Pobieranie próbek minimax ma swój początek w proporcji Andersona minimax, której wartość jest udowodniona jako 0,5: w klasyfikacji binarnej rozmiary próbek klasy powinny być dobierane jednakowo. Stosunek ten można udowodnić jako stosunek minimax tylko przy założeniu klasyfikatora LDA z rozkładami Gaussa. Pojęcie pobierania próbek minimax zostało niedawno opracowane dla ogólnej klasy zasad klasyfikacji, zwanych klasami inteligentnych klasyfikatorów., W tym przypadku współczynnik próbkowania klas jest wybrany tak, że najgorszy błąd klasyfikatora przypadku nad wszystkimi możliwymi statystykami populacji dla wcześniejszych prawdopodobieństw klasy, byłby najlepszy.
przypadkowe samplingEdit
przypadkowe pobieranie próbek (czasami znany jako grab, wygoda lub okazja pobierania próbek) jest rodzajem nieprobability pobierania próbek, które obejmuje próbkę pobieraną z tej części populacji, która jest blisko strony. Oznacza to, że populacja jest wybierana, ponieważ jest łatwo dostępna i wygodna., Może to być poprzez spotkanie osoby lub włączenie osoby do próbki, gdy spotyka się ją lub wybrany przez znalezienie ich za pomocą środków technologicznych, takich jak internet lub przez telefon. Badacz korzystający z takiej próbki nie może naukowo uogólnić ogólnej populacji z tej próbki, ponieważ nie byłaby wystarczająco reprezentatywna., Na przykład, gdyby ankieter miał przeprowadzić takie badanie w centrum handlowym wczesnym rankiem w danym dniu, osoby, które mógłby przeprowadzić wywiad, byłyby ograniczone do osób podanych tam w danym czasie, co nie reprezentowałoby poglądów innych członków społeczeństwa w takim obszarze, gdyby badanie miało być prowadzone w różnych porach dnia i kilka razy w tygodniu. Ten rodzaj pobierania próbek jest najbardziej przydatny do testów pilotażowych., Kilka ważnych rozważań dla naukowców korzystających z próbek wygody obejmują:
- czy istnieją kontrole w projekcie badawczym lub eksperymencie, które mogą służyć do zmniejszenia wpływu nieprzypadkowej próbki wygody, zapewniając w ten sposób wyniki będą bardziej reprezentatywne dla populacji?
- czy istnieje dobry powód, aby sądzić, że dana próbka wygody będzie lub powinna reagować lub zachowywać się inaczej niż losowa próbka z tej samej populacji?
- czy pytanie zadane przez badacza jest takie, na które można odpowiednio odpowiedzieć za pomocą wygodnej próbki?,
w badaniach z zakresu nauk społecznych pobieranie próbek śnieżek jest podobną techniką, w której istniejące przedmioty badań są wykorzystywane do rekrutacji większej liczby przedmiotów do próbki. Niektóre warianty pobierania próbek kuli śnieżnej, takie jak próbkowanie respondenta napędzane, umożliwiają obliczanie prawdopodobieństwa wyboru i są metody pobierania próbek prawdopodobieństwa pod pewnymi warunkami.
dobrowolny SamplingEdit
dobrowolna metoda pobierania próbek jest rodzajem próbkowania bez prawdopodobieństwa. Wolontariusze decydują się na wypełnienie ankiety.,
wolontariuszy można zapraszać poprzez reklamy w mediach społecznościowych. Populacja docelowa dla reklam może być wybrana według cech takich jak lokalizacja, wiek, płeć, dochód, zawód, wykształcenie lub zainteresowania za pomocą narzędzi dostarczanych przez medium społeczne. Ogłoszenie może zawierać komunikat o badaniu oraz link do ankiety. Po kliknięciu linku i wypełnieniu ankiety wolontariusz przekazuje dane, które mają zostać włączone do badanej populacji. Metoda ta może dotrzeć do globalnej populacji, ale jest ograniczona przez budżet kampanii., Do próby mogą być również włączeni wolontariusze spoza zaproszonej populacji.
trudno jest uogólnić na podstawie tej próby, ponieważ może nie reprezentować całkowitej populacji. Często wolontariusze mają duże zainteresowanie głównym tematem badania.
Line-intercept samplingEdit
Line-intercept sampling jest metodą próbkowania elementów w regionie, w którym element jest próbkowany, jeśli wybrany odcinek linii, zwany „transect”, przecina element.,
panel samplingEdit
panel sampling jest metodą pierwszego wyboru grupy uczestników za pomocą metody losowego pobierania próbek, a następnie prosząc tę grupę o (potencjalnie takie same) informacje kilka razy w okresie czasu. Dlatego każdy uczestnik jest przesłuchiwany w dwóch lub więcej punktach czasowych; każdy okres zbierania danych nazywany jest „falą”. Metoda została opracowana przez socjologa Paula Lazarsfelda w 1938 roku jako metoda badania kampanii politycznych., Ta podłużna metoda pobierania próbek pozwala oszacować zmiany w populacji, na przykład w odniesieniu do chorób przewlekłych do stresu w pracy do tygodniowych wydatków na żywność. Pobieranie próbek panelowych może być również wykorzystywane do informowania naukowców o zmianach stanu zdrowia w obrębie osoby ze względu na wiek lub pomóc wyjaśnić zmiany w ciągłych zmiennych zależnych, takich jak interakcje małżeńskie. Zaproponowano kilka metod analizy danych panelowych, w tym MANOVA, krzywe wzrostu i modelowanie równań strukturalnych z efektami opóźnionymi.,
Snowball samplingEdit
Snowball sampling polega na znalezieniu niewielkiej grupy początkowych respondentów i wykorzystaniu ich do rekrutacji większej liczby respondentów. Jest to szczególnie przydatne w przypadkach, gdy populacja jest ukryta lub trudna do wyliczenia.
Samplingedit
teoretyczne pobieranie próbek następuje, gdy próbki są wybierane na podstawie wyników danych zebranych do tej pory w celu rozwijania głębszego zrozumienia obszaru lub opracowania teorii., Skrajne lub bardzo specyficzne przypadki mogą być wybrane w celu zmaksymalizowania prawdopodobieństwa, że zjawisko będzie rzeczywiście możliwe do zaobserwowania.