클러스터 샘플링

Cluster sampling
클러스터 샘플링12명으로 구성된 그룹을 쌍으로 나누고 두 쌍을 무작위로 선택합니다.

통계학에서 클러스터 표본 추출통계 모집단에서 서로 동질적이지만 내부적으로 이질적인 집단이 명백할 때 사용되는 표본 추출 계획입니다.그것은 종종 마케팅 조사에 사용된다.이 표본 추출 계획에서는 총 모집단을 이러한 그룹(군집이라고 함)으로 나누고 그룹의 단순 랜덤 표본을 선택합니다.그런 다음 각 클러스터의 요소가 샘플링됩니다.각 샘플링된 클러스터의 모든 요소를 샘플링하는 경우 이를 "1단계" 클러스터 샘플링 계획이라고 합니다.이러한 각 그룹 내에서 요소의 단순한 랜덤 하위 표본을 선택한 경우 이를 "2단계" 클러스터 샘플링 계획이라고 합니다.클러스터 샘플링의 공통적인 동기는 원하는 정확도에 따라 인터뷰 횟수와 비용을 절감하는 것입니다.고정된 표본 크기의 경우 모집단의 변동 대부분이 그룹 간에 있지 않고 내부적으로 존재할 때 예상되는 랜덤 오차는 더 작습니다.

클러스터 요소

군집 내 모집단은 가능한 한 이질적이어야 하지만 군집 간에는 동질성이 있어야 합니다.각 군집은 총 모집단을 작게 나타낸 것이어야 합니다.클러스터는 서로 배타적이고 전체적으로 포괄적이어야 합니다.그런 다음 관련 클러스터에서 랜덤 샘플링 기법을 사용하여 스터디에 포함할 클러스터를 선택합니다.단일 단계 클러스터 샘플링에서는 선택한 각 클러스터의 모든 요소가 샘플링됩니다.2단계 클러스터 샘플링에서는 랜덤 샘플링 기술이 선택된 각 클러스터로부터의 요소에 적용된다.

클러스터 표본 추출과 계층화 표본 추출의 주요 차이점은 클러스터 표본 추출에서 클러스터가 표본 추출 단위로 처리되므로(적어도 첫 번째 단계에서) 클러스터 모집단에서 표본 추출이 수행된다는 것입니다.계층화 샘플링에서는 각 계층 내의 요소에 대해 샘플링이 이루어집니다.계층화 표본 추출에서는 각 계층에서 랜덤 표본이 추출되는 반면, 군집 표본 추출에서는 선택한 군집만 표본 추출됩니다.클러스터 샘플링의 공통적인 동기는 샘플링 효율을 높여 비용을 절감하는 것입니다.이는 정밀도를 높이기 위한 동기가 있는 계층화 표본 추출과 대조된다.

또한 클러스터에서 요소를 선택할 때 최소 두 단계를 수행하는 다단계 클러스터 샘플링도 있습니다.

클러스터 크기가 다른 경우

추정된 모수를 수정하지 않으면 군집의 크기가 거의 같은 경우 군집 표본 추출이 치우치지 않습니다.이 경우 파라미터는 선택한 모든 클러스터를 조합하여 계산됩니다.클러스터 크기가 다른 경우 다음과 같은 몇 가지 옵션이 있습니다.

한 가지 방법은 클러스터를 표본 추출한 다음 해당 클러스터의 모든 요소를 조사하는 것입니다.또 다른 방법은 선택한 각 클러스터 내에서 고정 비율의 단위(비용 고려 사항에 따라 5%, 50%, 또는 다른 수)를 샘플링하는 2단계 방법입니다.이러한 옵션에서 추출한 표본에 의존하면 치우치지 않은 추정기가 생성됩니다.그러나 샘플 크기는 더 이상 사전에 고정되지 않습니다.이는 (전력 분석과 비용 추정치가 종종 특정 표본 크기와 관련이 있기 때문에) 추정기의 표준 오차에 대한 보다 복잡한 공식과 연구 계획의 광학적 문제로 이어진다.

세 번째 가능한 해결책은 크기 표본 추출에 비례하는 확률을 사용하는 것입니다.이 표본 추출 계획에서 군집 선택 확률은 군집 크기에 비례하므로 큰 군집이 작은 군집보다 선택 확률이 높습니다.여기서 장점은 크기에 비례하는 확률로 군집을 선택하는 경우 표본 추출된 각 단위가 동일한 선택 확률을 가지도록 각 표본 추출된 군집에서 동일한 수의 인터뷰를 수행해야 한다는 것입니다.

클러스터 샘플링의 응용 프로그램

군집 표본 추출의 예로는 면적 표본 추출 또는 지리적 군집 표본 추출이 있습니다.각 클러스터는 지리적 영역입니다.지리적으로 분산된 인구는 조사 비용이 많이 들 수 있기 때문에, 지역 내 여러 응답자를 클러스터로 그룹화함으로써 단순 무작위 표본 추출보다 더 큰 경제성을 달성할 수 있다.일반적으로 추정기에서 동일한 정밀도를 달성하려면 총 표본 크기를 늘려야 하지만, 비용 절감을 통해 이러한 표본 크기 증가가 가능할 수 있습니다.

클러스터 샘플링은 전쟁, 기아 자연재해[1]같은 경우에 높은 사망률을 추정하기 위해 사용됩니다.

장점

  • 다른 샘플링 계획보다 저렴할 수 있습니다.예를 들어, 출장비, 관리비 등입니다.
  • 실현 가능성:이 표본 추출 계획에는 많은 모집단이 고려됩니다.이러한 그룹은 매우 크기 때문에 다른 샘플링 계획을 배치하는 데 비용이 많이 듭니다.
  • 이코노미:이 방법에서는 지출의 일반적인 두 가지 주요 관심사인 여행과 상장이 크게 감소한다.예를 들어, 도시의 모든 가구에 대한 연구 정보를 수집하는 것은 매우 비용이 많이 들지만 도시의 다양한 블록에 대한 정보를 수집하는 것은 더 경제적일 것이다.여기에서는, 여행이나 리스트 작성의 수고가 큰폭으로 삭감됩니다.
  • 변동성 감소: 드물게 군집 내 피험자 간에 음의 클래스 내 상관 관계가 있는 경우, 군집 표본 추출에 의해 생성된 추정치는 단순한 랜덤 표본에서 얻은 데이터보다 더 정확한 추정치를 산출합니다(, 설계 효과는 1보다 작습니다).이것은 일반적인 장소 시나리오가 아닙니다.

주요 용도: 모든 요소의 샘플링 프레임을 사용할 수 없는 경우 클러스터 샘플링에만 의존할 수 있습니다.

단점

  • 설계 효과로 표현될 수 있는 높은 표본 오차: 군집화 연구의 표본에서 만든 추정기의 분산과 동등하게 신뢰할 수 있는 랜덤 표본화되지 않은 연구에서 [2]피실험자의 표본에서 얻은 추정기의 분산 사이의 비율.군집 내 피실험자 간의 클래스상관 관계가 클수록 설계 효과가 나빠집니다(즉, 1부터 더 커집니다).추정기의 분산이 더 크게 증가할 것으로 예상됨을 나타냅니다).즉, 클러스터 간의 이질성과 클러스터 내의 피험자 간의 동질성이 높을수록 추정치는 정확도가 떨어집니다.이러한 경우 가능한 한 많은 군집을 추출하고 각 군집 내에서 소수의 피험자 표본(즉, 2단계 군집 표본 추출)으로 해결하는 것이 더 낫기 때문입니다.
  • 복잡성클러스터 표본 추출은 보다 정교하고 계획 방법과 분석 방법에 대해 더 많은 주의가 필요하다(예: 모수, 신뢰 구간 등의 추정 시 피험자의 체중을 고려).

클러스터 샘플링에 대한 자세한 정보

2단계 클러스터 샘플링

2단계 클러스터 샘플링은 1단계에서 클러스터 샘플을 선택한 후 모든 샘플링된 클러스터에서 요소의 샘플을 선택하여 얻을 수 있습니다.N개의 군집 집단을 고려합니다.첫 번째 단계에서는 통상 클러스터 샘플링 방법을 사용하여 n개의 클러스터를 선택한다.제2단계에서는 보통 간단한 랜덤 샘플링을 사용한다.[3]모든 클러스터에서 개별적으로 사용되며 서로 다른 클러스터에서 선택한 요소의 수가 반드시 동일할 필요는 없습니다.클러스터 수 N, 선택한 클러스터 수 N 및 선택한 클러스터의 요소 수는 측량 설계자가 미리 결정해야 합니다.2단계 클러스터 샘플링은 조사 비용을 최소화하는 동시에 관심 [4]추정치와 관련된 불확실성을 제어하는 것을 목표로 한다.이 방법은 보건 및 사회과학에서 사용될 수 있습니다.예를 들어, 연구자들은 사망률 [5]조사를 수행하기 위해 이라크 인구의 대표 표본을 생성하기 위해 2단계 클러스터 표본을 사용했다.이 방법의 샘플링은 다른 방법보다 빠르고 신뢰할 수 있기 때문에 현재 이 방법이 자주 사용되고 있습니다.

군집 수가 적은 경우 추론

군집 표본 추출 방법을 사용하면 군집 수가 적은 경우 상당한 치우침이 발생할 수 있습니다.예를 들어, 주 또는 시 수준에서 클러스터화해야 할 수 있습니다. 단위는 작고 개수가 고정될 수 있습니다.패널 데이터에 대한 미세 계량법에서는 짧은 패널을 사용하는 경우가 많은데, 이는 군집당 관측치가 적고 군집이 많은 것과 유사합니다.소규모 클러스터 문제는 부수적인 파라미터 [6]문제로 볼 수 있습니다.점 추정치는 합리적으로 정확하게 추정할 수 있지만, 클러스터당 관측치 수가 충분히 많으면 점근점을 활성화하기 위해 G δ(\ G 수가 필요하다.군집 수가 낮으면 추정된 공분산 행렬이 아래쪽으로 [7]치우칠 수 있습니다.

시리얼 상관관계가 있는 경우 또는 Moulton 컨텍스트에서와 같이 클래스 내 상관관계가 있는 경우 클러스터 수가 적으면 위험합니다.클러스터가 적은 경우 랜덤 충격이 발생할 때 관측치 간의 직렬 상관 관계 또는 물톤 설정의 [8]클래스 내 상관 관계를 과소평가하는 경향이 있습니다.여러 연구에서 직렬 상관의 결과를 강조하고 소규모 클러스터 [9][10]문제를 강조했습니다.

물톤 인자의 프레임워크에서, 작은 군집 문제에 대한 직관적인 설명은 물톤 인자의 공식에서 도출할 수 있다.단순하게 하기 위해 군집당 관측치 수가 n으로 고정된다고 가정합니다.아래 V () { 클러스터링을 위해 조정된 공분산 행렬, ( { V 클러스터링을 위해 조정되지 않은 공분산 행렬, β는 클래스 내 상관 관계를 나타냅니다.

왼쪽의 비율은 조정되지 않은 시나리오가 정밀도를 얼마나 과대평가하고 있는지를 나타냅니다.따라서 높은 숫자는 추정된 공분산 행렬의 강한 하향 치우침을 의미합니다.작은 클러스터 문제는 큰 n으로 해석할 수 있습니다.데이터가 고정되어 있고 클러스터 수가 적은 경우 클러스터 내의 데이터 수가 많을 수 있습니다.따라서 클러스터 수가 작을 경우 정확한 [8]커버리지를 갖지 못할 수 있습니다.

소규모 클러스터 문제에 대한 몇 가지 해결 방법이 제안되었습니다.바이어스 보정 클러스터-강력 분산 매트릭스를 사용하거나, T-분포를 조정하거나, 백분위수-t 또는 와일드 부트스트랩과 같은 점근적 개선으로 부트스트랩 방법을 사용하여 유한 샘플 [7]추론을 개선할 수 있다.Cameron, Gelbach 및 Miller(2008)는 다양한 방법에 대한 마이크로 시뮬레이션을 제공하며, [11]소수의 클러스터가 존재하는 상황에서 야생 부트스트랩이 잘 작동한다는 것을 발견했다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ 데이비드 브라운 연구위원은 이라크의 '과잉' 사망자 수가 655,000명에 달했다고 주장, 워싱턴 포스트, 2006년 10월 11일 수요일.2010년 9월 14일 취득.
  2. ^ Kerry and Bland(1998).통계 노트: 클러스터 랜덤화의 클러스터상관 계수입니다.영국 의학 저널, 316, 1455–1460.
  3. ^ Ahmed, Saifuddin (2009). Methods in Sample Surveys (PDF). The Johns Hopkins University and Saifuddin Ahmed.
  4. ^ Daniel Pfeffermann; C. Radhakrishna Rao (2009). Handbook of Statistics Vol.29A Sample Surveys: Theory, Methods and Infernece. Elsevier B.V. ISBN 978-0-444-53124-7.
  5. ^ LP Galway; Nathaniel Bell; Al S SAE; Amy Hagopian; Gilbert Burnham; Abraham Flaxman; Wiliam M Weiss; Julie Rajaratnam; Tim K Takaro (27 April 2012). "A two-stage cluster sampling method using gridded population data, a GIS, and Google EarthTM imagery in a population-based mortality survey in Iraq". International Journal of Health Geographics. 11: 12. doi:10.1186/1476-072X-11-12. PMC 3490933. PMID 22540266.
  6. ^ Cameron A. C. 및 P. K. Trivedi (2005) :마이크로 계량:메서드와 응용 프로그램.캠브리지 대학 출판부, 뉴욕
  7. ^ a b Cameron, C. 및 D. L. Miller(2015):클러스터-강력 추론 실무자 가이드.인적자원 저널 50(2), 페이지 317–372.
  8. ^ a b 앵그리스트, J.D., J.S.Pischke (2009) :대부분 무해한 계량경제학입니다.경험주의자의 동반자죠프린스턴 대학 출판부, 뉴저지.
  9. ^ Bertrand, M., E. Duflo 및 S.Mullainathan (2004) :차이 추정치를 얼마나 신뢰해야 합니까?경제계간지 119(1) 페이지 249~275.
  10. ^ Kezdi, G. (2004) :고정 효과 패널 모형에서 강력한 표준 오차 추정.헝가리 통계 검토 9, 페이지 95–116.
  11. ^ Cameron, C., J. Gelbach 및 D. L. Miller(2008) :클러스터 오류 추론을 위한 부트스트랩 기반 개선.The Review of Economics and Statistics 90, 페이지 414–427.