샘플링(통계)

Sampling (statistics)
샘플링 프로세스의 시각적 표현

통계, 품질 보증조사 방법론에서 표본 추출은 전체 모집단의 특성을 추정하기 위해 통계 모집단 내에서 개인의 부분 집합(통계 표본)을 선택하는 것이다.통계학자들은 문제의 모집단을 대표하는 표본을 수집하려고 한다.표본 추출은 전체 모집단을 측정하는 것보다 비용이 낮고 데이터 수집 속도가 빠르며 전체 모집단을 표본으로 추출할 수 없는 경우 통찰력을 제공할 수 있다.

관측치는 독립적인 물체 또는 개인의 하나 이상의 특성(예: 무게, 위치, 색상)을 측정한다.측량 표본 추출에서 특히 층화된 표본 추출에서 표본 설계를 조정하기 위해 데이터에 가중치를 적용할 수 있다.[1]확률 이론통계 이론의 결과는 실무를 지도하기 위해 사용된다.기업 및 의학 연구에서 표본 추출은 모집단에 대한 정보를 수집하는 데 널리 사용된다.[2]합격 표본 추출은 재료의 생산 로트가 관리 규격을 충족하는지 여부를 결정하기 위해 사용된다.

모집단 정의

성공적인 통계 관행은 집중적인 문제 정의에 기초한다.샘플링에서 여기에는 샘플이 추출되는 "인구"의 정의가 포함된다.모집단은 이해하고 싶은 특성을 가진 모든 사람이나 항목을 포함하는 것으로 정의할 수 있다.모집단의 모든 사람 또는 모든 것에서 정보를 수집할 수 있는 충분한 시간이나 돈이 매우 드물기 때문에 목표는 해당 모집단의 대표적인 표본(또는 부분 집합)을 찾는 것이 된다.

때때로 인구를 정의하는 것은 명백하다.예를 들어, 제조자는 생산에서 나온 한 묶음의 재료가 고객에게 출시될 수 있을 정도로 품질이 높은지, 아니면 품질이 좋지 않아 스크랩이나 재작업에 대해 선고를 받아야 하는지를 결정할 필요가 있다.이 경우 배치가 모집단이다.

관심 있는 모집단은 종종 물리적 물체로 구성되지만, 때로는 시간, 공간 또는 이러한 차원의 어떤 조합에 걸쳐 표본을 추출할 필요가 있다.예를 들어, 슈퍼마켓 직원들에 대한 조사는 다양한 시간에 계산대 길이를 검사하거나, 멸종 위기에 처한 펭귄에 대한 연구는 시간이 지남에 따라 다양한 사냥터들의 사용을 이해하는 것을 목표로 할 수 있다.시간 차원의 경우, 기간 또는 개별적인 경우에 초점을 맞출 수 있다.

다른 경우에, 조사된 '인구'는 훨씬 덜 유형적일 수 있다.예를 들어, Joseph Jagger몬테카를로의 카지노에서 룰렛 바퀴의 행동을 연구했고, 이것을 편향된 바퀴를 식별하는데 사용했다.이 경우, Jagger가 조사하고자 했던 '인구'는 바퀴의 전반적인 행동(즉, 무한히 많은 시행에 걸친 결과의 확률 분포)이었고, 그의 '표본'은 바퀴에서 관찰된 결과로부터 형성되었다.구리전기전도도와 같은 일부 물리적 특성을 반복적으로 측정할 때도 이와 유사한 고려사항이 발생한다.

이러한 상황은 관찰된 모집단이 결과인 원인 시스템에 대한 지식을 추구할 때 종종 발생한다.이러한 경우 표본 추출 이론은 관측된 모집단을 더 큰 '초대 인구'에서 추출한 표본으로 취급할 수 있다.예를 들어, 한 연구자가 100명의 환자들로 구성된 시험 그룹에 대한 새로운 '흡연' 프로그램의 성공률을 연구하여 프로그램이 전국적으로 이용될 경우 그 효과를 예측할 수 있다.여기서 초인플레이션은 "이 치료법에 대한 접근 권한을 부여받은 전국의 모든 사람들"이다. 그 프로그램은 아직 모두에게 제공되지 않았기 때문에 아직 존재하지 않는 그룹이다.

표본을 추출한 모집단은 정보가 필요한 모집단과 동일하지 않을 수 있다.프레임 문제 등으로 인해 이 두 그룹 사이에 종종 크지만 완전히 겹치지 않는다(아래 참조).때때로 그들은 완전히 별개일 수도 있다. 예를 들어, 사람들은 인간의 건강에 대해 더 잘 이해하기 위해 쥐를 연구하거나, 2009년에 태어난 사람들에 대해 예측하기 위해 2008년에 태어난 사람들의 기록을 연구할 수도 있다.

표본 모집단과 관심 모집단을 정밀하게 만드는 데 소비되는 시간은 종종 잘 쓰이는데, 왜냐하면 그것은 현 단계에서 간과되었을 많은 문제, 모호성, 그리고 의문점들을 제기하기 때문이다.

샘플링 프레임

생산에서 한 묶음의 재료 표본 추출(제비별 합격 표본 추출)과 같은 가장 간단한 경우, 모집단의 모든 항목을 식별하고 측정하고 그 중 하나를 우리의 표본에 포함하는 것이 가장 바람직할 것이다.그러나 더 일반적인 경우에는 대개 이것이 가능하거나 실용적이지 않다.모든 쥐의 집합에 있는 모든 쥐를 식별할 수 있는 방법은 없다.투표를 의무화하지 않는 곳에서는 (선거에 앞서) 다가오는 선거에서 어떤 사람이 투표를 할 것인지 확인할 방법이 없다.이러한 부정확한 모집단은 통계적 이론을 적용할 수 있는 아래 방법 중 어떤 방법으로도 샘플링에 순응할 수 없다.

해결책으로, 우리는 모든 원소를 식별하고 샘플에 포함시킬 수 있는 특성을 가진 샘플링 프레임을 구한다.[3][4][5][6]가장 간단한 유형의 프레임은 적절한 연락처 정보가 있는 모집단 요소 목록(대개 전체 모집단)이다.예를 들어, 여론 조사에서, 가능한 샘플링 프레임은 선거인 명부전화번호부를 포함한다.

확률 표본은 모집단의 모든 단위가 표본에서 선택될 확률(0보다 큼)을 갖는 표본으로, 이 확률을 정확하게 결정할 수 있다.이러한 특성의 조합은 선택 확률에 따라 표본 단위의 가중치를 부여함으로써 모집단 총계의 편향되지 않은 추정치를 산출할 수 있게 한다.

예:우리는 주어진 거리에 살고 있는 성인의 총소득을 추산하고 싶다.우리는 그 거리의 각 가구를 방문하여 그곳에 살고 있는 모든 성인을 식별하고 각 가구에서 무작위로 성인 1명을 선정한다. (예를 들어, 0과 1 사이의 균일한 분포에서 생성된, 각 가구당 무작위 번호를 할당하고, 각 가구에서 가장 높은 숫자를 가진 사람을 선정할 수 있다.)그리고 나서 우리는 선택된 사람을 인터뷰하고 그들의 수입을 찾는다.

스스로 사는 사람들은 선택될 것이 확실하기 때문에, 우리는 단순히 그들의 수입을 총액에 더하면 된다. 그러나 성인 2인 가구에 사는 사람은 선택 확률이 1인 2분의 1밖에 되지 않는다. 이를 반영하기 위해 우리가 그런 가구에 왔을 때, 우리는 선정된 사람의 소득을 총액에 두 번 세어 보곤 했다. (그 가구에서 선발사람선발되지 않은 사람을 나타내는 것으로 느슨하게 볼 수 있다.)

위의 예에서, 모든 사람이 동일한 선택 확률을 가지고 있는 것은 아니다; 그것을 확률 표본으로 만드는 것은 각 개인의 확률을 알고 있다는 사실이다.모집단의 모든 요소가 동일한 선택 확률을 갖는 경우, 이를 '선택 확률 균등'(EPS) 설계로 알려져 있다.이러한 설계는 모든 표본 단위에 동일한 중량이 주어지기 때문에 '셀프 가중치'라고도 한다.

확률 표본 추출에는 다음이 포함된다.단순 랜덤 표본 추출, 체계적 표본 추출, 층화 표본 추출, 크기 표본 추출에 비례하는 확률, 클러스터 또는 다단계 표본 추출.확률 표본 추출의 다양한 방법에는 두 가지 공통점이 있다.

  1. 모든 원소는 샘플링될 가능성이 0이 아닌 것으로 알려져 있다.
  2. 어느 순간 무작위 선택을 수반한다.

확률 표본 추출

확률 표본 추출은 모집단의 일부 요소가 선택 가능성이 없거나(이러한 요소를 '보충 범위 밖'/'해독'이라고 부르기도 한다) 선택 확률을 정확하게 결정할 수 없는 표본 추출 방법이다.그것은 선택 기준을 형성하는 관심 모집단에 관한 가정에 근거한 요소의 선택을 포함한다.따라서 요소의 선택이 랜덤하지 않기 때문에 확률 표본 추출은 표본오차를 추정할 수 없다.이러한 조건들은 배제 편향을 일으켜 표본이 모집단에 대해 얼마나 많은 정보를 제공할 수 있는가에 제한을 둔다.표본과 모집단의 관계에 대한 정보는 제한적이어서 표본에서 모집단으로 추론하기 어렵다.

예:우리는 주어진 거리에 있는 모든 가정을 방문하고, 가장 먼저 문을 열어준 사람을 인터뷰한다.한 명 이상의 거주자가 있는 모든 가구에서, 이것은 비확률 표본이다. 왜냐하면 어떤 사람들은 집에 있는 대부분의 시간을 집에서 보내는 실업자가 면접관이 전화할 때 직장에 있을 수 있는 고용된 동거인보다 더 대답할 가능성이 높기 때문이다. 그리고 이러한 프로바비를 계산하는 것은 실용적이지 않기 때문이다.리츠

비확률 표본 추출 방법에는 편의성 표본 추출, 할당량 표본 추출 및 자포성 표본 추출이 포함된다.또한 무응답은 각 원소의 표본 추출 확률을 효과적으로 수정하기 때문에 무응답의 특성을 잘 이해하지 못하는 경우 무응답 효과는 확률 설계를 비확률 설계로 바꿀 수 있다.

샘플링 방법

위에서 식별한 프레임의 어떤 유형 내에서, 다양한 샘플링 방법을 개별적으로 또는 조합하여 사용할 수 있다.이러한 설계 간의 선택에 일반적으로 영향을 미치는 요인은 다음과 같다.

  • 프레임의 특성과 품질
  • 프레임의 장치에 대한 보조 정보의 가용성
  • 정확도 요구사항 및 정확도 측정 필요성
  • 샘플의 상세 분석이 예상되는지 여부
  • 비용/운영상의 문제

단순 랜덤 표본 추출

단순 랜덤 표본을 선택하는 시각적 표현

주어진 크기의 단순 랜덤 표본(SRS)에서, 표본 추출 프레임의 모든 부분 집합은 선택될 확률이 동일하다.따라서 프레임의 각 요소는 동일한 선택 확률을 가진다: 프레임은 세분화되거나 분할되지 않는다.또한 주어진 원소의 쌍은 다른 쌍과 같은 선택 기회를 가진다.이는 편견을 최소화하고 결과 분석을 단순화한다.특히 표본 내 개별 결과 간의 분산은 전체 모집단의 분산을 잘 나타내는 지표여서 결과의 정확도를 비교적 쉽게 추정할 수 있다.

단순 랜덤 표본 추출은 표본 추출 오류에 취약할 수 있다. 왜냐하면 선택 항목의 랜덤성이 모집단의 구성을 반영하지 않는 표본을 추출할 수 있기 때문이다.예를 들어, 주어진 나라에서 온 10명의 간단한 무작위 샘플은 평균적으로 남자 5명과 여자 5명을 낳지만, 주어진 어떤 재판도 한 성별을 지나치게 대표하고 다른 성별을 과소 대표할 가능성이 높다.체계적이고 계층화된 기법들은 보다 "대표적인" 표본을 선택하기 위해 "인구 정보를 사용"함으로써 이 문제를 극복하려고 시도한다.

또한, 많은 표적 모집단에서 표본을 추출할 때 간단한 무작위 표본 추출은 번거롭고 지루할 수 있다.어떤 경우에는 조사관들이 그 인구의 하위 그룹 특유의 연구 질문에 관심을 가진다.예를 들어, 연구자들은 직무 수행의 예측자로서의 인지 능력이 인종 집단 간에 동등하게 적용되는지 여부를 조사하는 데 관심이 있을 수 있다.단순 무작위 표본 추출은 모집단의 하위 표본을 제공하지 않으며, 대신 계층화된 표본 추출과 같은 다른 표본 추출 전략을 사용할 수 있기 때문에 이러한 상황에서 연구자의 요구를 수용할 수 없다.

체계적 샘플링

체계적 샘플링 기법을 이용한 무작위 샘플선택의 시각적 표현

체계적 표본 추출(구간 표본 추출이라고도 함)은 어떤 순서 계획에 따라 연구 모집단을 배열한 다음 순서 목록을 통해 정기적으로 요소를 선택하는 데 의존한다.체계적인 표본 추출은 무작위 시작을 수반한 다음 그 이후부터 모든 k번째 원소의 선택을 진행한다.이 경우 k=(인구 크기/표본 크기).출발점이 자동으로 목록의 첫 번째가 아니라 목록의 첫 번째 요소에서 k번째 요소 내에서 임의로 선택되는 것이 중요하다.간단한 예로는 전화번호부에서 10번째 이름('매 10번째' 샘플, '10번째 스킵으로 샘플링'이라고도 함)을 선택하는 것이다.

시작점이 무작위로 추출되는 한 체계적인 표본 추출은 확률 표본 추출의 일종이다.리스트를 발주하는 변수가 관심 변수와 상관관계가 있다면 구현이 쉽고 유도된 층화가 효율적일 수 있다.'매 10회' 샘플링은 특히 데이터베이스에서 효율적인 샘플링에 유용하다.

예를 들어, 우리가 가난한 지역(1번 집)에서 시작해서 비싼 지역(1000번 집)에서 끝나는 긴 거리의 사람들을 표본으로 추출하려고 한다고 가정합시다.이 거리에서 무작위로 주소를 선택하면 높은 쪽에서는 너무 많고 낮은 쪽에서는 너무 적어서(또는 그 반대) 제시되지 않은 샘플로 이어질 수 있다.길을 따라 10번가마다 (예를 들어)를 선택하면 표본이 길이에 따라 균등하게 분포되어 이 모든 구역을 대표한다.(항상 #1번 집에서 시작해서 #991번에서 끝나는 경우, 표본은 낮은 쪽 쪽으로 약간 치우쳐 있다; #1과 #10번 사이에서 무작위로 출발을 선택함으로써, 이 편향은 제거된다.

그러나, 체계적 표본 추출은 특히 목록의 주기성에 취약하다.주기가 존재하고 기간이 사용된 간격의 배수 또는 인자인 경우, 표본은 특히 전체 모집단을 나타내지 못할 가능성이 높기 때문에 단순한 무작위 표본 추출보다 체계 정확도가 떨어진다.

예를 들어 홀수 주택이 모두 도로의 북쪽(비싼) 쪽에 있고 짝수 주택이 모두 남쪽(싸구려) 쪽에 있는 거리를 생각해 보자.위에 제시된 표본 추출 계획 하에서, 표본 추출된 집들은 모두 홀수, 고가, 짝수, 값싼 쪽에서 추출될 이며, 연구자가 이러한 편견을 사전에 알고 있고, 둘 사이에서 점프를 보장하는 스킵으로 이를 피하지 않는 한, 모두 짝수, 값싼 쪽에서 추출될 것이다.측면(이상한 경우 건너뛰기).

체계적 샘플링의 또 다른 단점은 SRS보다 정확도가 높은 시나리오에서도 이론적 특성이 그러한 정확도를 정량화하기 어렵다는 것이다.(위에서 제시된 두 가지 체계적인 표본 추출의 예에서, 잠재적 표본 추출 오류의 대부분은 이웃 집들 간의 변동 때문이지만, 이 방법은 결코 이웃 집 두 채를 선택하지 않기 때문에 표본은 우리에게 그 변동에 대한 정보를 제공하지 않을 것이다.)

위에서 설명한 바와 같이, 체계적 표본 추출은 EPS 방법인데, 이는 모든 원소가 동일한 선택 확률을 가지기 때문이다( 주어진 예에서, 10분의 1).동일한 크기의 하위 집합마다 선택 확률이 다르기 때문에 '단순 무작위 표본 추출'이 아니다. 예를 들어 집합 {4,14,24,...,994}은(는) 선택 확률은 10분의 1이지만 집합 {4,13,24,34,...}은(는) 선택 확률이 0이다.

체계적인 샘플링도 비 EPS 접근방식에 적용할 수 있다. 예를 들어, 아래의 PPS 샘플에 대한 논의를 참조하십시오.

층화시료채취

층화시료채취법을 이용한 랜덤표본선택의 시각적 표현

인구가 많은 구별되는 범주를 수용할 때, 틀은 이들 범주에 의해 별도의 "스트라타"로 구성될 수 있다.그런 다음 각 계층은 개별 요소를 무작위로 선택할 수 있는 독립적인 하위 모집단으로 표본 추출된다.[3]모집단의 크기에 대한 이 무작위 선택(또는 표본)의 크기의 비율을 표본 추출 분율이라고 한다.계층화된 표본 추출에는 몇 가지 잠재적인 이점이 있다.

첫째로, 모집단을 구별되고 독립적인 계층으로 나누는 것은 연구자들이 좀 더 일반화된 무작위 표본에서 상실될 수 있는 특정 부분군에 대한 추론을 이끌어낼 수 있게 한다.

둘째, 계층화된 표본 추출 방법을 활용하면 보다 효율적인 통계적 추정으로 이어질 수 있다(표본의 가용성 대신에 해당 기준과 관련성에 기초하여 계층을 선택).계층화된 표본 추출 접근방식이 통계적 효율을 증가시키지 않더라도, 각 계층이 모집단에서 집단의 크기에 비례한다면, 그러한 전술은 단순한 무작위 표본 추출보다 덜 효율을 초래하지 않을 것이다.

셋째, 데이터 이용이 전체 모집단보다 모집단 내의 개인, 기존 계층에 더 쉽게 가능한 경우가 있다. 이러한 경우 계층화된 표본 추출 접근법을 사용하는 것이 그룹 전체의 데이터를 집계하는 것보다 더 편리할 수 있다(이는 잠재적으로 이전에 언급된 u의 중요성과 상충될 수 있다).기준-기준-계층 기울기).

마지막으로 각 계층은 독립된 모집단으로 취급되기 때문에 서로 다른 계층에 서로 다른 표본 추출 접근법을 적용할 수 있으며, 연구자가 모집단 내에서 확인된 각 하위 그룹에 가장 적합한 접근법(또는 가장 비용 효율적인 접근법)을 사용할 수 있다.

그러나 층화 표본 추출 사용에는 약간의 단점이 있다.첫째, 계층을 식별하고 그러한 접근법을 구현하면 표본 선택의 비용과 복잡성을 증가시킬 수 있을 뿐만 아니라 모집단 추정의 복잡성을 증가시킬 수 있다.둘째, 다중 기준을 검토할 때 층화 변수는 일부와 관련될 수 있지만 다른 변수와는 관련되지 않아 설계를 더욱 복잡하게 하고 층의 효용성을 잠재적으로 감소시킬 수 있다.마지막으로 일부 경우(예: 층수가 많은 설계 또는 그룹당 지정된 최소 표본 크기를 가진 설계)에서는 층화된 표본 추출에 다른 방법보다 큰 표본이 필요할 수 있다(대부분의 경우 필요한 표본 크기가 단순 무작위 표본 추출에 필요한 것보다 크지 않을 수 있다.

계층화된 샘플링 접근방식은 세 가지 조건이 충족될 때 가장 효과적이다.
  1. 층 내 변동성이 최소화됨
  2. 층간 변동성이 극대화됨
  3. 모집단이 계층화된 변수는 원하는 종속 변수와 강하게 상관된다.
다른 샘플방식 대비 장점
  1. 중요한 하위 집단에 초점을 맞추고 관련 없는 하위 집단은 무시한다.
  2. 서로 다른 하위 항목에 대해 서로 다른 샘플링 기법을 사용할 수 있다.
  3. 추정의 정확성/효율성 향상
  4. 크기가 매우 다양한 계층에서 동일한 숫자를 추출하여 계층 간의 차이에 대한 테스트의 통계적 힘의 더 큰 균형을 허용한다.
단점들
  1. 어려울 수 있는 관련 층화 변수를 선택해야 한다.
  2. 균일한 부분군이 없을 때는 유용하지 않다.
  3. 구현 비용이 많이 들 수 있음.
포스트스트레이트화

성층화는 "후스트라티케이션"이라고 불리는 과정에서 샘플링 단계 이후에 도입되기도 한다.[3]이 접근방식은 일반적으로 적절한 층화 변수에 대한 사전 지식이 부족하거나 표본 추출 단계에서 층화 변수를 생성하기 위해 실험자가 필요한 정보가 부족하기 때문에 구현된다.이 방법은 임시방편적 접근방식의 함정에 취약하지만, 적절한 상황에서 여러 가지 이점을 제공할 수 있다.구현은 보통 간단한 무작위 표본을 따른다.보조 변수에 대한 층화를 허용하는 것 외에도, 후스트레이션을 사용하여 가중치를 구현할 수 있으며, 이는 표본 추정치의 정밀도를 향상시킬 수 있다.[3]

오버샘플링

선택 기반 샘플링은 계층화된 샘플링 전략 중 하나이다.선택 기반 샘플링에서 데이터는 표적에 층화되며 각 층에서 표본을 추출하여 희귀 목표 등급이 표본에 더 많이 표시되도록 한다.[7]그 모델은 이 편향된 샘플에 기초하여 제작된다.입력 변수가 표적에 미치는 영향은 랜덤 표본에 비해 전체 표본 크기가 작은 경우에도 선택적 표본으로 더 정밀하게 추정되는 경우가 많다.결과는 대개 과표본에 대해 수정되도록 조정되어야 한다.

확률-비율-대-크기

표본 설계자가 모집단의 각 요소에 대해 "보조 변수" 또는 "크기 측정값"에 접근할 수 있는 경우도 있다.이 데이터는 표본 설계의 정확성을 향상시키는 데 사용될 수 있다.한 가지 옵션은 위에서 설명한 바와 같이 보조 변수를 계층화의 기준으로 사용하는 것이다.

또 다른 옵션은 크기('PPS') 표본 추출에 비례하는 확률로, 각 원소의 선택 확률은 최대 1까지 비례하도록 설정된다.단순 PPS 설계에서 이러한 선택 확률을 포아송 표본 추출의 기준으로 사용할 수 있다.단, 이것은 다양한 표본 크기의 단점을 가지고 있으며, 모집단의 다른 부분이 선택에서 우연한 차이로 인해 여전히 과대 또는 과소표현될 수 있다.

체계적 표본 추출 이론은 크기 표본에 비례하는 확률을 만드는 데 사용될 수 있다.이는 크기 변수 내의 각 카운트를 단일 샘플링 단위로 처리함으로써 이루어진다.그런 다음 크기 변수 내에서 이러한 카운트 중에서 일정한 간격을 선택하여 샘플을 식별한다.이 방법을 감사나 법의학 샘플링의 경우 PPS-순차적 또는 화폐단위 샘플링이라고 부르기도 한다.

예:우리가 각각 150명, 180명, 200명, 220명, 260명, 490명(총 1500명)의 인구를 가진 6개 학교를 가지고 있다고 가정해 보자. 그리고 우리는 학생 인구를 3사이즈의 PPS 표본의 기준으로 삼고자 한다.이를 위해 1학번부터 150학번까지, 2학번부터 151학번부터 330학번(=150+180), 3학번 331학번부터 530학번까지 마지막 학교(1011~1500)에 배정할 수 있었다.그런 다음, 우리는 1에서 500명 사이의 무작위적인 출발을 만들어 내고 (1500/3과 같음) 학교 모집단을 500의 배수로 세어 나간다.무작위로 시작한 학교가 137개였다면 137개, 637개, 1137개, 즉 1차, 4차, 6차 등 배정된 학교를 선택했을 것이다.

PPS 접근방식은 모집단 추정치에 가장 큰 영향을 미치는 큰 요소에 표본을 집중시킴으로써 주어진 표본 크기에 대한 정확도를 향상시킬 수 있다.PPS 샘플링은 요소 크기가 크게 달라지고 보조 정보가 자주 제공되는 기업 조사에 일반적으로 사용된다. 예를 들어 호텔에서 숙박하는 투숙객의 수를 측정하려는 조사는 각 호텔의 객실 수를 보조 변수로 사용할 수 있다.어떤 경우에는 더 많은 전류 추정치를 산출하려고 할 때 관심 변수의 오래된 측정이 보조 변수로 사용될 수 있다.[8]

군집 표본 추출

군집 표본 추출 기법을 이용한 랜덤 표본 선택 시각적 표현

때로는 그룹별로 응답자를 선택하는 것이 더 비용 효율적이다('클러스터').표본 추출은 종종 지리 또는 기간에 따라 군집화된다.(분석에서 거의 고려하지 않지만 거의 모든 샘플은 어떤 의미에서 '클러스터'되어 있다.)예를 들어, 도시 내 가구를 조사할 경우, 100개의 도시 블록을 선택한 후 선택된 블록 내의 모든 가구를 인터뷰하도록 선택할 수 있다.

클러스터링은 여행 및 관리 비용을 줄일 수 있다.위의 예에서 면접관은 각 가구마다 다른 블록으로 차를 몰지 않고 한 블록에 있는 여러 가구를 한 번 방문할 수 있다.

그것은 또한 목표 모집단의 모든 요소를 나열하는 표본 추출 프레임이 필요하지 않다는 것을 의미한다.대신 클러스터는 선택한 클러스터에 대해서만 요소 수준 프레임이 생성되어 클러스터 수준 프레임에서 선택할 수 있다.위의 예에서 표본은 도시 전체의 가계도보다는 블록 수준의 도시 지도만 있으면 초기 선택을 하고, 그 다음 선택된 100개 블록의 가구 수준의 지도만 있으면 된다.

군집 표본 추출(군집 표본 추출이라고도 함)은 군집 내 변동에 비해 군집 간 차이가 어떻게 나느냐에 따라 일반적으로 단순 랜덤 표본 추정치보다 표본 추정치의 변동성을 증가시킨다.이러한 이유로 클러스터 샘플링은 동일한 수준의 정확도를 달성하려면 SRS보다 더 큰 샘플이 필요하지만, 클러스터링을 통한 비용 절감은 여전히 저렴한 옵션으로 만들 수 있다.

클러스터 샘플링은 일반적으로 다단계 샘플링으로 구현된다.이것은 두 개 이상의 유닛 레벨이 다른 레벨에 포함된 복잡한 형태의 클러스터 샘플링이다.첫 번째 단계는 샘플링에 사용될 클러스터를 구성하는 것으로 구성된다.두 번째 단계에서는 선택한 모든 클러스터에 포함된 모든 단위를 사용하지 않고 각 군집으로부터 1차 단위의 표본을 랜덤하게 선택한다.다음 단계에서는 선택된 각 군집마다 추가 단위 표본이 선택된다.그런 다음 이 절차의 마지막 단계에서 선택한 모든 최종 단위(예: 개인)를 조사한다.따라서 이 기법은 기본적으로 선행 무작위 표본의 무작위 하위 표본을 추출하는 과정이다.

다단계 표본 추출은 전체 모집단 목록을 작성해야 하는 경우(다른 표본 추출 방법을 적용하기 전에) 표본 추출 비용을 크게 줄일 수 있다.선택되지 않은 클러스터를 설명하는 작업을 제거함으로써, 다단계 샘플링은 전통적인 클러스터 샘플링과 관련된 큰 비용을 줄일 수 있다.[8]그러나 각 표본이 전체 모집단을 완전히 대표하는 것은 아닐 수 있다.

할당량 샘플링

할당량 표본 추출에서 모집단은 계층화된 표본 추출에서와 마찬가지로 상호 배타적인 하위 그룹으로 먼저 분할된다.그런 다음, 특정 비율에 기초하여 각 세그먼트에서 주제나 단위를 선택하는 데 판단을 사용한다.예를 들어 면접관이 45세에서 60세 사이의 여성 200명과 남성 300명을 표본으로 추출하도록 지시할 수 있다.

이 기술을 확률 표본 추출의 하나로 만드는 것은 이 두 번째 단계다.쿼터 샘플링에서 샘플 선택은 무작위가 아니다.예를 들어, 면접관들은 가장 도움이 되는 것처럼 보이는 사람들을 면접하고 싶어할 수도 있다.문제는 이 표본들이 모든 사람이 선정의 기회를 얻지 못하기 때문에 편향될 수 있다는 것이다.이 무작위적인 요소는 그것의 가장 큰 약점이고 할당량 대 확률은 몇 년 동안 논란의 여지가 되어왔다.

미니맥스 샘플링

표본 추출 비율이 모집단 통계를 따르지 않는 불균형 데이터 집합에서는 미니맥스 표본 추출이라는 보수적인 방법으로 데이터 집합을 다시 샘플링할 수 있다.미니맥스 표본 추출은 앤더슨 미니맥스 비율에서 비롯되며, 값은 0.5로 입증된다. 이항 분류에서는 클래스 샘플 크기를 동일하게 선택해야 한다.이 비율은 가우스 분포의 LDA 분류기를 가정할 때만 최소축 비율임을 증명할 수 있다.미니맥스 표본 추출의 개념은 클래스 지혜의 분류기라 불리는 분류 규칙의 일반 클래스에 대해 최근에 개발되었다.이 경우 등급의 표본 비율을 선택하여 등급 사전 확률에 대한 가능한 모든 모집단 통계량에 대한 최악의 경우 분류자 오류가 최선이 되도록 한다.[9]

우연한 샘플링

우발적 샘플링(그랩, 편의성 또는 기회 샘플링이라고도 함)은 손에 가까운 모집단의 해당 부분에서 샘플을 추출하는 비확률 샘플링의 한 유형이다.즉, 인구는 쉽게 구할 수 있고 편리하기 때문에 선택된다.사람을 만나거나 인터넷이나 전화와 같은 기술적 수단을 통해 사람을 찾거나 선택했을 때 샘플에 사람을 포함시키는 것을 통해서일 수 있다.그러한 표본을 사용하는 연구자는 이 표본을 충분히 대표할 수 없기 때문에 이 표본을 사용한 총 모집단에 대해 과학적으로 일반화할 수 없다.예를 들어 면접관이 주어진 날 아침 일찍 쇼핑센터에서 이런 조사를 한다면, 면접을 볼 수 있는 사람들은 주어진 시간에 그곳에 주어진 사람들로 제한될 것이고, 다른 시간에 조사를 하게 된다면, 그러한 지역의 다른 사회 구성원들의 견해를 대변할 수 없을 것이다.하루에 몇 번 그리고 일주일에 몇번이러한 유형의 샘플링은 파일럿 테스트에 가장 유용하다.편의성 샘플을 사용하는 연구자에게 몇 가지 중요한 고려사항은 다음과 같다.

  1. 연구 설계 또는 실험 내에 비랜덤 편의 표본의 영향을 감소시켜 그 결과가 모집단을 더 대표할 수 있도록 하는 통제장치가 있는가?
  2. 특정 편의성 표본이 동일한 모집단의 무작위 표본과 다르게 반응하거나 다르게 행동해야 한다고 믿을 만한이유가 있는가?
  3. 이 질문은 편의성 샘플을 사용하여 충분히 답할 수 있는 연구가 묻고 있는가?

사회과학연구에서 눈덩이 표본 추출은 기존 연구과목을 사용하여 표본에 더 많은 과목을 모집하는 유사한 기법이다.응답자 주도 표본 추출과 같은 일부 변형 눈덩이 표본 추출은 선택 확률을 계산할 수 있으며 특정 조건에서의 확률 표본 추출 방법이다.

자발적 샘플링

자발적 표본 추출 방법은 확률적이지 않은 표본 추출의 한 유형이다.자원 봉사자들은 설문 조사를 완료하기로 선택한다.

소셜미디어의 광고를 통해 자원봉사자를 초청할 수 있다.[10]광고의 대상인구는 소셜미디어가 제공하는 도구를 이용하여 위치, 나이, 성별, 소득, 직업, 교육, 관심사 등의 특성에 따라 선정할 수 있다.광고에는 연구에 대한 메시지와 설문 조사와의 연계가 포함될 수 있다.링크를 따라 조사를 완료한 후, 자원 봉사자는 표본 모집단에 포함될 데이터를 제출한다.이 방법은 전 세계 인구에 도달할 수 있지만 캠페인 예산에 의해 제한된다.초청된 인구를 벗어난 자원봉사자도 표본에 포함될 수 있다.

이 표본은 총인구를 나타내지 않을 수 있기 때문에 일반화를 하기 어렵다.종종, 자원봉사자들은 설문 조사의 주요 주제에 큰 관심을 가진다.

라인절개샘플링

절편 표본 추출은 "트란섹트"라고 불리는 선택된 선 세그먼트가 원소와 교차할 경우 원소를 샘플링하는 지역에서 원소를 샘플링하는 방법이다.

패널 샘플링

패널 샘플링은 무작위 샘플방식(RAMP)을 통해 참가자 그룹을 먼저 선택한 다음 일정 기간 동안 해당 그룹에 (잠재적으로 동일) 정보를 여러 차례 요청하는 방식이다.따라서 각 참가자는 2개 이상의 시점에 면접을 본다. 각 데이터 수집 기간을 "파동"이라고 한다.이 방법은 1938년 사회학자 폴 라자스펠드정치운동을 연구하는 수단으로 개발했다.[11]세로 표본 추출 방법은 예를 들어 만성 질환과 관련된 인구의 변화를 주간 식량 지출로 추정할 수 있다.패널 샘플링은 또한 연구원들에게 연령에 따른 사람 내 건강 변화에 대해 알리거나 배우자 상호 작용과 같은 지속적 종속 변수의 변화를 설명하는 데 사용될 수 있다.[12]패널 데이터를 분석하는 방법으로는 다변량 분산 분석, 성장 곡선 분석, 지연 효과의 구조 방정식 모델링 등 여러 가지가 제시됐다.

스노우볼 샘플링

눈덩이 표본 추출에는 소수 초기 응답자 그룹을 찾아 더 많은 응답자를 모집하는 데 사용하는 것이 포함된다.특히 모집단이 숨겨져 있거나 열거하기 어려운 경우에 유용하다.

이론 샘플링

이론 표본[13] 추출은 그 분야에 대한 보다 깊은 이해를 발전시키거나 이론을 발전시킬 목적으로 지금까지 수집한 데이터의 결과에 기초하여 표본을 선정할 때 발생한다.어떤 현상이 실제로 관찰될 가능성을 극대화하기 위해 극단적이거나 매우 구체적인 경우를 선택할 수 있다.

선택한 장치의 교체

샘플링 방식은 교체 없이('WOR' – 동일한 샘플에서 두 번 이상 요소를 선택할 수 없음) 또는 교체('WR' – 한 샘플에서 요소가 여러 번 나타날 수 있음)될 수 있다.예를 들어, 만약 우리가 물고기를 잡고, 측정하고, 샘플을 계속하기 전에 즉시 물로 돌려보낸다면, 이것은 WR 디자인이다. 왜냐하면 우리는 같은 물고기를 한 번 이상 잡고 측정하게 될 수도 있기 때문이다.그러나 우리가 물고기를 물이나 술래잡기로 돌려보내지 않고 잡은 후 각각의 물고기를 놓아주지 않으면 이것은 WOR 디자인이 된다.

표본크기결정

공식, 표 및 검정력 함수 차트는 표본 크기를 결정하는 잘 알려진 접근법이다.

표본 크기 표 사용 단계

  1. 관심 효과 크기, α 및 β를 가정한다.
  2. 표본 크기 표 확인[14]
    1. 선택한 α에 해당하는 테이블을 선택하십시오.
    2. 원하는 전원에 해당하는 행 찾기
    3. 추정된 효과 크기에 해당하는 열을 찾으십시오.
    4. 열과 행의 교차점은 필요한 최소 표본 크기입니다.

샘플링 및 데이터 수집

우수한 데이터 수집에는 다음이 포함된다.

  • 정의된 샘플링 프로세스에 따라
  • 데이터를 시간 순서대로 유지
  • 주석 및 기타 상황별 이벤트 기록
  • 무응답 기록

샘플링 적용

표본 추출은 전체 모집단의 특성을 추정하기 위해 더 큰 데이터 집합 내에서 올바른 데이터 점을 선택할 수 있다.예를 들어, 매일 약 6억 개의 트윗이 생산된다.하루 동안 논의되는 주제를 정하기 위해 그들 모두를 볼 필요도 없고, 각 주제에 대한 정서를 정하기 위해 모든 트윗을 볼 필요도 없다.트위터 데이터를 샘플링하기 위한 이론적 공식화가 개발됐다.[15]

음향, 진동, 압력, 전류, 전압 및 제어기 데이터와 같은 다양한 유형의 감지 데이터를 짧은 시간 간격으로 사용할 수 있다.다운타임을 예측하기 위해 모든 데이터를 볼 필요는 없지만 샘플로 충분할 수 있다.

표본 조사의 오류

조사 결과는 일반적으로 일부 오류가 발생할 수 있다.총오차는 표본오차와 비표본오차로 분류할 수 있다.여기서 "오류"라는 용어는 무작위 오류뿐만 아니라 체계적인 편견을 포함한다.

샘플링 오류 및 편향

표본오차와 편차는 표본설계에 의해 유도된다.여기에는 다음이 포함된다.

  1. 선택 바이어스:실제 선택 확률이 결과 계산에서 가정된 확률과 다를 경우.
  2. 랜덤 표본 추출 오차: 랜덤하게 선택되는 표본의 원소로 인한 결과의 랜덤 변동.

비표본오차

비표본 오류는 데이터 수집, 처리 또는 샘플 설계의 문제로 인해 최종 조사 추정치에 영향을 미칠 수 있는 다른 오류들이다.이러한 오류에는 다음이 포함될 수 있다.

  1. 과대 커버리지: 모집단 외부의 데이터 포함
  2. 과소 커버리지: 표본 추출 프레임은 모집단의 요소를 포함하지 않는다.
  3. 측정 오류: 예: 응답자가 질문을 오해하거나 답변하기 어려운 경우
  4. 처리 오류: 데이터 코딩 오류
  5. 무응답 또는 참여편향: 선택한 모든 개인으로부터 완전한 데이터를 얻지 못함

표본 추출 후 분해가 후속 분석에 미칠 수 있는 영향을 연구하기 위해 의도한 것이 아니라 표본 추출에 따른 정확한 프로세스에 대한 검토를 실시해야[by whom?] 한다.

특별한 문제는 무응답이다.무응답에는 크게 두 가지 유형이 있다.[16][17]

  • 단위 무응답(조사 일부의 완료 여부)
  • 항목 무응답(설문 또는 설문 참여가 있지만 설문 조사의 하나 이상의 구성 요소/실사를 완료하지 못함)

조사 표본 추출에 있어 표본의 일부로 확인된 개인들 중 다수는 참여를 꺼리거나, 참여할 시간이 없거나(기회비) 조사 관리자가 연락을 하지 못했을 수 있다.[18]이 경우 응답자와 비응답자 간에 차이가 발생할 위험이 있어 모집단 모수의 편향된 추정치가 나올 수 있다.이는 종종 설문 조사 설계를 개선하고, 인센티브를 제공하며, 응답하지 않는 사람과 접촉하고, 프레임의 나머지 부분과의 유사성과 차이를 특징짓는 후속 연구를 수행함으로써 해결된다.[19]또한 데이터 가중치 부여(인구 벤치마크를 이용할 수 있는 경우) 또는 다른 질문에 대한 답변에 기초하여 데이터를 귀속시킴으로써 영향을 완화시킬 수 있다.인터넷 샘플링에서 무응답은 특히 문제가 된다.이 문제의 이유에는 부적절하게 설계된 조사,[17] 과도한 조사(또는 조사 피로)[12][20][need quotation to verify] 및 잠재적 참여자가 더 이상 사용하지 않거나 정기적으로 확인하지 않는 여러 개의 전자우편 주소를 가질 수 있다는 사실이 포함될 수 있다.

측량 가중치

많은 상황에서 표본 분율은 계층별로 변화할 수 있으며 모집단을 올바르게 나타내기 위해 데이터를 가중치 부여해야 한다.따라서 예를 들어, 영국의 간단한 무작위 표본은 스코틀랜드의 외딴 섬에 있는 표본 중 일부는 표본 추출에 지나치게 비쌀 수 있다.더 저렴한 방법은 도시와 시골 지층이 층화된 표본을 사용하는 것이다.시골지역 표본은 표본에서 충분히 표현되지 않을 수 있지만, 이를 보상하기 위해 분석에서 적절히 가중치를 부여할 수 있다.

더 일반적으로, 표본 설계가 각 개인에게 동일한 선택 기회를 주지 않는 경우 데이터는 일반적으로 가중치가 부여되어야 한다.예를 들어, 가구는 선택 확률은 동일하지만 각 가구 내에서 한 사람이 면접을 보는 경우, 이는 대가족의 사람들에게 면접의 기회를 더 적게 준다.이것은 측량 가중치를 사용하여 설명할 수 있다.마찬가지로 전화선이 둘 이상인 가구는 무작위 숫자 다이얼링 샘플에서 선택될 가능성이 더 높으며, 이에 대한 가중치를 조정할 수 있다.

체중은 무반응에 대한 교정을 돕는 것과 같은 다른 목적을 위해 사용될 수 있다.

랜덤 표본을 생성하는 방법

역사

제비뽑기를 이용한 무작위 표본추출은 성경에서 여러 차례 언급된 낡은 생각이다.1786년 피에르 시몬 라플레이스비율 추정기와 함께 샘플을 사용하여 프랑스의 인구를 추정했다.그는 또한 오류에 대한 확률론적 추정치를 계산했다.이들은 현대적인 신뢰 구간으로 표현되지 않고 확률 1000/1001로 표본 오차에 대한 특정 상한 달성에 필요한 표본 크기로 표현되었다.그의 추정치는 베이즈의 정리를 일정사전 확률로 사용했고 그의 표본이 무작위라고 가정했다.알렉산더 이바노비치 추프로프는 1870년대에 러시아 제국에게 표본 조사를 도입했다.[citation needed]

미국에서는 1936년 대통령 선거에서 공화당이 승리할 것이라는 예측이 심한 편견으로 인해 크게 빗나갔다[1].200만 명 이상의 사람들이 잡지 구독 목록과 전화 번호부를 통해 얻은 이름으로 연구에 응답했다.이러한 명단이 공화당원들에게 과도하게 편향되어 있고 그 결과로 나온 표본이 매우 크긴 하지만 심각한 결함이 있다는 것은 인정되지 않았다.[21][22]

참고 항목

메모들

Groves et alia의 교재는 설문지 개발에 관한 최근 문헌을 포함한 조사 방법론의 개요를 제공한다.

  • 로버트 그로브스 외 에 알리아조사 방법론(2010년 2월호)[2004]) ISBN0-471-48348-6.

다른 책들은 다음 교과서에서 논의된 바와 같이 조사 표본의 통계 이론에 초점을 맞추고 기초 통계에 대한 지식을 요구한다.

Scheaffer et alia의 초등 저서는 고등학교 대수학에서 나온 2차 방정식을 사용한다.

  • 셰이퍼, 리차드 L, 윌리엄 멘덴할, R.라이먼 오트.기초 조사 표본 추출, 제5판.Belmont: Duxbury Press, 1996.

Lohr, Sarndal et allia 및 Cochran (classic[citation needed])에 대해서는 더 많은 수학적 통계가 필요하다.

데밍과 키쉬가 쓴 역사적으로 중요한 책들은 사회과학자들에게 통찰력(특히 미국 인구조사 및 미시간대학 사회연구소에 관한 것)을 위해 귀중한 것으로 남아 있다.

참조

  1. ^ Lance, P. & Hattori, A. (2016). Sampling and Evaluation. Web: MEASURE Evaluation. pp. 6–8, 62–64.{{cite book}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  2. ^ 살란트, 프리실라, I. 딜만, A. 돈.자체 조사 방법.제 300.723 S3. 1994.
  3. ^ a b c d Robert M. Groves; et al. (2009). Survey methodology. ISBN 978-0470465462.
  4. ^ Lohr, Sharon L. Sampling: Design and analysis.
  5. ^ Särndal, Carl-Erik, and Swensson, Bengt, and Wretman, Jan. Model Assisted Survey Sampling.{{cite book}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  6. ^ Scheaffer, Richard L., William Mendenhal and R. Lyman Ott. (2006). Elementary survey sampling.{{cite book}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  7. ^ Scott, A.J.; Wild, C.J. (1986). "Fitting logistic models under case-control or choice-based sampling". Journal of the Royal Statistical Society, Series B. 48 (2): 170–182. JSTOR 2345712.
  8. ^ a b
    • Lohr, Sharon L. Sampling: Design and Analysis.
    • Särndal, Carl-Erik, and Swensson, Bengt, and Wretman, Jan. Model Assisted Survey Sampling.{{cite book}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  9. ^ Shahrokh Esfahani, Mohammad; Dougherty, Edward (2014). "Effect of separate sampling on classification accuracy". Bioinformatics. 30 (2): 242–250. doi:10.1093/bioinformatics/btt662. PMID 24257187.
  10. ^ Ariyaratne, Buddhika (30 July 2017). "Voluntary Sampling Method combined with Social Media advertising". heal-info.blogspot.com. Health Informatics. Retrieved 18 December 2018.[출처?]
  11. ^ 라자스펠트, P, & Fiske, M.(1938).의견을 측정하기 위한 새로운 도구로서의 "패널".여론 분기별, 2(4), 596–612.
  12. ^ a b 그로브스, 기타 앨리아.조사 방법론
  13. ^ "Examples of sampling methods" (PDF).
  14. ^ 코헨, 1988년
  15. ^ Deepan Palguna, Vikas Joshi, Venkatesan Chakaravarthy, Ravi Kothari and L. V. Subramaniam (2015). Analysis of Sampling Algorithms for Twitter. International Joint Conference on Artificial Intelligence.{{cite conference}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  16. ^ A. J. (2008) 베린스키."조사 무응답"인: W. Donsbach & M. Traugott (에드스), The Sage 핸드북 (pp. 309–321)CA: Saige Publishments.
  17. ^ a b Dillman, D. A., Eltinge, J. L., Groves, R. M. & Little, R. J. A. (2002)"설계, 데이터 수집 및 분석에서 무응답 조사"인: R. M. 그로브스, D.A. Dillman, J. L. Eltinge, & R. J. A. Little(에드), 측량 무응답(pp. 3–26)뉴욕: John Wiley & Sons.
  18. ^ 딜먼, 디에이, 스미쓰, J.D., & 크리스티안, L. M. (2009)인터넷, 메일 및 혼합 모드 설문 조사:맞춤형 설계 방법.샌프란시스코:조시-바스
  19. ^ V, V, Batagelj, Z, Manfreda, K.L, & Zaletel, M. (2002)"웹 설문 조사 시 무응답".인: R. M. 그로브스, D.A. Dillman, J. L. Eltinge, & R. J. A. Little(에드), 측량 무응답(pp. 229–242)뉴욕: John Wiley & Sons.
  20. ^ Porter; Whitcomb; Weitzer (2004). "Multiple surveys of students and survey fatigue". In Porter, Stephen R (ed.). Overcoming survey research problems. New directions for institutional research. San Francisco: Jossey-Bass. pp. 63–74. ISBN 9780787974770. Retrieved 15 July 2019.
  21. ^ 데이비드 S.무어와 조지 P. 맥케이브."통계실무 소개"
  22. ^ Freedman, David; Pisani, Robert; Purves, Roger. Statistics.

추가 읽기

표준

ISO

  • ISO 2859 시리즈
  • ISO 3951계 전동차

ASTM

  • 재료의 확률 샘플링을 위한 ASTM E105 표준 사례
  • ASTM E122 추정할 표본 크기 계산을 위한 표준 관행(특정 허용 오차 포함), 로트 또는 공정 특성에 대한 평균
  • ASTM E141 확률 표본 추출 결과에 기초한 증거 수용 표준 사례
  • 샘플링과 관련된 ASTM E1402 표준 용어
  • 프로세스 지향 AOQL 및 LTPD 샘플링 계획 사용을 위한 ASTM E1994 표준 사례
  • AQL에 의해 지수화된 속성별 제품 스트림 샘플링을 위한 ASTM E2234 표준 사례

ANSI, ASQ

  • ANSI/ASQ Z1.4

미국 연방 및 군사 표준

외부 링크