비율 추정기

Ratio estimator

비율 추정기통계 모수이며 두 랜덤 변수의 평균 비율로 정의됩니다.비율 추정치는 편중되어 있으므로 실험 또는 조사 작업에 사용할 경우 수정해야 합니다.비율 추정치는 비대칭이며 t 검정과 같은 대칭 테스트를 사용하여 신뢰 구간을 생성해서는 안 된다.

치우침은 O(1/n)(큰 O 표기법 참조) 순서이므로 표본 크기 n이 증가하면 치우침이 점근적으로 0에 가까워집니다.따라서 표본 크기가 큰 경우에는 추정기가 거의 치우치지 않습니다.

정의.

데이터 집합의 각 표본 추출 요소에 대해 관측할 수 있는 두 가지 특성(x와 y)이 있다고 가정합니다.비율 R은

y변수(θy) 값의 비율 추정치는 다음과 같다.

여기서 θx x변수에 대응하는 값입니다.θy 점근 정규 [1]분포로 알려져 있다.

통계 속성

표본 비율(r)은 표본으로부터 추정됩니다.

비율이 치우친다는 것은 다음과 같이 젠슨의 부등식으로 나타낼 수 있다(x와 y 사이의 독립성을 가정).

단순 무작위 표본 추출에서 바이어스는 O(n−1) 차수입니다.추정치의 상대적 치우침에 대한 상한을 변동 [2]계수(평균에 대한 표준 편차의 비율)로 제공합니다.단순 무작위 표본 추출에서 상대 바이어스는 O(n−1/2)입니다.

평균 치우침 보정

보정 방법은 x y 변수의 분포에 따라 효율성이 다르기 때문에 전체 최적 방법을 권장하기가 어렵습니다.r의 추정치는 편중되어 있기 때문에 이후 모든 계산에서 수정 버전을 사용해야 한다.

1차까지[citation needed] 정확한 바이어스의 보정은 다음과 같습니다.

여기x m은 변수 x의 평균이고xy s는 x와 y 사이공분산입니다.

표기법xy 단순화하기 위해 s는 변수 x와 y 사이의 공분산을 나타내는 데 사용됩니다.

Taylor 확장에 기초한 또 다른 추정치는 다음과 같다.

여기서 n은 표본 크기, N은 모집단 크기, mx 변수 x의 평균, sx2y2 s는 각각 x와 y 변수의 표본 분산, θxy 변수 간의 표본 상관 관계입니다.

이 추정기의 계산은 간단하지만 정확도가 약간 떨어지는 버전은 다음과 같습니다.

여기서 N은 모집단 크기, n은 표본 크기, mx x 변수의 평균, sx2y2 s는 각각 x와 y 변수의 표본 분산, θx와 y 변수 간의 표본 상관 관계입니다.이들 버전은 분모(N-1)의 계수만 다릅니다. N의 경우 차이는 무시할 수 있습니다.

x와 y가 포아송 분포를 사용하는 단위 없는 카운트인 경우 2차 보정은[3] 다음과 같습니다.

다른 바이어스 보정 방법도 제안되었다.표기법을 단순화하기 위해 다음 변수가 사용됩니다.

Pascual의 추정치:[4]

빌의 추정치:[5]

Tin의 추정치:[6]

Sahoo의 추정치:[7]

Sahoo는 또한 다음과 같은 추가 [8]추정치를 제안했습니다.

x와 y가 포아송 분포를 가진 단위 없는 카운트이고x my m이 모두 10보다 크면 다음 근사치가 O(n−3)[3] 차수에 대해 정확합니다.

점근적으로 정확한 추정치는[9] 다음과 같습니다.

잭나이프 추정

잭나이프 추정치는 순진한 형태보다 덜 치우쳐 있다.이 비율의 잭나이프 추정치는 다음과 같습니다.

여기서 n은 표본의 크기이고 ri 한 번에 [10]한 쌍의 변수를 생략하여 추정됩니다.

또 다른 방법은 표본을 n =[11] pg인 p 크기의 g 그룹으로 나누는 것이다.ri i그룹th 추정치로 합니다.그러면 추정자는

서 r g그룹 비율g r의 평균이며, 최대 O(n−2)의 바이어스를 가집니다.

표본을 g 그룹으로 나눈 다른 추정치는 다음과 같습니다.[12]

서 r{r})은 g 그룹비율g r의 평균입니다.

여기i' r은 생략th i 그룹에서의 표본 비율 값입니다.

기타 추정방법

비율 추정기를 추정하는 다른 방법으로는 최대우도 및 부트스트래핑[10]있습니다.

합계 견적

y변수( ))의y 추정합계는 다음과 같습니다.

여기x ( ) )는 x변수의 합계입니다.

분산 추정치

표본 비율의 분산은 대략 다음과 같습니다.

여기x2 sy2 s는 각각 x와 y 변수의 분산이고x my m은 각각 x와 y 변수의 평균이며xy s는 xy의 공분산입니다.

아래에 제시된 비율의 근사 분산 추정기는 치우쳐 있지만 표본 크기가 크면 이 추정기의 치우침은 무시할 수 있습니다.

여기서 N은 모집단 크기, n은 표본 크기, mx x 변수의 평균입니다.

Taylor 확장에 기초한 분산의 또 다른 추정치는 다음과 같다.

여기서 n은 표본 크기, N은 모집단 크기, θx와 y 변수 사이의 상관 계수입니다.

O(n−2[9])에 대한 정확한 추정치는 다음과 같다.

확률 분포가 푸아소니아일 경우, O(n)에−3[3] 정확한 추정치는 다음과 같다.

분산의 잭나이프 추정치는 다음과 같습니다.

여기i r은 변수의 i쌍th 생략된 비율이고J r은 비율의 [10]잭나이프 추정치입니다.

총계차이

추정 총량의 분산은 다음과 같습니다.

평균의 분산

Y 변수의 추정 평균 분산은 다음과 같습니다.

여기x m은 x 변수평균이고x2 sy2 s는 각각 x와 y 변수의 표본 분산이고 θx와 y 변수 의 표본 상관입니다.

왜도

비율의 왜도와 첨도는 xy 변수의 분포에 따라 달라집니다.정규 분포 x 및 y 변수에 대해 이러한 모수를 추정했지만 다른 분포에 대해서는 아직 식을 도출하지 못했습니다.일반적으로 비율 변수는 오른쪽으로 치우쳐 있고, 렙토쿠르틱하며, 분모의 변동 계수의 크기가 증가하면 비정규성이 증가하는 것으로 밝혀졌다.

정규 분포 x y 변동의 경우 비율의 왜도는[6]

어디에

신뢰 구간에 대한 효과

비율 추정치는 일반적으로 분산으로 생성된 왜곡된 신뢰 구간이기 때문에 t 검정과 같은 대칭 검정은 [10]올바르지 않습니다.이러한 신뢰 구간은 왼쪽 신뢰 구간의 크기를 과대 평가하고 오른쪽의 크기를 과소 평가하는 경향이 있습니다.

비율 추정기가 단일 모델(흔히 그렇듯이)인 경우 95% 신뢰 구간에 대한 보수적인 추정은 Vysochanskipet-Petunin 부등식을 사용하여 할 수 있다.

다른 바이어스 감소 방법

비율 추정기의 편견을 줄이거나 제거하는 다른 방법은 표본 추출 방법을 변경하는 것이다.이러한 방법을 사용한 비율의 분산은 이전에 제공된 추정치와 다릅니다.Lohr에서의[13] 설명과 같은 많은 응용 프로그램이 샘플 그룹의 크기와 같은 의 정수만으로 제한되도록 의도되어 있지만, Midzuno-Sen 방법은 적분 여부에 관계없이 모든 양의 수열에서 사용할 수 있습니다.라히리의 방법이 편향된 결과를 반환하기 때문에 효과가 있다는 것이 무엇을 의미하는지는 명확하지 않다.

라히리의 방법

이러한 표본 추출 방법 중 첫 번째는 1951년 [14]라히리에 의해 도입된 표본 추출 방법을 이중으로 사용하는 것이다.이 알고리즘은 Lohr의 [13]설명을 기반으로 합니다.

  1. 숫자 M = max(x1, ..., xN)를 선택합니다. 여기서 N은 모집단 크기입니다.
  2. [1,N]의 균일한 분포에서 i를 랜덤으로 선택합니다.
  3. [1,M]의 균일한 분포에서 k를 랜덤으로 선택합니다.
  4. k xi x일 경우 xi 샘플에 유지됩니다.그렇지 않으면 거부됩니다.
  5. 원하는 샘플 크기를 얻을 때까지 2단계부터 이 과정을 반복합니다.

동일한 샘플 크기에 대해 동일한 절차를 y 변수로 수행합니다.

Lohr에 의해 기술된 Lahiri의 계획은 높은 편향성을 가지고 있으며, 따라서 역사적 이유만으로 흥미롭다.대신 다음에 설명하는 Midzuno-Sen 기술을 권장합니다.

미즈노센법

1952년 Midzuno와 Sen은 독립적으로 [15][16]비율의 편향되지 않은 추정기를 제공하는 표본 추출 방식을 설명했다.

첫 번째 표본은 x 변수 크기에 비례하는 확률로 선택됩니다.나머지 n - 1 샘플은 모집단의 나머지 N - 1 멤버에서 대체되지 않고 무작위로 선택됩니다.이 스킴에서 선택될 확률은 다음과 같습니다.

여기서 X는 N개의 x변수의 합이고 xi 표본의 n개의 성분입니다.그런 다음 이러한 방식으로 선택된 y 변수와 x 변수의 합계의 비율은 비율 추정기의 편향되지 않은 추정치입니다.

기호에는 다음과 같은 것이 있습니다.

여기i xi y는 위에서 설명한 방식에 따라 선택됩니다.

이 체계에 의해 주어진 비율 추정기는 편견이 없다.

Sérndal, Swensson 및 Wretman은 이 방법을[17] 이끈 통찰력에 대해 Lahiri, Midzuno 및 Sen의 공로를 인정하지만, Lahiri의 기술은 매우 편향되어 있다.


기타 비율 추정기

주석(1965)[18]은 빌(1962)[19]과 퀘누이(1956)[20]에 의해 제안된 비율 추정치를 기술하고 비교했으며 수정된 접근법(현재는 주석법)을 제안했다.이러한 비율 추정기는 특히 수질보다 유량이 더 자주 측정되는 경우 수로를 샘플링하여 오염 물질 부하를 계산하는 데 일반적으로 사용됩니다.예를 들어 Quilbe 등, (2006)[21]을 참조한다.


정규 최소 제곱법

x와 y 변수 사이에 선형 관계가 존재하고 회귀 방정식이 원점을 통과하는 경우 회귀 방정식의 추정된 분산은 항상 비율 추정기의[citation needed] 분산보다 작습니다.분산 간의 정확한 관계는 xy 변수 간의 관계의 선형성에 따라 달라집니다. 관계가 선형 관계가 아닌 경우 비율 추정치가 회귀에 의해 추정된 것보다 더 낮은 분산을 가질 수 있습니다.

사용하다

비율 추정기는 여러 가지 설정에서 사용할 수 있지만, 특히 다음과 같은 두 가지 경우에 사용됩니다.

  • 변수 x와 y가 원점을 통해 높은 상관 관계를 가질 때.
  • 조사 방법론에서 분모가 총 모집단 크기를 반영하는 가중치의 합계를 나타내는 가중 평균을 추정할 때 총 모집단 크기는 알려져 있지 않다.

역사

비율 추정기를 최초로 사용한 것은 1662년 영국의 John Grunt가 최초로 y/x 비율을 추정했다. 여기서 y는 총 모집단을 나타내고 x는 전년도 같은 지역에서 알려진 총 출생아 수를 나타낸다.

이후 Messance (~1765)와 Moheau (1778)는 특정 지역의 인구와 출생, 사망, 결혼의 숫자를 바탕으로 매우 신중하게 준비된 프랑스의 추정치를 발표했다.출생 대비 거주자 비율이 결정된 지역은 표본에 불과했습니다.

1802년, 라플라스는 프랑스의 인구를 추산하기를 원했다.인구 조사는 실시되지 않았고 라플라스는 모든 사람을 셀 수 있는 자원이 부족했다.대신 그는 총 거주자 수가 2,037,615명인 30개의 교구를 표본으로 삼았다.교구 세례 등록은 실제 출생아 수를 신뢰할 수 있는 추정치로 간주되었기 때문에 그는 3년 동안 출생아 수를 사용했다.표본 추정치는 이 기간 동안 연간 71,866.333개의 세례교로 28.35명당 1명의 등록 세례교 비율을 보였다.프랑스의 총 세례 등록 건수도 이용할 수 있었고 그는 인구 대비 정상 출생 비율이 일정하다고 가정했다.그리고 나서 그는 표본의 비율을 프랑스의 인구를 추정하기 위해 사용했다.

Karl Pearson은 1897년에 이 비율 추정치가 편파적이라며 사용을 [22]경계했다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Scott AJ, Wu CFJ(1981) 비율 및 회귀 추정기의 점근 분포에 대하여.JASA 76: 98~102
  2. ^ Cochran WG(1977) 샘플링 기법.뉴욕: John Wiley & Sons
  3. ^ a b c Ogliore RC, Huss GR, 나가시마 K(2011) SIMS 분석에서의 비율 추정.물리연구 섹션 B: 빔과 원자의 상호작용
  4. ^ Pascual JN(1961) 계층화 표본 추출 시 편향되지 않은 비율 추정기.JASA 56 (293) : 70 ~87
  5. ^ Beale EML(1962) 운용연구에서의 컴퓨터 사용.인더스트리엘 조직 31: 27-28
  6. ^ a b 주석 M(1965) 일부 비율 추정기 비교.JASA 60 : 294 ~307
  7. ^ 사후 LN(1983년).비율 추정의 바이어스 저감 방법.J Statistics Res 17:1 - 6
  8. ^ Sahoo LN(1987) 모집단 비율에 대한 거의 편견 없는 추정치의 클래스.통계 18: 119-121
  9. ^ a b van Kempen GMP, van Vliet LJ(2000) 형광비 영상에 사용되는 비율 추정기의 평균 및 분산.세포측정법 39:300~305
  10. ^ a b c d Choquet D, L'ecuyer P, Léger C(1999) 기대 비율에 대한 부트스트랩 신뢰 구간.모델링 및 컴퓨터 시뮬레이션에 관한 ACM 트랜잭션 - TOMACS 9 (4) 326-348 doi: 10.1145/35222.352224
  11. ^ Durbin J(1959) 비율 추정에 대한 Quenouille의 바이어스 저감 방법의 적용에 관한 메모.바이오메트리카 46: 477-480
  12. ^ Mickey MR(1959) 일부 유한 모집단 불편 비율 및 회귀 추정기.JASA 54: 596-612
  13. ^ a b Lohr S (2010) 샘플링 - 설계 및 분석 (제2판)
  14. ^ Lahiri DB(1951) 편향되지 않은 비율 추정치를 제공하는 표본 선택 방법.Bull Int Stat Inst 33 : 133 ~140
  15. ^ Midzuno H(1952) 크기 합계에 비례하는 확률로 표본 추출 시스템.Ann Inst Stat 산술 3: 99-107
  16. ^ Sen AR(1952) 확률 표본 추출 현황과 특성 추정에 사용.에코메트리카 20-103
  17. ^ Sérndal, C-E, B Swensson J Wretman(1992) 모델 지원 조사 표본 추출.스프링거, § 7.3.1 (ii)
  18. ^ Tin M(1965).일부 비율 추정기 비교.미국통계학회지, 60(309), 294~307.https://doi.org/10.1080/01621459.1965.10480792
  19. ^ Beale EML(1965년) 운영 연구에 컴퓨터를 일부 사용.인더스트리엘 조직 31:27-8
  20. ^ Quenouille R R Rouseau AN Duchemin M Poulin A Gangbazo G Villeneuve J-P(2006) 하천의 침전물 및 영양소 부하를 추정하기 위한 계산 방법 선택: 뷰리비지 강(캐나다, 큐벡).수문학 저널 326:295-310
  21. ^ 퀼베, R., 루소, A. N., Duchemin, M., Poulin, A., Gangbazo, G. 및 Villenuve, J. P. (2006)하천의 침전물 및 영양소 부하를 추정하기 위한 계산 방법 선택:뷰리비지 강(캐나다 퀘벡)에 적용.수문학 저널, 326(1-4), 295-310.https://doi.org/10.1016/j.jhydrol.2005.11.008
  22. ^ Pearson K(1897) 장기 측정에 지수를 사용할 때 발생할 수 있는 유사 상관 관계 형태.Proc Roy Soc Lond 60 : 498