합동 분산

Pooled variance

통계학에서, 합동 분산(결합 분산, 복합 분산 또는 전체 분산이라고도 하며, \는 각 모집단의 평균이 다를 수 있지만, 각 모집단의 분산은 다음과 같이 가정할 수 있다.e. 이 방법의 사용으로 인한 수치 추정치를 합동 분산이라고도 합니다.

모집단 분산이 동일하다고 가정할 때 합동 표본 분산은 개별 표본 분산보다 더 높은 정밀도 분산 추정치를 제공합니다.이러한 높은 정밀도로 인해 t-검정과 같이 모집단을 비교하는 통계 검정에서 사용할 경우 통계 검정력이 증가할 수 있습니다.

합동 분산 추정기의 제곱근은 합동 표준 편차(결합 표준 편차, 복합 표준 편차 또는 전체 표준 편차라고도 함)라고 합니다.

동기

통계학에서, 많은 경우, 독립 변수 x에 대한 값의 범위에 걸쳐 종속 변수 y에 대한 데이터가 수집된다. 예를 들어, 엔진 부하가 일정하게 유지되는 동안 연료 소비의 관측은 엔진 속도의 함수로 연구될 수 있다.y의 작은 편차를 달성하기 위해 x의 각 값에서 수많은 반복 테스트가 필요한 경우, 테스트 비용이 만만치 않을 수 있습니다.분산의 합리적인 추정치는 특정 x에서 검정을 몇 번만 반복한 후 합동 분산의 원리를 사용하여 확인할 수 있습니다.

정의와 계산

합동 분산은 서로 다른 평균을 갖는 다양한 모집단의 기초가 되는 고정 공통 분산 2^{의 추정치이다.

샘플 세트가 제공되며, 여기서 모집단은 , {{ i

i ({ - ( y- ) 2. \ } { - } \ _ { \ ( { j - { j } - { { }}) { } }

균일한 표본 크기 i {\}=이라고 가정하면 합동 분산 s 평균으로 계산할 수 있습니다.

표본 크기가 동일하지 않은 경우, 합동 s 2 각각의 자유도 w-({}= 사용하여 가중 평균으로 계산할 수 있다(참조 항목:Bessel의 수정):

변종

§의 불편 최소 제곱 추정치(에서 제시한 바와 같이 와 아래의 편향 최대우도 추정치:

는 다양한 [citation needed]컨텍스트에서 사용됩니다.전자는 두 그룹이 동일한 모집단 분산을 공유하는 경우 2 추정하기 위해 되지 않은 s (\ \^{ 제공할 수 있다.후자는 보다 p(\ 하여 2(\ \sigma를 추정할 수 있지만 편중될 수 있다.두 방정식의 오른쪽에 있는 편향되지 않은 추정치입니다.

독립 변수 x의 다양한 수준에서 얻은 y에 대한 다음 데이터 집합을 고려합니다.

x y
1 31, 30, 29
2 42, 41, 40, 39
3 31, 28
4 23, 22, 21, 19, 18
5 21, 20, 19, 18,17

시행 횟수, 평균, 분산 및 표준 편차는 다음 표에 나와 있습니다.

x n y의미하다 si2 si
1 3 30.0 1.0 1.0
2 4 40.5 1.67 1.29
3 2 29.5 4.5 2.12
4 5 20.6 4.3 2.07
5 5 19.0 2.5 1.58

이러한 통계는 x의 다양한 수준에서 데이터의 각 부분 집합에 대한 분산과 표준 편차를 나타냅니다. 만약 동일한 현상이 x의 모든 수준에서 랜덤 오차를 발생시킨다고 가정할 수 있다면, 위의 데이터는 분산과 표준 편차의 단일 추정치를 표현하기 위해 "풀링"될 수 있습니다.어떤 의미에서는 위의 다섯 가지 결과 중에서 평균 분산 또는 표준 편차를 찾는 것을 의미합니다.이 평균 분산은 x의 수준에 대한 부분 집합의 크기로 개별 값에 가중치를 부여하여 계산됩니다.따라서 합동 분산은 다음과 같이 정의됩니다.

여기1 n, n2, ., nk 변수 x의 각 수준에서 데이터 서브셋의 크기이며12 s, s22, ., sk2 각각의 분산입니다.

따라서 위에 표시된 데이터의 합동 분산은 다음과 같습니다.

정밀도에 미치는 영향

합동 분산은 합동 데이터 집합 간에 상관 관계가 있거나 데이터 집합의 평균이 동일하지 않은 경우의 추정치입니다.합동 변동은 상관 관계가 0이 아닐수록 정확도가 떨어지거나 데이터 집합 간의 평균 거리가 멀어집니다.

중복되지 않는 데이터 세트에 대한 데이터 변동은 다음과 같습니다.

여기서 평균은 다음과 같이 정의됩니다.

다음과 같이 정의된 편향된 최대 우도가 주어집니다.

그러면 편향된 최대우도 추정치의 오차는 다음과 같습니다.

N이 다음과 같이 크다고 가정합니다.

그러면 추정치의 오차는 다음과 같이 감소합니다.

또는 다음 중 하나:

표준편차 데이터 집계

다음은 합동 표준 편차를 추정하는 대신, 더 많은 통계 정보를 사용할 수 있을 때 표준 편차를 정확하게 집계하는 방법입니다.

모집단 기반 통계

겹칠 수 있는 집합의 모집단은 다음과 같이 간단히 계산할 수 있습니다.

겹치지 않는 집합의 모집단은 다음과 같이 간단히 계산할 수 있습니다.

각각의 크기(상대적 또는 상대적)와 평균이 알려진 경우 비-상대적 하위 모집단 표준 편차는 다음과 같이 집계될 수 있다.

예를 들어, 평균적인 미국 남성의 평균 키는 70인치이고 표준 편차는 3인치이고 평균적인 미국 여성의 평균 키는 65인치이고 표준 편차는 2인치라고 가정합니다.또한 남성의 수 N과 여성의 수가 같다고 가정합니다.그러면 미국 성인의 키의 평균과 표준 편차는 다음과 같이 계산될 수 있습니다.

M개의 비연결 모집단(X1 ~ XM)과 총 X X i { X , = , \ { X { i }

μ X)∑ 나는 NX나는 나는 나는 NX나는 σ X)∑ 나는 NX나는 σ X나는 2∑ 나는 NX나는 ∑ 나는 < +, j NX나는 NXj(Xμ 나는μ Xj−)2(∑ 나는 NX나는)2{\displaystyle{\begin{정렬}\m ∑ Xμ.u_i}}\_{}}{\sum_{}&={\{x}{x}{x}_i}{{x_i}}{\}}{{\sigma}}}}}}{{{\sigma}}}}}}

어디에

겹치는 두 모집단의 크기(실제 또는 서로 상대적인), 평균 및 표준 편차가 해당 교차점과 함께 모집단에 대해 알려진 경우 전체 모집단의 표준 편차는 다음과 같이 계산할 수 있습니다.

두 개 이상의 데이터 세트가 데이터 포인트별로 함께 추가되는 경우 각 데이터 세트의 표준 편차와 각 데이터 세트 쌍 간의 공분산을 알면 결과의 표준 편차를 계산할 수 있습니다.

데이터 세트 쌍 사이에 상관 관계가 없는 특수한 경우 관계가 제곱근 합계로 감소합니다.

샘플 기반 통계

각각의 실제 크기와 평균이 알려진 경우, 비-중첩(X y Y = )) 서브-중첩의 표준 편차는 다음과 같이 집계할 수 있다.

일반적인 경우 M개의 비연속 데이터 세트1 X ~ XM 및 집계 데이터 X i { X , = , \ _ { } _ {i ,

어디에

겹치는 두 표본의 크기, 평균 및 표준 편차를 표본과 교차점에 대해 알고 있는 경우에도 집계 표본의 표준 편차를 계산할 수 있습니다.일반적으로는

「 」를 참조해 주세요.

레퍼런스

  • Killeen PR (May 2005). "An alternative to null-hypothesis significance tests". Psychol Sci. 16 (5): 345–53. doi:10.1111/j.0956-7976.2005.01538.x. PMC 1473027. PMID 15869691.

외부 링크