생태학적 오류

Ecological fallacy

생태학적 오류(생태학적 추론[1] 오류 또는 모집단 오류)는 개인이 속한 집단에 대한 추론으로부터 개인의 본질에 대한 추론을 추론할 때 발생하는 통계 데이터의 해석에 대한 형식적 오류이다.'생태학적 오류'는 때때로 나눗셈의 오류를 설명하기 위해 사용되는 용어로, 통계적 오류는 아니다.4가지 일반적인 통계 생태학적 오류는 생태학적 상관관계와 개별 상관관계 사이의 혼란, 집단 평균과 총 평균 사이의 혼란, 심슨의 역설, 그리고 더 높은 평균과 더 높은 가능성 사이의 혼란이다.

평균 및 중위수

생태학적 오류의 한 예는 개인의 가능성을 고려할 때 모집단 평균이 단순한 해석을 가지고 있다는 가정입니다.

예를 들어, 그룹의 평균 점수가 0보다 크다면, 이는 해당 그룹의 무작위 개인이 음수보다 양수 점수를 가질 가능성이 더 높다는 것을 의미하지 않는다(양수 점수보다 음수 점수가 더 많은 한 개인이 음수 점수를 가질 가능성이 더 높다).마찬가지로, 만약 특정 그룹의 평균 IQ가 일반 모집단보다 낮은 것으로 측정된다면, 무작위로 선택된 그룹의 구성원이 일반 모집단의 평균 IQ보다 낮은 IQ를 가질 가능성이 더 높다고 결론짓는 것은 오류이다. 또한 무작위로 선택된 그룹의 구성원이 반드시 i 그룹의 평균 IQ보다 낮은 것은 아니다.무작위로 선택된 일반 모집단의 구성원보다 낮은 IQ를 가질 가능성이 높습니다.수학적으로, 이는 분포가 양수이지만 음수 중위수를 가질 수 있다는 사실에서 비롯됩니다.이 속성은 [citation needed]분포의 왜도와 연결되어 있습니다.

다음 수치 예를 생각해 보겠습니다.

  • 그룹 A: 80퍼센트의 사람들이 40점을 받았고 20%가 95점을 받았습니다.평균 점수는 51점입니다.
  • B그룹: 50퍼센트의 사람들이 45점을 받았고 50퍼센트는 55점을 받았습니다.평균 점수는 50점입니다.
  • A와 B에서 무작위로 두 사람을 선택하면 4가지 결과가 나타납니다.
    • A – 40, B – 45 (B 승률 40 % - 0.8 × 0.5)
    • A – 40, B – 55 (B 승률 40 % - 0.8 × 0.5)
    • A – 95, B – 45 (A가 승리, 10% 확률– 0.2 × 0.5)
    • A – 95, B – 55 (A가 승리, 10% 확률– 0.2 × 0.5)
  • 그룹 A의 평균 점수는 더 높지만 80%의 경우 A의 랜덤 개체는 B의 랜덤 개체보다 더 낮은 점수를 받습니다.

개별 상관 관계 및 집계 상관 관계

에밀 더크하임으로 거슬러 올라가는 연구는 개신교 지역이 가톨릭 [2]지역보다 자살률이 높다는 것을 보여준다.프리드먼에 [3]따르면, 더크하임의 발견이 개인의 수준에서 개인의 종교와 자살 위험을 연결시킨다는 생각은 생태학적 오류의 한 예이다.그룹 수준의 관계는 개인 수준의 관계를 자동으로 특성화하지 않습니다.

마찬가지로 개인 차원에서도 부가 공화당에 투표하는 경향과 긍정적으로 관련되어 있다고 해도, 우리는 부유한 주가 민주당에 투표하는 경향이 있다는 것을 관찰한다.예를 들어, 2004년에 공화당 후보인 조지 W. 부시는 가장 가난한 15개 주에서 승리했고, 민주당 후보인 존 케리는 가장 부유한 11개 주 중 9개 주에서 승리했다.그러나 연소득 20만 달러 이상의 유권자 중 62%가 부시에게 투표했지만, 연소득 15,000 달러 이하의 유권자 중 36%만이 [4]부시에게 투표했다.투표 선호도가 개인의 부를 통제한 후에도 국가의 총 부에 의해 영향을 받는다면, 집계 수준의 상관관계는 개인 수준의 상관관계와 다를 것이다.투표 선호의 진정한 원동력은 스스로 인지하는 상대적 부일 수 있다; 아마도 그들 자신이 이웃보다 더 잘 산다고 생각하는 사람들은 공화당에 투표할 가능성이 더 높다.이 경우, 개인은 그녀가 부유해지면 공화당에 투표할 가능성이 더 높지만, 이웃의 재산이 증가하면 민주당에게 투표할 가능성이 더 높아진다.

그러나, 주 단위와 개인 단위의 부에 근거한 투표 습관의 차이는 위에서 논의한 바와 같이 더 높은 평균과 더 높은 가능성 사이의 공통적인 혼란으로 설명될 수 있다.국가는 더 많은 부유한 사람들을 포함하기 때문에 더 부유해지는 것이 아니라, 오히려 그들이 소수의 슈퍼 부자들을 포함하기 때문에 더 부유해질 수 있다; 그러면 생태학적 오류는 부유한 주에 있는 사람들이 더 부유해질 가능성이 있다고 잘못 가정하는 데서 비롯된다.

생태학적 오류의 많은 예는 종종 다른 수준의 분석과 시사점을 결합하는 소셜 네트워크의 연구에서 찾을 수 있다.이것은 [5]수마트라 농가의 네트워크에 관한 학술논문에 나타나 있다.

로빈슨의 역설

윌리엄 S의 1950년 논문.로빈슨은 1930년 인구 조사 당시 [6]각 주와 콜롬비아 특별구의 문맹률과 미국 밖에서 태어난 인구의 비율을 계산했다.그는 이 두 수치가 -0.53의 음의 상관관계와 연관되어 있음을 보여주었다. 즉, 한 주에서 이민자 비율이 높을수록 평균 문맹률이 낮아진다(또는 동등하게 평균 문맹률이 높아진다).그러나, 개인을 고려할 때, 문맹과 출생의 상관관계는 +0.12였다(이민자는 평균적으로 원주민보다 문맹이 많았다).로빈슨은 주 인구 수준에서 음의 상관관계가 이민자들이 원주민 인구가 더 문맹인 주에 정착하는 경향이 있기 때문이라는 것을 보여주었다.그는 개체군 수준, 즉 "생태학적" 데이터를 근거로 개인에 대한 결론을 추론하지 말라고 경고했다.2011년, 로빈슨의 생태적 상관관계 계산은 잘못된 주 수준의 데이터에 근거하고 있다는 것이 밝혀졌다.위에서 언급한 -0.53의 상관관계는 사실 -0.[7]46입니다.로빈슨의 논문은 매우 중요했지만, '생태학적 오류'라는 용어는 1958년 셀빈에 [8]의해 만들어지지 않았다.

형식상의 문제

총량(또는 생태학적 상관관계)의 상관관계는 개별 수량의 상관관계와 동일하지 않다.X, Yi 개별i 수준에서 두 개의 양을 나타냅니다.크기가 N인 그룹에서 집계 수량의 공분산 공식은 다음과 같습니다.

집계된 두 변수의 공분산은 동일한 개체 내에서 두 변수의 공분산뿐만 아니라 서로 다른 개체 간의 변수 공분산에도 의존합니다.즉, 집계 변수의 상관관계는 개별 수준에서 관련이 없는 단면적 효과를 고려한다.

상관관계 문제는 집계 변수에 대한 회귀 문제를 수반한다. 따라서 상관관계 오류는 인과적 영향을 측정하고자 하는 연구자에게 중요한 문제이다. Yi Y_})가 스타일 X_})의 영향을 받는 회귀 모델부터 시작합니다.

집계 수준의 회귀 모델은 개별 방정식을 합산하여 구합니다.

회귀와 오류가 집약 수준에서 상관되는 것을 막을 수 있는 것은 없습니다.따라서 일반적으로 집계 데이터에 대해 회귀 분석을 실행하는 것은 개별 데이터에 대해 회귀 분석을 실행하는 것과 동일한 모형을 추정하지 않습니다.

집약 모델은 다음과 같은 경우에만 정확합니다.

즉, k _ 제어는 하지 않습니다.

집계 및 개별 추론 중 선택

애그리게이트 모델에 관심이 있는 경우 애그리게이트 데이터에 대해 회귀를 실행해도 문제가 없습니다.예를 들어, 주지사의 경우, 경찰력 증대의 정책적 의미에 관심이 있다면 주 차원에서 경찰력 간의 범죄율 퇴행을 실행하는 것이 옳다.그러나 시의회가 주정부 차원의 상관관계에서 도시 차원의 범죄율 증가에 미치는 영향을 추론한다면 생태학적 오류가 발생할 수 있다.

정책에 대한 종합적인 영향을 파악하기 위해 집계 또는 개별 회귀를 실행할지 여부는 다음과 같은 단점에 따라 결정됩니다. 집계 회귀는 개별 수준의 데이터를 손실하지만 개별 회귀는 강력한 모델링 가정을 추가합니다.일부 연구자들은 생태적 상관관계가 공공 정책 조치의 결과를 더 잘 보여주므로, 이러한 목적을 위해 개별 수준 상관에 대한 생태적 상관관계를 권장한다(루빈스키 & 험프리스, 1996).특히 수준 간의 관계가 명확하게 모형화되지 않은 경우 다른 연구자들은 동의하지 않습니다.생태학적 오류를 방지하기 위해, 개별 데이터가 없는 연구자들은 먼저 개인 수준에서 일어나는 일을 모델링하고, 그 후 개인과 그룹 수준에서 어떻게 관련이 있는지 모델링하고, 마지막으로 그룹 수준에서 일어나는 일이 관계에 대한 이해를 증가시키는지 검토할 수 있습니다.예를 들어, 주 정책의 영향을 평가할 때, 주마다 정책 영향이 정책 자체보다 덜 다르다는 것을 아는 것이 도움이 되며, 이는 높은 생태적 상관관계에도 불구하고 정책 차이가 결과로 잘 변환되지 않음을 시사한다(Rose, 1973).

그룹 및 총 평균

생태학적 오류는 또한 다음과 같은 오류를 언급할 수 있습니다: 한 집단의 평균은 전체 인구의 평균을 그룹 크기로 나눈 값으로 근사됩니다.미국의 개신교 신자의 수와 자살률은 알 수 있지만 종교와 자살을 개인 차원에서 연관짓는 데이터는 없다고 가정해 보자.개신교 자살률에 관심이 있다면 총 자살률을 개신교 수로 나눈 것으로 추정하는 것은 잘못이다.형식적으로는 P[ 개신교.\ PtextSouthelf 평균은 보통 다음과 .

그러나, 총 확률의 법칙은 다음과 같다.

P[ 자살 P Protestant 0과 1 사이이며, 이 방정식은 P Protestant]{\ P 경계를 나타냅니다.South입니다

심슨의 역설

눈에 띄는 생태학적 오류는 심슨의 역설이다: 두 개체군을 그룹으로 나눌 때, 첫 번째 개체군의 일부 변수의 평균은 모든 집단에서 더 높을 수 있고 전체 개체군에서는 더 낮을 수 있다는 사실이다.공식적으로, Z의 각 값이 다른 그룹을 참조하고 X가 일부 처리를 참조할 때, 다음과 같은 현상이 발생할 수 있습니다.

[ Z , X - [ Z , { E [ \ Z , X=]- \ Z , X=] - E Y \ Z = z , X = 0 Z에 하지 않습니다.\Z는 사용하는 값별로 그룹을 정의하는 범주형 변수입니다모수가 반대 기호를 가질 정도로 치우침이 높기 때문에 응용 프로그램이 두드러집니다.

법률 응용 프로그램

생태학적 오류는 2004년 워싱턴 주지사 선거에 대한 재판에서 논의되었는데, 선거 후 다수의 불법 투표자들이 확인되었습니다. 투표는 비밀 투표로 이루어졌기 때문에 그들의 투표는 알려지지 않았습니다.도전자들은 불법 투표가 그들이 투표했던 선거구의 투표 패턴을 따라 했을 것이고 따라서 조정이 [9]이루어져야 한다고 주장했다. 목격자는 시애틀 매리너스 팀 전체의 타율을 보고 이치로의 타율을 파악하려는 것 같다고 말했다.왜냐하면 불법 투표는 각 선거구 유권자의 대표성이 없는 표본에 의해 이뤄졌기 때문이다.다른 [10]팀원들도요판사는 도전자들의 주장이 생태학적 오류라고 판단하고 [11]기각했다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Charles Ess; Fay Sudweeks (2001). Culture, technology, communication: towards an intercultural global village. SUNY Press. p. 90. ISBN 978-0-7914-5015-4. The problem lies with the 'ecological fallacy' (or fallacy of division)—the impulse to apply group or societal level characteristics to individuals within that group.
  2. ^ Durkheim, (1951/1897).자살: 사회학 연구.번역: John A.스폴딩과 조지 심슨.뉴욕:프리 프레스ISBN 0-684-83632-7.
  3. ^ 프리맨, D. A.(1999년)생태학적 추론과 생태학적 오류.국제사회행동과학백과사전, 테크니컬리포트 No. 549호.https://web.stanford.edu/class/ed260/freedman549.pdf
  4. ^ Gelman, Andrew; Park, David; Shor, Boris; Bafumi, Joseph; Cortina, Jeronimo (2008). Red State, Blue State, Rich State, Poor State. Princeton University Press. ISBN 978-0-691-13927-2.
  5. ^ Matous, Petr (2015). "Social networks and environmental management at multiple levels: soil conservation in Sumatra". Ecology and Society. 20 (3): 37. doi:10.5751/ES-07816-200337.
  6. ^ Robinson, W.S. (1950). "Ecological Correlations and the Behavior of Individuals". American Sociological Review. 15 (3): 351–357. doi:10.2307/2087176. JSTOR 2087176.
  7. ^ 이 기이한 데이터 결함에 대한 연구 노트 TeGrotenhuis, 만프레트;Eisinga, 롭;Subramanian, S.V.(2011년)에 게재된다."로빈슨의 생태 Correlations과 개인들의 거동:방법론적 수정".Int JEpidemiol.40(4):1123–1125. doi:10.1093/ije/dyr081.PMID 21596762.로빈슨과 교정한http://www.ru.nl/mt/rob/downloads/에서 살 수 있어 사용되는 데이터입니다.
  8. ^ Selvin, Hanan C. (1958). "Durkheim's Suicide and Problems of Empirical Research". American Journal of Sociology. 63 (6): 607–619. doi:10.1086/222356. S2CID 143488519.
  9. ^ George Howland Jr. (May 18, 2005). "The Monkey Wrench Trial: Dino Rossi's challenge of the 2004 election is on shaky legal ground. But if he prevails, watch litigation become an option in close races everywhere". Seattle Weekly. Archived from the original on December 1, 2008. Retrieved December 17, 2008.
  10. ^ Christopher Adolph(2005년 5월 12일)."2004년 워싱턴 주지사 선거에 관한 보고서"전문가 목격자는 국경 등 대 킹 카운티 등의 첼란 카운티 상급법원에 보고한다.
  11. ^ 보더스 등 대 킹 카운티 등2008-10-18 Wayback Machine 아카이브, 2005년 6월 6일 Chelan County 상급법원 판사 John Bridges에 의한 판결문, 2005년 6월 8일 발행:

추가 정보