톱 코드

Top-coded

계량경제학통계학에서 상위 코드화된 데이터 관측치는 값이 상한보다 큰 데이터 점을 관측 중단하는 데이터 관측치입니다.

설문 데이터는 응답자의 익명성을 유지하기 위해 일반에 공개하기 전에 종종 토픽으로 분류된다.예를 들어, 한 조사 답변이 790억 달러의 재산을 가진 응답자를 보고했다면, 사람들은 그 응답자가 게이츠일 가능성이 충분하다는 것을 알 것이기 때문에 익명은 아닐 것이다.또, 에러 가능성이 있는 이상치가 공개되는 것을 막기 위해서도, 톱 코드를 적용할 수 있습니다.

예를 들어 0 미만의 양이 0으로 보고되는 경우 하단 코드도 유사합니다.상위 코드는 그룹에 기록된 데이터에 대해 발생합니다. 예를 들어 0-20, 21-50, 50-99, 100-up 등의 그룹에서 연령 범위가 보고되는 경우 발생합니다.여기에서는 100세 이상 인구가 몇 명인지만 알 수 있고 분포는 알 수 없습니다.조사 데이터의 생산자는 사용자가 상위 그룹의 편향되지 않은 추정치를 귀속하는 데 도움이 되도록 관측 중단 금액의 평균을 공개하기도 합니다.

예:소득 상위 코드 3만 달러

아이디 나이 실제 재산 데이터 집합의 부 변수
1 26 24,778 24,778
2 32 26,750 26,750
3 45 26,780 26,780
4 64 35,469 30000+
5 27 43,695 30000+

탑 코딩은 공용 데이터 세트를 분석하는 일반적인 문제입니다.현재 인구조사의 상위 코드는 고소득 분포의 형태가 차단되어 있기 때문에 소득 불평등의 척도를 추정하기 어렵게 한다.이 문제를 해결하기 위해 CPS는 최상위 코드 [1]값의 평균 값을 제공합니다.

소득자의 익명성을 보호하기 위해 신고된 세금 신고의 최고 가치를 상위에 코드화하거나 제한하는 관행은 미국 [2]내 부의 분배 분석을 복잡하게 만든다.

정규 최소 제곱 추정에 대한 영향

  • 최상위 코드화된 그룹의 하한을 회귀 값(위의 예에서는 30000)으로 사용하는 경우 회귀 그룹의 최고값이 시스템 오류로 보고되므로 OLS는 편향되고 일관성이 없습니다.
  • 상위 코드화된 관측치는 회귀 분석에서 완전히 생략할 수 있습니다.생략된 그룹과 포함된 그룹 사이에 체계적인 차이가 없는 한, OLS는 일관되고 편향되지 않습니다.
  • Tobit 절차는 상위 코딩에 강력하며 편향되지 않은 추정치를 제공합니다.

「 」를 참조해 주세요.

추가 정보

  • Jenkins, S. P., Burkhauser, R. V., Feng, S. 및 Larrimore, J. (2009)검열 데이터를 사용한 불평등 측정: 다중 귀속 접근법, ISER Working Paper Series 2009-04, 사회경제연구기관.

레퍼런스

  1. ^ 래리모어, 제프, 리처드 5세버크하우저, 슈아이장 펑, 로라 자야츠입니다2008. 공공 사용 3월 CPS에서 상위 소득에 대한 일관된 셀 수단(1976-2007)경제·사회 측정 저널 33 (2-3)
  2. ^ Hacker, Jacob S. and Paul Pierson (2010). Winner-Take-All Politics: How Washington Made the Rich Richer--And Turned Its Back on the Middle Class. Simon & Schuster. pp. 13. ISBN 978-1-4165-8869-6.