톱 코드
Top-coded계량경제학 및 통계학에서 상위 코드화된 데이터 관측치는 값이 상한보다 큰 데이터 점을 관측 중단하는 데이터 관측치입니다.
설문 데이터는 응답자의 익명성을 유지하기 위해 일반에 공개하기 전에 종종 토픽으로 분류된다.예를 들어, 한 조사 답변이 790억 달러의 재산을 가진 응답자를 보고했다면, 사람들은 그 응답자가 빌 게이츠일 가능성이 충분하다는 것을 알 것이기 때문에 익명은 아닐 것이다.또, 에러 가능성이 있는 이상치가 공개되는 것을 막기 위해서도, 톱 코드를 적용할 수 있습니다.
예를 들어 0 미만의 양이 0으로 보고되는 경우 하단 코드도 유사합니다.상위 코드는 그룹에 기록된 데이터에 대해 발생합니다. 예를 들어 0-20, 21-50, 50-99, 100-up 등의 그룹에서 연령 범위가 보고되는 경우 발생합니다.여기에서는 100세 이상 인구가 몇 명인지만 알 수 있고 분포는 알 수 없습니다.조사 데이터의 생산자는 사용자가 상위 그룹의 편향되지 않은 추정치를 귀속하는 데 도움이 되도록 관측 중단 금액의 평균을 공개하기도 합니다.
예:소득 상위 코드 3만 달러
| 아이디 | 나이 | 실제 재산 | 데이터 집합의 부 변수 |
|---|---|---|---|
| 1 | 26 | 24,778 | 24,778 |
| 2 | 32 | 26,750 | 26,750 |
| 3 | 45 | 26,780 | 26,780 |
| 4 | 64 | 35,469 | 30000+ |
| 5 | 27 | 43,695 | 30000+ |
탑 코딩은 공용 데이터 세트를 분석하는 일반적인 문제입니다.현재 인구조사의 상위 코드는 고소득 분포의 형태가 차단되어 있기 때문에 소득 불평등의 척도를 추정하기 어렵게 한다.이 문제를 해결하기 위해 CPS는 최상위 코드 [1]값의 평균 값을 제공합니다.
소득자의 익명성을 보호하기 위해 신고된 세금 신고의 최고 가치를 상위에 코드화하거나 제한하는 관행은 미국 [2]내 부의 분배 분석을 복잡하게 만든다.
정규 최소 제곱 추정에 대한 영향
- 최상위 코드화된 그룹의 하한을 회귀 값(위의 예에서는 30000)으로 사용하는 경우 회귀 그룹의 최고값이 시스템 오류로 보고되므로 OLS는 편향되고 일관성이 없습니다.
- 상위 코드화된 관측치는 회귀 분석에서 완전히 생략할 수 있습니다.생략된 그룹과 포함된 그룹 사이에 체계적인 차이가 없는 한, OLS는 일관되고 편향되지 않습니다.
- Tobit 절차는 상위 코딩에 강력하며 편향되지 않은 추정치를 제공합니다.
「 」를 참조해 주세요.
추가 정보
- Jenkins, S. P., Burkhauser, R. V., Feng, S. 및 Larrimore, J. (2009)검열 데이터를 사용한 불평등 측정: 다중 귀속 접근법, ISER Working Paper Series 2009-04, 사회경제연구기관.
레퍼런스
- ^ 래리모어, 제프, 리처드 5세버크하우저, 슈아이장 펑, 로라 자야츠입니다2008. 공공 사용 3월 CPS에서 상위 소득에 대한 일관된 셀 수단(1976-2007)경제·사회 측정 저널 33 (2-3)
- ^ Hacker, Jacob S. and Paul Pierson (2010). Winner-Take-All Politics: How Washington Made the Rich Richer--And Turned Its Back on the Middle Class. Simon & Schuster. pp. 13. ISBN 978-1-4165-8869-6.