패널 데이터
Panel data통계학 및 계량경제학에서 패널 데이터와 세로 데이터는[1][2] 모두 시간에 따른 측정을 수반하는 다차원 데이터입니다.패널 데이터는 관측치가 매번 동일한 피실험자에 대한 부분 집합입니다.
시계열 및 단면 데이터는 한 차원(전자의 경우 패널 부재 하나 또는 개별, 후자의 경우 시점 하나)에만 있는 패널 데이터의 특수한 경우로 간주할 수 있습니다.
패널 데이터를 사용하는 스터디를 세로 스터디 또는 패널 스터디라고 합니다.
예
| 사람인 | 연도 | 소득. | 나이 | 섹스. |
|---|---|---|---|---|
| 1 | 2016 | 1300 | 27 | 1 |
| 1 | 2017 | 1600 | 28 | 1 |
| 1 | 2018 | 2000 | 29 | 1 |
| 2 | 2016 | 2000 | 38 | 2 |
| 2 | 2017 | 2300 | 39 | 2 |
| 2 | 2018 | 2400 | 40 | 2 |
| 사람인 | 연도 | 소득. | 나이 | 섹스. |
|---|---|---|---|---|
| 1 | 2016 | 1600 | 23 | 1 |
| 1 | 2017 | 1500 | 24 | 1 |
| 2 | 2016 | 1900 | 41 | 2 |
| 2 | 2017 | 2000 | 42 | 2 |
| 2 | 2018 | 2100 | 43 | 2 |
| 3 | 2017 | 3300 | 34 | 1 |
위의 다중 응답 순열 절차(MRPP) 예에서는 패널 구조의 두 데이터 세트가 표시되며, 목적은 표본 데이터의 사람 간에 유의한 차이가 있는지 여부를 테스트하는 것입니다.개인 특성(소득, 연령, 성별)은 개인과 연도에 따라 수집된다.첫 번째 데이터 집합에서는 3년(2016, 2017, 2018) 동안 매년 2명(1, 2)이 관찰된다.두 번째 데이터 집합에서는 3년(2016년, 2017년, 2018년)에 걸쳐 각각 2회(1명), 3회(2명), 1회(3명)가 관찰되며, 특히 2018년에는 1명, 2016년 또는 2018년에는 3명이 관찰되지 않는다.
밸런스 패널(위의 첫 번째 데이터 세트)은 각 패널 멤버(즉, 사람)가 매년 관찰되는 데이터 세트입니다.따라서 평형 패널에 N개의 패널 멤버와 T주기가 포함되어 있다면 데이터 집합의 관측치 수 n은 반드시 n = N×T이다.
언밸런스 패널(위의 두 번째 데이터 세트 등)은 매 주기마다 최소 1개의 패널 멤버가 관찰되지 않는 데이터 세트입니다.따라서 불균형 패널에 N개의 패널 멤버와 T주기가 포함된 경우 데이터 집합의 관측치 수 n에 대해 다음과 같은 엄격한 부등식이 유지된다. n < N×T
위의 두 데이터 집합은 모두 한 행에 한 개의 관측치가 저장되는 긴 형식으로 구성됩니다.패널 데이터를 구조화하는 또 다른 방법은 한 행이 모든 시점의 하나의 관측 단위를 나타내는 넓은 형식(예: 넓은 형식에는 각 시변 변수(소득, 연령)에 대한 추가 열이 있는 두 개(예: 첫 번째 예) 또는 세 개(예: 두 번째 예)의 데이터 행만 있을 수 있음)이다.
분석.
패널에는 다음 형식이 있습니다.
서 ii는 개별 이고 tt는 시간 차원입니다.일반 패널 데이터 회귀 모델은 i + + . { y { } \ \ ' _ {} + _ {} 일반 모델의 정확한 구조에 대해 다른 가정을 할 수 있습니다.두 가지 중요한 모형은 고정 효과 모형과 랜덤 효과 모형입니다.
일반적인 패널 데이터 모델을 고려합니다.
i _는 시간 경과에 따라 고정되는 개인 고유의 시간 의존적 효과(예를 들어 지리, 기후 등을 포함할 수 있는 국가 패널)인 t})는 시간 경과에 따른 랜덤 구성요소이다.
i \ \ _ { 가 관측되지 않고 적어도 하나의 독립 변수와 상관되어 있는 표준 OLS 회귀 분석에서 누락된 변수 바이어스가 발생합니다.단, 고정효과 추정기 또는 제1차차 추정기와 같은 패널 데이터 방법을 사용하여 제어할 수 있다.
i \ _가 독립 변수와 상관관계가 없는 일반적인 최소 제곱 선형 회귀법을 사용하여 편향되지 않고 일관된 회귀 모수의 추정치를 산출할 수 있다.단, i \ \ { i}는 시간이 지남에 따라 고정되므로 의 오차항으로 직렬 상관관계가 유도됩니다.즉, 보다 효율적인 추정 기법을 사용할 수 있습니다.랜덤 효과는 그러한 방법 중 하나입니다.이것은 실현 가능한 일반화 최소 제곱의 특수한 경우이며, i \ \_ { 에 유도되는 직렬 상관의 구조를 제어합니다.
동적 패널 데이터
동적 패널 데이터는 종속 변수의 지연이 회귀 분석기로 사용되는 경우를 설명합니다.
지연 종속 변수의 존재는 엄격한 외부성을 위반합니다. 즉, 내생성이 발생할 수 있습니다.고정 효과 추정기와 첫 번째 차이 추정기는 둘 다 엄격한 외부 동질성의 가정에 의존합니다.따라서 가 독립 변수 중 하나와 상관관계가 있다고 판단될 대체 추정 기법을 사용해야 한다.아렐라노-본드 추정기와 같은 계측 변수 또는 GMM 기법이 이 상황에서 일반적으로 사용된다.
패널 설계를 가진 데이터 세트
- 러시아 종적 감시 조사(RLMS)
- 독일 사회경제 패널(SOEP)
- 호주의 가계, 소득 및 노동 역학 조사(HILDA)
- 영국 가구 패널 조사(BHPS)
- 가족소득 및 고용조사(SoFIE)
- 소득 및 프로그램 참여 조사(SIPP)
- 평생 노동시장 데이터베이스(LLMDB)
- 사회과학을 위한 종적 인터넷 연구(LISS)
- 소득동태패널연구(PSID)
- 한국노동소득패널연구(KLIPS)
- 중국 패밀리 패널 연구(CFPS)
- 독일어 패밀리 패널(페어팜)
- 국가 종적 조사(NLSY)
- 노동력 조사(LFS)
- 한국청소년패널(YP)
- 한국노화경로연구(KLoSA)
다차원 패널 설계를 가진 데이터 세트
메모들
- ^ Diggle, Peter J.; Heagerty, Patrick; Liang, Kung-Yee; Zeger, Scott L. (2002). Analysis of Longitudinal Data (2nd ed.). Oxford University Press. p. 2. ISBN 0-19-852484-6.
- ^ Fitzmaurice, Garrett M.; Laird, Nan M.; Ware, James H. (2004). Applied Longitudinal Analysis. Hoboken: John Wiley & Sons. p. 2. ISBN 0-471-21487-6.
레퍼런스
- Baltagi, Badi H. (2008). Econometric Analysis of Panel Data (Fourth ed.). Chichester: John Wiley & Sons. ISBN 978-0-470-51886-1.
- Davies, A.; Lahiri, K. (1995). "A New Framework for Testing Rationality and Measuring Aggregate Shocks Using Panel Data". Journal of Econometrics. 68 (1): 205–227. doi:10.1016/0304-4076(94)01649-K.
- Davies, A.; Lahiri, K. (2000). "Re-examining the Rational Expectations Hypothesis Using Panel Data on Multi-Period Forecasts". Analysis of Panels and Limited Dependent Variable Models. Cambridge: Cambridge University Press. pp. 226–254. ISBN 0-521-63169-6.
- Frees, E. (2004). Longitudinal and Panel Data: Analysis and Applications in the Social Sciences. New York: Cambridge University Press. ISBN 0-521-82828-7.
- Hsiao, Cheng (2003). Analysis of Panel Data (Second ed.). New York: Cambridge University Press. ISBN 0-521-52271-4.