결측 데이터

Missing data

통계에서 결측 데이터 또는 결측값관측치변수에 대한 데이터 값이 저장되지 않을 때 발생합니다.결측 데이터는 흔히 발생하는 현상이며 데이터에서 도출할 수 있는 결론에 유의한 영향을 미칠 수 있습니다.

누락 데이터는 응답이 없기 때문에 발생할 수 있습니다. 하나 이상의 항목 또는 전체 단위("제목")에 대한 정보가 제공되지 않습니다.일부 항목은 다른 항목보다 무응답이 발생할 가능성이 높다. 예를 들어 소득과 같은 민간 주제에 대한 항목이다.마모는 종적 연구에서 발생할 수 있는 누락의 한 유형입니다. 예를 들어, 특정 시간 후 측정이 반복되는 개발을 연구하는 것입니다.결측값은 참가자들이 테스트가 끝나기 전에 탈락하고 하나 이상의 측정값이 결측될 때 발생합니다.

정부나 민간단체가 중요한 통계를 보고하지 않거나 [1]보고하지 않거나 정보를 이용할 수 없기 때문에 경제, 사회학정치학 연구에서 데이터가 누락되는 경우가 많다.데이터 수집이 부적절하게 수행되거나 데이터 [2]입력에서 오류가 발생한 경우 등 경우에 따라 결측값이 연구원에 의해 발생할 수 있습니다.

이러한 형태의 누락은 연구 결과 결론의 타당성에 다른 영향을 미치며 다양한 유형을 취합니다. 즉, 완전히 무작위로 누락되고, 무작위로 누락되지 않으며, 무작위로 누락되지 않습니다.결측 데이터는 관측 중단 데이터와 유사하게 처리할 수 있습니다.

종류들

나머지 데이터를 올바르게 처리하려면 데이터가 누락된 이유를 이해하는 것이 중요합니다.값이 랜덤하게 완전히 결측된 경우 데이터 표본은 여전히 모집단을 대표할 수 있습니다.그러나 값이 체계적으로 누락되면 분석이 편향될 수 있습니다.예를 들어, IQ와 소득의 관계에 대한 연구에서, IQ가 평균보다 높은 참가자가 "당신의 급여는?"라는 질문을 건너뛰는 경향이 있는 경우, 무작위로 누락된 것을 고려하지 않은 분석(MAR 패턴(아래 참조)은 IQ와 급여 사이의 긍정적인 연관성을 잘못 찾아내지 못할 수 있습니다.이러한 문제 때문에 방법론자들은 정기적으로 연구자들에게 [2]결측값의 발생을 최소화하기 위한 연구를 설계하라고 조언한다.그래픽 모델을 사용하여 누락된 데이터 메커니즘을 [3][4]자세히 설명할 수 있습니다.

그래프는 모집단에서 예상되는 우울증 강도의 추정치에 대한 확률 분포를 보여 줍니다.건수는 60건입니다.실제 모집단을 표준화된 정규 분포로 하고 무반응 확률을 우울증 강도의 로지스틱 함수로 합니다.결론은 다음과 같습니다.결측 데이터가 많을수록(MNAR) 추정치가 더 치우치게 됩니다.우리는 인구의 우울증의 강도를 과소평가한다.

무작위로 완전히 누락됨

특정 데이터 항목이 누락되도록 하는 사건이 관측 가능한 변수와 관측할 수 없는 관심 매개 변수 모두에 독립적이고 완전히 [5]랜덤하게 발생하는 경우 데이터 집합의 값은 랜덤으로 완전히 누락됩니다.데이터가 MCAR인 경우 데이터에 대해 수행된 분석은 치우치지 않지만 데이터가 MCAR인 경우는 거의 없습니다.

MCAR의 경우, 데이터의 누락은 연구 변수와 무관하다. 따라서 완전히 관측된 데이터를 가진 참가자는 사실상 특정 개입이 할당된 모든 참가자의 무작위 표본이다.MCAR을 사용하면 치료제의 무작위 할당이 보존되는 것으로 가정되지만,[6] 이는 일반적으로 현실에서 비현실적으로 강한 가정이다.

랜덤으로 누락됨

랜덤 결측값(MAR)은 결측값이 랜덤값이 아니라 완전한 [7]정보가 있는 변수에 의해 결측값을 완전히 설명할 수 있는 경우에 발생합니다.MAR은 통계적으로 검증할 수 없는 가정이기 때문에 그 실질적인 [8]타당성에 의존해야 합니다.예를 들어 남성들이 우울증 조사를 할 가능성은 낮지만 이는 남성들의 우울증 수준과는 무관하다.분석 법에 따라, 이 자료 아직도 세포의 부수적인 공허(남성, 매우 높은 우울증 0항목이 있을 것)때문에 분석에 매개 변수 편향시킬 수 있다.매개 변수 전체 정보 최대 Likelihood할 것으로 추산되고 그러나 MAR 점차적으로 공정한 추정을 제공할 것이다.[표창 필요한]

랜덤이 아닌 누락되지 않음

MNAR(Missing not at random)(무시 불능 비응답이라고도 함)는 MAR도 MCAR도 아닌 데이터입니다(즉,[5] 누락된 변수의 값은 누락된 원인과 관련이 있습니다).앞의 예를 확장하면, 이것은 남성들이 그들의 우울증 수준 때문에 우울증 조사를 채우지 못한 경우에 발생할 것이다.

Samuelson과 Spirer(1992)는 인구통계, 법 집행기관 및 건강에 대한 누락 및/또는 왜곡된 데이터가 어떻게 인권 침해 패턴의 지표가 될 수 있는지를 논의했다.그들은 꽤 잘 문서화된 몇 가지 예를 들었다.[Samuelson, D A, Spirer, H F, "Jabine, T. 및 Claude, R. ed., "Human Rights and Statistics"에서 "인권 및 통계:레코드 스트레이트 취득」, 1992년, 펜실베니아 프레스, U.S.]

결측 데이터 처리 기술

결측 데이터는 표본의 대표성을 감소시키고 따라서 모집단에 대한 추론을 왜곡할 수 있습니다.일반적으로 결측 데이터를 처리하는 방법에는 세 가지 주요 접근방식이 있다. (1) 귀속(결측 데이터 대신 값이 채워지는 경우), (2) 누락(누락), 잘못된 데이터가 포함된 표본은 추가 분석에서 폐기되고 (3) 결측값의 영향을 받지 않는 방법을 직접 적용하여 분석한다.환자 중심 결과 연구를 위한 결측 데이터의 예방과 처리를 다루는 하나의 체계적 검토에서는 결측 데이터의 예방과 처리에 필요한 10가지 표준이 확인되었다.여기에는 연구 설계, 연구 수행, 분석 및 [9]보고를 위한 표준이 포함됩니다.

일부 실제 적용에서 실험자는 결측값 수준을 제어하고 데이터를 수집하기 전에 결측값을 방지할 수 있습니다.예를 들어, 컴퓨터 설문지에서는 질문을 건너뛸 수 없는 경우가 많습니다.질문에 대답하지 않으면 다음 질문으로 넘어갈 수 없습니다.따라서 이 방법은 연구를 감독하는 윤리 위원회에서 허용되지 않을 수 있지만, 참가자에게 주어지는 결측값은 이러한 유형의 설문지를 통해 제거된다.조사에서는, 표본의 각 개인에게 연락을 취하기 위해서 복수의 노력을 하는 것이 일반적이며, 참가하지 않기로 결정한 사람들을 [10]: 161–187 설득하기 위해서 종종 편지를 보내기도 한다.그러나 이러한 기법은 데이터 누락의 부정적인 추리 효과를 줄이는 데 도움이 되거나 해가 될 수 있다. 왜냐하면 처음에 거절하거나 집에 있지 않은 후 참여하도록 설득할 의향이 있는 사람들의 종류는 여전히 거절하거나 연락이 닿지 않는 사람들의 종류와 크게 다를 수 있기 때문이다.ter 추가 작업.[10]: 188–198

결측값이 발생할 가능성이 높은 상황에서는 결측값에 대한 강력한 데이터 분석 방법을 사용할 계획을 세우는 것이 좋습니다.분석은 기법의 핵심 가정에 대한 경미하거나 중간 정도의 위반이 모집단에 대해 도출된 결론의 왜곡이나 편향을 거의 또는 전혀 유발하지 않는다고 확신할 때 강력하다.

귀속

일부 데이터 분석 기법은 결측값에 대해 견고하지 않으며 결측 데이터를 "채우거나" 귀속시켜야 합니다.루빈(1987)은 몇 번(5회 이하)이라도 귀속을 반복하는 것이 [2]평가의 질을 크게 향상시킨다고 주장했다.많은 실질적인 목적을 위해, 2 또는 3의 치환은 더 많은 치환으로 캡처될 수 있는 대부분의 상대적 효율성을 캡처합니다.그러나 너무 적은 수의 귀속은 상당한 통계적 힘의 손실을 초래할 수 있으며, 일부 학자들은 현재 20에서 100 또는 그 이상을 [11]권장한다.모든 다중귀속 데이터 분석은 각 귀속 데이터 세트에 대해 반복되어야 하며, 경우에 따라 관련 통계를 비교적 복잡한 [2]방식으로 결합해야 한다.

기대 최대화 알고리즘은 전체 데이터 집합을 사용할 수 있는 경우 계산될 통계의 값을 추정(귀속)하는 접근법이며, 누락된 데이터의 패턴을 고려한다.이 접근법에서 개별 결측 데이터 항목에 대한 값은 일반적으로 귀속되지 않습니다.

보간법

수치분석의 수학적 분야에서 보간은 알려진 데이터 포인트의 이산 집합 범위 내에서 새로운 데이터 포인트를 구성하는 방법이다.

결측 데이터가 있는 두 개의 쌍체 표본을 비교할 때, 치환 없이 사용 가능한 모든 데이터를 사용하는 검정 통계량은 부분적으로 중복되는 표본 [12]t-검정입니다.이는 정규성 하에서 유효하며 MCAR을 전제로 합니다.

부분 삭제

결측값이 없는 데이터 집합에서 사용할 수 있는 데이터를 줄이는 방법은 다음과 같습니다.

  • 목록별 삭제/대/소문자별 삭제
  • 쌍방향 삭제

완전한 분석

귀속값을 실제로 관찰한 것처럼 사용함으로써 왜곡되지 않고 사용 가능한 모든 정보를 완전히 고려하는 방법:

부분 식별 방법을 [15]사용할 수도 있습니다.

모델 기반 기술

종종 그래프를 사용하는 모델 기반 기법은 결측 데이터 유형(MCAR, MAR, MNAR)을 테스트하고 결측 데이터 조건에서 매개변수를 추정하기 위한 추가 도구를 제공합니다.예를 들어, MAR/MCAR를 반박하기 위한 테스트는 다음과 같습니다.

Z가 완전히 관측되고 X와 Y가 부분적으로 관측되는 가지 변수 X, Y Z의 데이터는 : R y( ,) \ X \

즉, X의 관측된 부분은 Y의 결측 상태에 대해 독립적이어야 하며, Z의 모든 값에 따라 좌우되어야 한다.이 조건을 충족하지 못할 경우 문제가 MNAR [16]카테고리에 속함을 나타냅니다.

(주의:이러한 테스트는 이벤트 기반 MAR의 약간의 변화인 가변 기반 MAR에 필요합니다.)[17][18][19]

데이터가 MNAR 범주에 들어가는 경우 모형의 [3]특정 조건이 유지될 때 모수를 일관되게 추정하는 데 사용할 수 있습니다.예를 들어, Y가 X에서 결측값을 갖는 이유를 설명하고 Y 자체에 결측값이 있는 경우 Y의 결측값이 랜덤인 경우에도 X와 Y의 결합 확률 분포를 추정할 수 있습니다.이 경우 추정치는 다음과 같습니다.

x 스타일 R_{x}= y ( R_}= 각 변수의 관측된 부분을 나타냅니다.

서로 다른 모델 구조는 일관된 추정이 가능할 때마다 서로 다른 추정치와 서로 다른 추정 절차를 산출할 수 있다.상기의 추정에서는, 우선 완전한 데이터로부터 PY P Ydisplaystyle P(Y)\displaystyle P 해, X의 상태에 관계없이 Y가 관측된 경우로부터 P P(Y)\를 곱하는 것을 요구하고 있습니다.또한 일관된 추정치를 얻기 위해서는 첫 번째 항을 P X P Y 것이 중요하다.

많은 경우 모델 기반 기법으로 모델 구조가 [19]반박 테스트를 받을 수 있습니다.으로 관측된 변수 X와 Rx({에 대한 다른 변수 Y의 결측 표시기(: y {R_x}) 사이의 독립성을 암시하는 은 X R X X\

마지막으로, 이러한 기술에서 나타나는 추정치는 닫힌 형태로 도출되며 국소 최적화에 취약한 기대 최대화와 같은 반복적인 절차를 요구하지 않는다.[20]

결측 확률이 시간에 따라 달라지면 특수한 종류의 문제가 나타납니다.예를 들어 외상 데이터베이스에서 외상 결과에 대한 데이터가 손실될 확률은 외상 다음날에 따라 달라집니다.이러한 경우 다양한 비정상 마르코프 연쇄 모델이 적용된다.[21]

「 」를 참조해 주세요.

레퍼런스

  1. ^ Messner SF (1992). "Exploring the Consequences of Erratic Data Reporting for Cross-National Research on Homicide". Journal of Quantitative Criminology. 8 (2): 155–173. doi:10.1007/bf01066742. S2CID 133325281.
  2. ^ a b c d Hand, David J.; Adèr, Herman J.; Mellenbergh, Gideon J. (2008). Advising on Research Methods: A Consultant's Companion. Huizen, Netherlands: Johannes van Kessel. pp. 305–332. ISBN 978-90-79418-01-5.
  3. ^ a b Mohan, Karthika; Pearl, Judea; Tian, Jin (2013). "Graphical Models for Inference with Missing Data". Advances in Neural Information Processing Systems 26. pp. 1277–1285.
  4. ^ Karvanen, Juha (2015). "Study design in causal models". Scandinavian Journal of Statistics. 42 (2): 361–377. arXiv:1211.2958. doi:10.1111/sjos.12110. S2CID 53642701.
  5. ^ a b Polit DF Beck CT (2012). Nursing Research: Generating and Assessing Evidence for Nursing Practice, 9th ed. Philadelphia, USA: Wolters Klower Health, Lippincott Williams & Wilkins.
  6. ^ Deng (2012-10-05). "On Biostatistics and Clinical Trials". Archived from the original on 15 March 2016. Retrieved 13 May 2016.
  7. ^ "Home". Archived from the original on 2015-09-10. Retrieved 2015-08-01.
  8. ^ 를 클릭합니다Little, Roderick J. A.; Rubin, Donald B. (2002), Statistical Analysis with Missing Data (2nd ed.), Wiley.
  9. ^ Li, Tianjing; Hutfless, Susan; Scharfstein, Daniel O.; Daniels, Michael J.; Hogan, Joseph W.; Little, Roderick J.A.; Roy, Jason A.; Law, Andrew H.; Dickersin, Kay (2014). "Standards should be applied in the prevention and handling of missing data for patient-centered outcomes research: a systematic review and expert consensus". Journal of Clinical Epidemiology. 67 (1): 15–32. doi:10.1016/j.jclinepi.2013.08.013. PMC 4631258. PMID 24262770.
  10. ^ a b Stoop, I.; Billiet, J.; Koch, A.; Fitzgerald, R. (2010). Reducing Survey Nonresponse: Lessons Learned from the European Social Survey. Oxford: Wiley-Blackwell. ISBN 978-0-470-51669-0.
  11. ^ Graham J.W.; Olchowski A.E.; Gilreath T.D. (2007). "How Many Imputations Are Really Needed? Some Practical Clarifications of Multiple Imputation Theory". Preventative Science. 8 (3): 208–213. CiteSeerX 10.1.1.595.7125. doi:10.1007/s11121-007-0070-9. PMID 17549635. S2CID 24566076.
  12. ^ Derrick, B; Russ, B; Toher, D; White, P (2017). "Test Statistics for the Comparison of Means for Two Samples That Include Both Paired and Independent Observations". Journal of Modern Applied Statistical Methods. 16 (1): 137–157. doi:10.22237/jmasm/1493597280.
  13. ^ Chechik, Gal; Heitz, Geremy; Elidan, Gal; Abbeel, Pieter; Koller, Daphne (2008-06-01). "Max-margin Classification of incomplete data" (PDF). Neural Information Processing Systems: 233–240.
  14. ^ Chechik, Gal; Heitz, Geremy; Elidan, Gal; Abbeel, Pieter; Koller, Daphne (2008-06-01). "Max-margin Classification of Data with Absent Features". The Journal of Machine Learning Research. 9: 1–21. ISSN 1532-4435.
  15. ^ Tamer, Elie (2010). "Partial Identification in Econometrics". Annual Review of Economics. 2 (1): 167–195. doi:10.1146/annurev.economics.050708.143401.
  16. ^ Mohan, Karthika; Pearl, Judea (2014). "On the testability of models with missing data". Proceedings of AISTAT-2014, Forthcoming.
  17. ^ Darwiche, Adnan (2009). Modeling and Reasoning with Bayesian Networks. Cambridge University Press.
  18. ^ Potthoff, R.F.; Tudor, G.E.; Pieper, K.S.; Hasselblad, V. (2006). "Can one assess whether missing data are missing at random in medical studies?". Statistical Methods in Medical Research. 15 (3): 213–234. doi:10.1191/0962280206sm448oa. PMID 16768297. S2CID 12882831.
  19. ^ a b Pearl, Judea; Mohan, Karthika (2013). Recoverability and Testability of Missing data: Introduction and Summary of Results (PDF) (Technical report). UCLA Computer Science Department, R-417.
  20. ^ Mohan, K.; Van den Broeck, G.; Choi, A.; Pearl, J. (2014). "An Efficient Method for Bayesian Network Parameter Learning from Incomplete Data". Presented at Causal Modeling and Machine Learning Workshop, ICML-2014.
  21. ^ Mirkes, E.M.; Coats, T.J.; Levesley, J.; Gorban, A.N. (2016). "Handling missing data in large healthcare dataset: A case study of unknown trauma outcomes". Computers in Biology and Medicine. 75: 203–216. arXiv:1604.00627. Bibcode:2016arXiv160400627M. doi:10.1016/j.compbiomed.2016.06.004. PMID 27318570. S2CID 5874067. Archived from the original on 2016-08-05.

추가 정보

외부 링크

배경

소프트웨어