귀책(통계)

Imputation (statistics)

통계에서 귀속결측 데이터를 대체된 값으로 대체하는 과정이다. 데이터 지점을 대체할 때는 "단위 귀책"으로, 데이터 지점의 구성요소를 대체할 때는 "항목 귀책"으로 알려져 있다. 누락된 데이터가 야기하는 3가지 주요 문제가 있다: 데이터 누락은 상당한 양의 편향을 초래할 수 있고, 데이터의 처리와 분석을 더욱 어렵게 하며, 효율을 떨어뜨릴 수 있다.[1] 누락된 데이터는 데이터 분석에 문제를 일으킬 수 있기 때문에 귀속은 누락된 값이 있는 사례의 목록적 삭제와 관련된 함정을 피할 수 있는 방법으로 보인다. 즉, 한 사례에 대해 하나 이상의 값이 누락된 경우 대부분의 통계 패키지는 결측값이 있는 모든 사례를 폐기하도록 디폴트되며, 이는 편향을 유발하거나 결과의 대표성에 영향을 미칠 수 있다. 귀속은 누락된 데이터를 다른 이용 가능한 정보에 기초한 추정 값으로 대체함으로써 모든 사례를 보존한다. 모든 결측값이 귀속되면 데이터 세트는 전체 데이터에 대한 표준 기법을 사용하여 분석할 수 있다.[2] 누락된 데이터를 설명하기 위해 과학자들이 채택한 많은 이론들이 있었지만 대부분은 편견을 도입한다. 누락된 데이터를 다루기 위해 잘 알려진 몇 가지 시도에는 다음과 같은 것이 있다: 열갑판과 냉간 갑판 귀속, 목록과 쌍 삭제, 평균 귀속, 비 음행 행렬 인자화, 회귀 귀속, 마지막으로 수행한 관찰, 확률 귀속, 다중 귀속.

Listwise(완전한 사례) 삭제

지금까지 결측 데이터를 처리하는 가장 일반적인 방법은 목록 삭제(완전한 경우라고도 함)인데, 이는 결측값을 가진 모든 사례가 삭제되는 경우다. 데이터가 완전히 랜덤하게 누락된 경우 리스트와이즈 삭제는 치우침을 추가하지 않지만 유효 표본 크기를 줄임으로써 분석의 검정력을 감소시킨다. 예를 들어 1000개의 사례를 수집했지만 80개의 경우 결측값이 있는 경우 목록 삭제 후 유효 표본 크기는 920이다. 사례가 완전히 무작위로 누락되지 않은 경우, 누락된 데이터로 대표되는 사례의 하위 샘플이 원래 표본을 대표하지 않기 때문에 리스트와이즈 삭제는 편향을 가져올 것이다(원래 표본 자체가 모집단의 대표 표본이었다면 전체 사례는 해당 모집단 eith를 대표하지 않는다).er).[3] 누락된 데이터가 무작위로 완전히 누락되었을 때 목록 삭제는 편견이 없는 반면, 실제의 경우는 드물다.[4]

페어웨이즈 삭제(또는 "사용 가능한 사례 분석")는 특정 분석에 필요한 변수가 누락된 경우 사례를 삭제하는 것을 포함하지만, 필요한 변수가 모두 존재하는 분석에 해당 사례를 포함한다. 페어웨이즈 삭제를 사용할 경우, 분석을 위한 총 N은 모수 추정에서 일관되지 않을 것이다. 다른 파라미터에 대한 완벽한 사례 비교를 유지하면서, 일부 시점의 불완전한 N 값 때문에, 페어웨이즈 삭제는 100%를 [5]초과하는 상관관계와 같은 불가능한 수학 상황을 초래할 수 있다.

다른 방법보다 전체 사례 삭제가 갖는 한 가지 장점은 간단하고 구현이 쉽다는 것이다. 단점이 많음에도 불구하고 누락된 데이터를 처리하는 방식이 가장 인기 있는 이유는 바로 이 때문이다.

단일 귀책

핫데크

한때 흔했던 귀책 방법은 무작위로 선택한 유사 기록에서 결측값이 귀속되는 핫데크 귀책이었다. "핫 데크"라는 용어는 펀치된 카드에 데이터를 저장하는 것으로 거슬러 올라가며, 정보 제공자가 수신자와 동일한 데이터 집합에서 온 것임을 나타낸다. 현재 처리 중이어서 카드 스택이 '핫'했다.

핫데크 귀책의 한 형태는 "이월된 마지막 관찰"(또는 줄여서 LOCF)이라고 불리며, 여기에는 여러 변수에 따라 데이터 집합을 정렬하여 순서가 지정된 데이터 집합을 만드는 작업이 포함된다. 그런 다음 기법은 첫 번째 결측값을 찾아 결측값을 귀속시키기 위해 결측 데이터 바로 앞에 셀 값을 사용한다. 모든 결측값이 귀속될 때까지 결측값이 있는 다음 셀에 대해 이 과정을 반복한다. 한 사람이나 다른 실체에 대해 변수의 측정을 반복하는 일반적인 시나리오에서, 이는 측정이 누락된 경우, 마지막으로 측정했을 때와 달라지지 않은 것이 최선의 추측이라는 것이 최선의 추측이다. 이 방법은 편향과 잠재적으로 잘못된 결론의 증가 위험을 증가시키는 것으로 알려져 있다. 이러한 이유로 LOCF는 사용하지 않는 것이 좋다.[6]

콜드데크

반면 콜드 데크 귀속은 다른 데이터 집합에서 기증자를 선택한다. 컴퓨터 파워의 발달로 인해, 보다 정교한 귀속 방법은 일반적으로 원래의 무작위적이고 정렬된 핫데크 귀속 기법을 대체했다. 과거 조사에서 비슷한 항목의 반응값으로 대체하는 방식이다. 그것은 시간 간격을 측정하는 조사에서 이용할 수 있다.

평균대체

또 다른 귀책 기법에는 결측값을 다른 모든 경우에 대해 해당 변수의 평균으로 대체하는 것이 포함되며, 이는 해당 변수에 대한 표본 평균을 변경하지 않는 이점이 있다. 그러나 평균 귀속은 귀속된 변수와 관련된 모든 상관 관계를 감쇠한다. 귀속된 경우 귀속된 변수와 다른 측정된 변수의 관계는 보장되지 않기 때문이다. 따라서 평균 귀속은 일변량 분석에는 일부 매력적인 특성을 가지고 있지만 다변량 분석에는 문제가 된다.

귀속은 클래스(예: 성별) 내에서 수행할 수 있으며 = ^ y로 표현할 수 있으며, y i 및 y 귀속 이다는 일부 h 내에서 응답자 데이터의 표본 평균이며 이는 일반화된 회귀 분석 귀책의 특별한 경우:

여기서 값 r j{\은(는) 비임계 데이터에서 x y 을(를 회귀하는 것으로 추정되며, 클래스 멤버쉽의 더미 변수이며, 는 응답자(로 분할된다. [7][8])

비음행렬 인자화

이 아닌 매트릭스 인자화(NMF)는 이러한 결측 데이터를 편향을 일으킬 수 있는 0으로 취급하기보다는 비용 함수를 최소화하면서 결측 데이터를 취할 수 있다.[9] 이것은 그것을 데이터 귀속에 대해 수학적으로 입증된 방법으로 만든다. NMF는 비용함수의 결측 데이터를 무시할 수 있으며 결측 데이터로 인한 영향은 2차 주문 효과만큼 작을 수 있다.

회귀

회귀 귀책에는 평균 귀책의 반대 문제가 있다. 회귀 모형은 다른 변수를 기준으로 변수의 관측값을 예측하는 것으로 추정되며, 그 모형은 해당 변수의 값이 누락된 경우 값을 귀속시키는 데 사용된다. 즉, 완전하고 불완전한 경우에 이용할 수 있는 정보를 사용하여 특정 변수의 가치를 예측한다. 그런 다음 회귀 모형의 적합치를 사용하여 결측값을 귀속시킨다. 문제는 귀속된 데이터의 추정치에 오차항이 포함되어 있지 않기 때문에 추정치는 잔차분산 없이 회귀선을 따라 완벽하게 적합된다는 점이다. 이로 인해 관계가 지나치게 식별되고 귀속된 값에서 보증된 값보다 더 높은 정밀도를 나타낸다. 회귀 모형은 결측 데이터의 가장 가능성이 높은 값을 예측하지만 해당 값에 대한 불확실성을 제공하지 않는다.

확률적 회귀는 회귀 귀책에서 평균 회귀 분산을 추가하여 오류를 발생시킴으로써 회귀 귀책에서 오류 기간의 결여를 시정하려는 상당히 성공적인 시도였다. 확률적 회귀 분석은 위에서 언급한 기법보다 훨씬 덜 치우쳐 보이지만, 여전히 한 가지를 놓쳤다. 데이터가 귀속된다면, 사람들은 직관적으로 단순한 잔차 분산보다 더 많은 소음을 문제에 도입해야 한다고 생각할 것이다.[5]

다중 귀책

귀신에 의한 소음 증가 문제에 대처하기 위해, 루빈(1987)은 [10]이를 설명하기 위해 복수의 귀속 데이터 세트에 걸쳐 결과를 평균화하는 방법을 개발했다. 모든 다중 귀책 방법은 세 단계를 따른다.[3]

  1. 귀책 – 단일 귀책과 유사하게 결측값이 귀속된다. 그러나 귀속된 값은 한 번이 아니라 분포에서 m 곱하기입니다. 이 단계가 끝나면 완료된 데이터셋이 있어야 한다.
  2. 분석 – m 데이터셋을 분석한다. 이 단계가 끝나면 m 분석이 있어야 한다.
  3. 풀링 – m 결과는 관심[11][12] 변수의 평균, 분산 및 신뢰 구간을 계산하거나 각 개별 모델의 시뮬레이션을 결합하여 하나의 결과로 통합된다.[13]

단일 귀책 방법이 여러 가지 있듯이 여러 귀책 방법도 여러 가지다. 다중 귀책 방법이 단일 귀책 및 전체 사례 방법에 비해 갖는 한 가지 장점은 다중 귀책이 유연하며 다양한 시나리오에서 사용될 수 있다는 것이다. 다중 귀속은 데이터가 무작위로 완전히 누락되고, 무작위로 누락되고, 데이터가 무작위[citation needed] 누락되지 않은 경우에도 사용할 수 있다. 비록 모의 증거는 보조 변수의 충분한 번호로 이것은 또한 데이터로 일할 수 있다고 제안하는 것입니다의 사슬 형태로 매어진 방정식(MICE)에 의해 인기 있는 접근법은 여러 비방, 또한"완전히 사양 조건부"과"순차 회귀 여러 비방."[14]MICE로 알려진 임의의 데이터에서 놓쳐 위한 것이다.mi아무렇게나 쏘지 말고. 그러나 MICE는 관측 횟수가 크고 데이터가 비선형성, 높은 차원성 등 복합적인 특징을 가질 경우 성능 문제를 겪을 수 있다.

다중 귀속에 대한 보다 최근의 접근법은 기계 학습 기법을 사용하여 성능을 향상시킨다. 예를 들어 MIDAS(Denoising Autoencoders를 사용한 다중 임파테이션)는 관찰된 데이터의 미세한 잠재적 표현을 학습하기 위해 감독되지 않은 신경망의 한 종류인 데노이즈 오토엔코더를 사용한다.[15] MIDAS는 기존의 다중 귀속 전략에 비해 정확성과 효율성의 이점을 제공하는 것으로 나타났다.

앞 절에서 언급했듯이, 단일 귀책에서는 귀책의 불확실성을 고려하지 않는다. 귀책 후 데이터는 단일 귀책에서 실제 실제 값인 것처럼 처리된다. 귀책에서 불확실성의 과실로 인해 지나치게 정밀한 결과와 도출된 결론에 오류가 발생할 수 있다.[16] 다중 귀속은 여러 번 귀속함으로써 참 값이 취할 수 있었던 불확실성과 값의 범위를 설명한다. 예상대로 불확실성 추정과 귀신을 위한 딥러닝의 조합은 최상의 전략 중 하나이며 이질적인 약물 발견 데이터를 모델링하는 데 사용되어 왔다.[17][18]

또한 단일 귀책 및 전체 사례의 구현이 더 쉽지만, 다중 귀책의 구현은 그리 어렵지 않다. 여러 통계 소프트웨어에는 쉽게 다중 귀속을 수행하는 광범위한 통계 패키지가 있다. 예를 들어, MICE 패키지는 R의 사용자가 MICE 방법을 사용하여 다중 귀속을 수행할 수 있도록 한다.[19] MIDAS는 rMIDAS 패키지로 R, Python은 MIDASpy 패키지로 구현할 수 있다.[15]

참고 항목

참조

  1. ^ Barnard, J.; Meng, X. L. (1999-03-01). "Applications of multiple imputation in medical studies: from AIDS to NHANES". Statistical Methods in Medical Research. 8 (1): 17–36. doi:10.1177/096228029900800103. ISSN 0962-2802. PMID 10347858. S2CID 11453137.
  2. ^ 겔만, 앤드류, 제니퍼 힐. 회귀 분석 및 다단계/계층적 모형을 사용한 데이터 분석. 케임브리지 대학교 출판부, 2006. 25장
  3. ^ a b Lall, Ranjit (2016). "How Multiple Imputation Makes a Difference". Political Analysis. 24 (4): 414–433. doi:10.1093/pan/mpw020.
  4. ^ Kenward, Michael G (2013-02-26). "The handling of missing data in clinical trials". Clinical Investigation. 3 (3): 241–250. doi:10.4155/cli.13.7. ISSN 2041-6792.
  5. ^ a b Enders, C. K. (2010). Applied Missing Data Analysis. New York: Guilford Press. ISBN 978-1-60623-639-0.
  6. ^ Molnar, Frank J.; Hutton, Brian; Fergusson, Dean (2008-10-07). "Does analysis using "last observation carried forward" introduce bias in dementia research?". Canadian Medical Association Journal. 179 (8): 751–753. doi:10.1503/cmaj.080820. ISSN 0820-3946. PMC 2553855. PMID 18838445.
  7. ^ Kalton, Graham (1986). "The treatment of missing survey data". Survey Methodology. 12: 1–16.
  8. ^ Kalton, Graham; Kasprzyk, Daniel (1982). "Imputing for missing survey responses" (PDF). Proceedings of the Section on Survey Research Methods. American Statistical Association. 22. S2CID 195855359. Archived from the original (PDF) on 2020-02-12.
  9. ^ Ren, Bin; Pueyo, Laurent; Chen, Christine; Choquet, Elodie; Debes, John H; Duchene, Gaspard; Menard, Francois; Perrin, Marshall D. (2020). "Using Data Imputation for Signal Separation in High Contrast Imaging". The Astrophysical Journal. 892 (2): 74. arXiv:2001.00563. Bibcode:2020ApJ...892...74R. doi:10.3847/1538-4357/ab7024. S2CID 209531731.
  10. ^ Rubin, Donald (9 June 1987). Multiple imputation for nonresponse in surveys. Wiley Series in Probability and Statistics. Wiley. doi:10.1002/9780470316696. ISBN 9780471087052.
  11. ^ Yuan, Yang C. (2010). "Multiple imputation for missing data: Concepts and new development" (PDF). SAS Institute Inc., Rockville, MD. 49: 1–11.
  12. ^ Van Buuren, Stef (2012-03-29). "2. Multiple Imputation". Flexible Imputation of Missing Data. Chapman & Hall/CRC Interdisciplinary Statistics Series. Vol. 20125245. Chapman and Hall/CRC. doi:10.1201/b11826. ISBN 9781439868249.
  13. ^ King, Gary; Honaker, James; Joseph, Anne; Scheve, Kenneth (March 2001). "Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation". American Political Science Review. 95 (1): 49–69. doi:10.1017/S0003055401000235. ISSN 1537-5943.
  14. ^ Azur, Melissa J.; Stuart, Elizabeth A.; Frangakis, Constantine; Leaf, Philip J. (2011-03-01). "Multiple imputation by chained equations: what is it and how does it work?". International Journal of Methods in Psychiatric Research. 20 (1): 40–49. doi:10.1002/mpr.329. ISSN 1557-0657. PMC 3074241. PMID 21499542.
  15. ^ a b Lall, Ranjit; Robinson, Thomas (2021). "The MIDAS Touch: Accurate and Scalable Missing-Data Imputation with Deep Learning". Political Analysis. doi:10.1017/pan.2020.49.
  16. ^ Graham, John W. (2009-01-01). "Missing data analysis: making it work in the real world". Annual Review of Psychology. 60: 549–576. doi:10.1146/annurev.psych.58.110405.085530. ISSN 0066-4308. PMID 18652544.
  17. ^ Irwin, Benedict (2020-06-01). "Practical Applications of Deep Learning to Impute Heterogeneous Drug Discovery Data". Journal of Chemical Information and Modeling. 60 (6): 2848–2857. doi:10.1021/acs.jcim.0c00443. PMID 32478517.
  18. ^ Whitehead, Thomas (2019-02-12). "Imputation of Assay Bioactivity Data Using Deep Learning". Journal of Chemical Information and Modeling. 59 (3): 1197–1204. doi:10.1021/acs.jcim.8b00768. PMID 30753070.
  19. ^ Horton, Nicholas J.; Kleinman, Ken P. (2007-02-01). "Much ado about nothing: A comparison of missing data methods and software to fit incomplete data regression models". The American Statistician. 61 (1): 79–90. doi:10.1198/000313007X172556. ISSN 0003-1305. PMC 1839993. PMID 17401454.

외부 링크