단위 가중 회귀 분석

Unit-weighted regression

통계에서 단위 가중 회귀는 절편 용어만 추정하는 다중 회귀 분석의 단순하고 강력한 버전(Wainer & Thissen, 1976년)이다.즉, 모형에 적합하다.

여기서 각 은(는) 이항 변수일 수 있으며, 임의의 가중치로 곱할 수도 있다.

이 값을 각 예측 변수가 고유한 추정 계수를 갖는 더 일반적인 다중 회귀 모형과 대조하십시오.

사회과학에서 단위 가중 회귀는 때때로 분류를 위해 사용된다. 즉, ^ < 0 >이(가) "아니오", "예"를 나타내는 예-아니오 답변을 예측하기 위해 사용된다.다중 선형 회귀 분석(분류 사례에서 선형 판별 분석으로 알려져 있음)보다 해석하기가 쉽다.

단위중량

단위 가중 회귀는 세 단계로 진행되는 강력한 회귀 분석의 방법이다.첫째, 관심 결과에 대한 예측 변수를 선택한다. 이상적으로는 선택에는 좋은 경험적 또는 이론적 이유가 있어야 한다.둘째, 예측 변수는 표준 형태로 변환된다.마지막으로 예측 변수가 함께 추가되며, 이 합을 변량이라고 하며, 이를 결과의 예측 변수로 사용한다.

버지스법

버지스 방법은 사회학자 어니스트 W. 버지스가 가석방된 수감자들의 성패를 결정하기 위해 1928년 연구에서 처음 제시되었다.먼저 가석방 성공과 연관성이 있다고 판단되는 변수 21개를 선별했다.다음으로 그는 각 예측 변수를 0 또는 1의 표준 형태로 변환했다(Burgess, 1928).예측 변수가 두 개의 값을 가질 때 목표 결과와 관련된 값은 하나로 코드화되었다.버지스는 가석방에서의 성공을 목표 결과로 선택했기 때문에 절도 전과 같은 예측자는 "예" = 0, "아니오" = 1로 코드화되었다.그런 다음 이러한 코드화된 값을 추가하여 예측 변수 점수를 만들어 더 높은 점수가 더 나은 성공 가능성을 예측했다.점수는 0(성공 예측 변수 없음)부터 21(성공 예측 변수 21개 모두 성공 예측으로 점수 매김)까지 다양할 수 있다.

값이 세 개 이상인 예측 변수의 경우 Burgess 방법은 주관적 판단에 따라 컷오프 점수를 선택한다.일례로 버지스 방법(Gottfredson & Snyder, 2005)을 이용한 연구에서는 비행행위에 대한 불만 건수를 예측 변수 1개로 선정했다.가석방 불능이 대상 결과로서, 불만 건수는 "0~2건" = 0, "3건 이상의 불만" = 1(Gottfredson & Snyder, 2005. 페이지 18)으로 코드화되었다.

커비법

커비 방식은 버지스 방법과 유사하지만 두 가지 점에서 차이가 있다.첫째, 버지스 방법은 주관적 판단을 사용하여 이항 결과를 갖는 다값 예측 변수에 대한 컷오프 점수를 선택하는 반면, 커비 방법은 분류 및 회귀 트리(CART) 분석을 사용한다.이런 식으로 컷오프 점수 선정은 주관적인 판단이 아니라 카이-제곱 값이 최대인 점 등 통계적 기준에 근거한다.

두 번째 차이는 버지스 방법을 이진 결과에 적용하는 동안 KART 분석은 t-값이 최대인 지점과 같은 기준을 사용하여 이러한 경우 컷오프 점수를 식별할 수 있기 때문에 Kerby 방법을 다중값 결과에 적용할 수 있다는 것이다.CART 분석은 이항일 뿐만 아니라 재귀적이기 때문에 예측 변수가 다시 분할되어 두 개의 컷오프 점수를 얻을 수 있다.각 예측 변수의 표준 형식은 CART 분석에서 파티션을 만들 때 1의 점수가 추가되는 것이다.

한 연구(Kerby, 2003)는 자살 관념의 다값을 예측하면서 빅5 성격 특성의 5가지 특성을 예측자로 선정했다.다음으로 CART 분석을 통해 인성 점수를 표준 형태로 전환했다.CART 분석에서 파티션 하나를 얻었을 때 예측 변수가 0 또는 1로 코드화되었다는 점에서 결과는 버지스 방법과 같았다.그러나 신경증의 척도로는 결과는 두 컷오프 점수였다.신경증 점수가 높으면 자살이 더 많은 사고와 상관관계가 있기 때문에, 두 컷오프 점수는 다음과 같은 코딩으로 이어졌다: "낮은 신경증" = 0, "중요한 신경증" = 1, "높은 신경증" = 2 (커비, 2003)

z-공법

예측 변수를 연속적인 척도로 측정할 때 다른 방법을 적용할 수 있다.이 경우 각 예측 변수는 표준 점수, 즉 z-점수로 변환할 수 있으므로 모든 예측 변수의 평균은 0이고 표준 편차는 1이다.이 단위 가중 회귀 분석 방법의 경우 변수는 z-점수의 합이다(예: Dawes, 1979; Bobko, Roth, & Buster, 2007).

문학평론

단위 가중 회귀 분석을 이용한 첫 번째 경험적 연구는 사회학자 어니스트 W. 버지스에 의한 1928년 연구로 널리 여겨진다.그는 가석방의 성패를 예측하기 위해 21개의 변수를 사용했고, 그 결과는 가석방될 수감자를 결정하는 데 단위 체중이 유용한 도구라는 것을 보여준다.최고 점수를 받은 수감자 중 98%가 가석방 성공했으며, 최악의 점수를 받은 수감자 중 24%만이 실제로 성공했다(Burgess, 1928).

단위 가중 회귀 분석과 관련된 수학 문제는 1938년 다변량 분석에 특별한 관심을 가진 대표적인 통계학자인 사무엘 스탠리 윌크스에 의해 처음 논의되었다.Wilks는 베타 가중치를 추정하기 위해 데이터를 사용할 수 없는 상황에서 실제 환경에서 단위 가중치를 어떻게 사용할 수 있는지를 설명했다.예를 들어, 작은 대학은 입학에 좋은 학생들을 선발하기를 원할 것이다.그러나 학교는 자료를 수집하고 표준 다중 회귀 분석을 수행할 돈이 없을 수도 있다.이 경우 학교는 고등학교 성적, SAT 점수, 교사 등급 등 몇 가지 예측 변수를 사용할 수 있다.윌크스(1938년)는 단위체중이 실전에서 잘 작동해야 하는 이유를 수학적으로 보여줬다.

프랭크 슈미트(1971)는 단위 중량의 시뮬레이션 연구를 실시했다.그의 결과는 Wilks가 정말로 정확하고 단위 체중이 실제 연구 시뮬레이션에서 잘 수행되는 경향이 있다는 것을 보여주었다.

Robyn Dawes(1979)는 단위 가중 모델의 강건한 아름다움을 언급하면서 적용 연구에서 단위 가중치의 사용에 대해 논의하였다.제이콥 코헨은 또한 단위 무게의 가치에 대해 논의했고 그들의 실질적인 유용성에 대해서도 언급했다.실제로, 그는 "실제적인 문제로서, 대부분의 경우, 우리는 단위 체중을 사용하는 것이 더 낫다."라고 썼다. (코헨, 1990, 페이지 1306).

Dave Kerby(2003)는 단위 중량이 표준 회귀 분석과 잘 비교된다는 것을 보여주었고, 이는 교차 검증 연구(즉, 그는 한 표본에서 베타 중량을 추출하여 두 번째 표본에 적용하였다.관심의 결과는 자살적 사고였고, 예측 변수는 넓은 성격적 특성이었다.교차 검증 표본에서 성격과 자살 사고 사이의 상관관계는 단위 가중 회귀 분석(r = .48)으로 표준 다중 회귀 분석(r = .47)보다 약간 더 높았다.

Gottfredson과 Snyder(2005)는 단위 가중 회귀 분석의 버지스 방법을 다른 방법과 비교했는데, 시공 표본은 N = 1,924, 교차 검증 표본은 N = 7,552이다.Pearson 점-이중치를 사용하여 단위 가중치 모델에 대한 교차 검증 표본의 효과 크기는 r = .392로 로지스틱 회귀 분석(r = .368) 및 예측 속성 분석(r = .387)보다 다소 컸으며, 세 번째 소수점 자리(r = .397)에서만 다중 회귀보다 작았다.

단위 가중치에 대한 문헌 리뷰에서, Bobko, Roth, Buster(2007)는 "단위 가중치와 회귀 가중치는 교차 검증된 다중 상관관계의 규모 측면에서 유사하게 수행되며, 경험적 연구는 수십 년 동안 이러한 결과를 확인시켜 주었다"고 지적했다(p.693).

안드레아스 그래프는 미국 대통령 선거를 예측하기 위해 확립된 9개의 복수 회귀 모델에 동일한 가중치 접근법을 적용했다.1976년부터 2012년까지 10번의 선거에서 균등하게 가중치가 부여된 예측 변수는 평균적으로 원래 회귀 모형의 예측 오차를 4% 줄였다.모든 변수를 포함하는 등가중치 모형은 가장 정확한 회귀 모형의 오차를 29% 줄인 보정된 예측값을 제공했다.[1]

예를 들어 단위 중량이 실제로 유용할 수 있는 방법을 명확히 할 수 있다.

브레나 브라이와 동료(1982)는 청소년들에게 무엇이 약물 사용을 유발하는지에 대한 문제를 다루었다.이전 연구에서는 다중 회귀 분석을 사용했었다. 이 방법을 사용하면 베타 무게가 가장 높은 예측 변수를 찾는 것이 자연스럽다.브라이와 동료들은 이전의 한 연구에서 알코올의 조기 사용이 최고의 예측 변수라는 것을 발견했다고 언급했다.또 다른 연구는 부모로부터의 소외가 최고의 예측 변수라는 것을 발견했다.그러나 또 다른 연구는 학교에서의 낮은 성적이 최고의 예측 변수라는 것을 발견했다.복제 실패는 분명히 문제였고, 베타를 튕겨서 야기될 수 있는 문제였다.

브라이와 동료들은 다른 접근법을 제안했다: 그들은 최고의 예측 변수를 찾는 대신에 예측 변수의 수를 살펴보았다.즉, 각 예측 변수에 단위 무게를 주었다.그들의 연구는 1) 학교 성적이 낮음, 2) 종교와의 관계 부족, 3) 알코올 사용의 조기, 4) 심리적 고통, 5) 자존감 저하, 6) 부모와의 소외 등 6가지 예측 변수를 가지고 있었다.예측 변수를 표준 형식으로 변환하기 위해 각 위험 요인은 부재(점수 0) 또는 존재(점수 1)로 점수가 매겨졌다.예를 들어, 학교에서의 낮은 성적에 대한 코딩은 "C 이상" = 0, "D 또는 F" = 1이었다.그 결과는 위험 요인의 수가 약물 사용에 대한 좋은 예측 변수라는 것을 보여주었다: 위험 요인이 더 많은 청소년들은 약을 더 많이 사용하는 경향이 있었다.

브라이와 동료들이 사용한 모델은 마약 복용자가 비마약 복용자와 특별한 방식으로 다르지 않다는 것이었다.오히려 직면해야 할 문제의 수가 다르다."개인이 대처해야 할 요인의 수는 그러한 요인들이 정확히 무엇인지보다 더 중요하다." (p. 277)이 모형을 고려할 때 단위 가중 회귀 분석은 적절한 분석 방법이다.

베타 웨이트

표준 다중 회귀 분석에서 각 예측 변수에 베타 가중치, 회귀 가중치 또는 가중 회귀 계수W 또는 BW로 표시됨)[citation needed]라고 하는 숫자를 곱한다.이 제품들을 상수와 함께 추가함으로써 예측을 얻는다.어떤 기준에 의한 최선의 예측을 위해 가중치를 선택한 경우, 모형은 적절한 선형 모형이라고 한다.따라서 다중 회귀는 적절한 선형 모형이다.이와는 대조적으로 단위 가중 회귀 분석을 부적절한 선형 모형이라고 한다.

모델 명세

표준 다중 회귀 분석은 결과의 모든 관련 예측 변수가 회귀 모형에 포함되어 있다는 가정에 달려 있다.이러한 가정을 모델 명세서라고 한다.모형은 모든 관련 예측 변수가 모형에 포함되고 모든 관련 예측 변수가 모형에서 제외될 때 지정된다고 한다.실제 환경에서 연구가 모든 관련 예측 변수를 선험적으로 결정할 수 있는 경우는 드물다.이 경우 모형이 지정되지 않고 베타 가중치에 대한 추정치는 누락된 가변 치우침으로 인해 어려움을 겪는다.즉, 베타 체중은 한 표본에서 다음 표본으로 바뀔 수 있으며, 때로는 튕기는 베타의 문제라 불리기도 한다.단위 가중 회귀분석을 유용한 방법으로 만드는 것은 betas를 튕기는 것과 관련된 문제다.

참고 항목

참조

  1. ^ Graefe, Andreas (2015). "Improving forecasts using equally weighted predictors" (PDF). Journal of Business Research. Elsevier. 68 (8): 1792–1799. doi:10.1016/j.jbusres.2015.03.038.
  • Bobko, P, Roth, P. L., & Buster, M. A. (2007)"합성 점수를 만드는 데 있어 단위 가중치의 유용성:문헌 검토, 내용 유효성 적용 및 메타 분석".조직 연구 방법, 10권, 689-709페이지. doi:10.1177/1094428106294734
  • Bry, B. H.; McKeon, P.; Pandina, R. J. (1982). "Extent of drug use as a function of number of risk factors". Journal of Abnormal Psychology. 91 (4): 273–279. doi:10.1037/0021-843X.91.4.273. PMID 7130523.
  • 버지스, E. W. (1928년)"가석방 성패를 결정하는 요인"A. A. Bruce (Ed.)에서 일리노이 주의 확정되지 않은 형벌법과 가석방의 작업 (pp. 205–249)에서.일리노이주 스프링필드:일리노이 주 가석방 위원회.구글 북스
  • 코헨, 제이콥(1990).(지금까지) 배운 것들"이라고 말했다.미국 심리학자, 제45권, 1304-1312쪽. doi:10.1037/0003-066X.45.12.1304
  • 도스, 로빈 M. (1979)"의사결정에서 부적절한 선형 모델의 강력한 아름다움"아메리칸 심리학자, 34권 571-582. doi:10.1037/0003-066X.34.7.571 . 아카이브 pdf
  • 고트프레드슨, D. M. & 스나이더, H. N. (2005년 7월)위험 분류 수학: 청소년 법정을 위한 유효한 도구로 데이터 변경.피츠버그, 펜실베이니아 주:전국 청소년 사법 센터.NCJ 209158.Eric.ed.gov pdf
  • 커비, 데이브 S. (2003)"빅 파이브 특성으로부터 자살이념을 예측하기 위한 단위 가중 회귀 분석을 통한 카트 분석"성격 개인차이, 제35권, 페이지 249-261. doi:10.1016/S0191-8869(02)00174-5
  • 슈미트, 프랭크 L. (1971)"적용된 차분 심리학에서 회귀 분석 및 단순 단위 예측 변수의 상대적 효율성"교육심리 측정, 31권, 699-714페이지. doi:10.1177/0013447103100310
  • 와이너, H, & Thissen, D. (1976년)강력한 회귀로 가는 3단계.사이코메트리카, 제41권(1), 페이지 9–34. doi:10.1007/BF02291695
  • Wilks, S. S. (1938). "Weighting systems for linear functions of correlated variables when there is no dependent variable". Psychometrika. 3: 23–40. doi:10.1007/BF02287917.

추가 읽기

외부 링크