설계 매트릭스

Design matrix

통계학, 특히 회귀분석에서 설계행렬모델행렬 또는 회귀행렬이라고하며 종종 X로 표시되는 일련의 객체 설명변수 값의 행렬입니다.각 행은 개별 개체를 나타내며, 연속되는 열은 변수와 해당 개체의 특정 값에 해당합니다.설계 행렬은 특정 통계 모델(예: 일반 선형 모델)[1][2][3]에 사용됩니다.분산 분석에서 그룹 구성원을 나타내는 지시 변수(1과 0)를 포함하거나 연속형 변수의 값을 포함할 수 있습니다.

설계 행렬에는 설명 변수의 관점에서 반응 변수(종종 종속 변수)에 대한 관측 데이터를 설명하려는 통계 모형의 독립 변수(설명 변수라고도 함)에 대한 데이터가 포함됩니다.이러한 모델과 관련된 이론은 설계 행렬을 포함하는 행렬 조작을 실질적으로 사용합니다. 예를 들어 선형 회귀를 참조하십시오.설계 행렬 개념의 주목할 만한 특징은 분산 분석, ANCOVA 및 선형 [citation needed]회귀 분석과 같은 다양실험 설계와 통계 모델을 나타낼 수 있다는 것입니다.

정의.

매트릭스는 X i j(ith th j열)가i 객체th 관련된 jth변수 값을 나타내도록 XX 정의됩니다.

회귀 모형은 행렬 곱셈을 통해 다음과 같이 표현될 수 있다.

여기서 X는 설계 ,β { 모델 계수 벡터(변수당 1개), {\ e 평균이 0인 랜덤 오류 벡터, y는 각 객체에 대한 예측 출력 벡터입니다.

크기

데이터 행렬에는 n-by-p 차원이 있습니다. 여기서 n은 관측된 표본의 수이고 p는 모든 [4][5]표본에서 측정된 변수(특징)의 수입니다.

이 표현에서 다른 행은 일반적으로 실험의 다른 반복을 나타내며, 열은 다른 데이터 유형(예: 특정 탐침의 결과)을 나타냅니다.예를 들어, 10명이 길에서 끌려나와 4개의 질문을 하는 실험을 실행한다고 가정합니다.데이터 행렬 M은 10×4 행렬(10 행과 4 열을 의미)입니다.이 행렬의 i행j열의 데이텀이 j 질문에 대한 i명의 답변이 됩니다.

산술 평균

산술 평균에 대한 설계 행렬은 1의 열 벡터입니다.

단순 선형 회귀 분석

이 섹션에서는 단순 선형 회귀 분석, 즉 7개의 관측치를 사용한 단일 설명 변수에 대한 회귀 분석의 를 제공합니다.7개의 데이터 지점은 i = 1, 2, …, 7의 경우 {yi, xi}입니다.단순 선형 회귀 모형은 다음과 같습니다.

0 y자형, 1({ \ 회귀선의 기울기입니다.이 모델은 매트릭스 형식으로 다음과 같이 나타낼 수 있습니다.

여기서 설계 행렬의 첫 번째 1 열에서는 y 값을 추정할 수 있고 두 번째 열에서는 해당 y 값과 관련된 x 값을 포함합니다.

다중 회귀

이 섹션에서는 wx의 두 공변량(설명 변수)에 대한 다중 회귀 분석의 를 보여 줍니다. 다시 데이터가 7개의 관측치로 구성되고 예측되는 각 (i {\i}}), 두 공변량 중 wi x i 관측된다고 가정합니다.검토해야 할 모델은 다음과 같습니다.

이 모델은 매트릭스 용어로 다음과 같이 기술할 수 있습니다.

오른쪽의 7×3 매트릭스는 설계 매트릭스입니다.

일원 분산 분석(셀 평균 모형)

이 절에는 3개의 그룹과 7개의 관측치가 있는 일원 분산 분석(ANOVA)이 포함된 예제가 포함되어 있습니다.주어진 데이터 집합에는 첫 번째 그룹에 속하는 첫 번째 세 개의 관측치, 두 번째 그룹에 속하는 다음 두 개의 관측치, 세 번째 그룹에 속하는 마지막 두 개의 관측치가 있습니다.적합시킬 모형이 각 그룹의 평균일 경우 모형이 다음과 같습니다.

쓸 수 있는 것

에서는 i \i})는 i i 평균을 나타냅니다.

일원 분산 분석(기준 그룹에서 오프셋)

분산 분석 모델은 각 그룹 매개변수 δ\ _ 동등하게 작성될 수 있으며, 이는 일부 전체 참조로부터의 오프셋이다.일반적으로 이 기준점은 고려 대상 그룹 중 하나로 간주된다.이는 여러 처리 그룹을 하나의 대조군에 비교하는 맥락에서 타당하며 대조군은 "기준"으로 간주된다.이 예에서는 그룹 1이 참조 그룹으로 선택되었습니다.이와 같이 적합 모델은 다음과 같습니다.

0이라는 제약이 있습니다.

μ(\ 기준 그룹의 평균이고, })는 그룹에 대한 i i와의 차이입니다. \1})은 참조 그룹(표준)과의 차이가 반드시 0이므로 매트릭스에 포함되지 않습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Everitt, B. S. (2002). Cambridge Dictionary of Statistics (2nd ed.). Cambridge, UK: Cambridge University Press. ISBN 0-521-81099-X.
  2. ^ Box, G. E. P.; Tiao, G. C. (1992) [1973]. Bayesian Inference in Statistical Analysis. New York: John Wiley and Sons. ISBN 0-471-57428-7. (제8.1.1절)
  3. ^ Timm, Neil H. (2007). Applied Multivariate Analysis. Springer Science & Business Media. p. 107.
  4. ^ Johnson, Richard A; Wichern, Dean W (2001). Applied Multivariate Statistical Analysis. Pearson. pp. 111–112. ISBN 0131877151.
  5. ^ "Basic Concepts for Multivariate Statistics p.2" (PDF). SAS Institute.

추가 정보

  • Verbeek, Albert (1984). "The Geometry of Model Selection in Regression". In Dijkstra, Theo K. (ed.). Misspecification Analysis. New York: Springer. pp. 20–36. ISBN 0-387-13893-5.