반복 비례 피팅

Iterative proportional fitting

X{X\displaystyle}은 잘 어울리는 행렬을 찾아야 하는 반복 비례 탈의 절차(IPF조절 또는 IPFP, 또한biproportional 또는 biproportion 통계학이나 경제학에서 탈의(입출력 분석으로 총체적으로 알려져 등), 경제학에서 RASalgorithm[1], 조사 통계에 raking, 컴퓨터 과학에서 매트릭스 스케일링하는 것이 작전이다.는 가장 가깝지만 대상 행 및 열 합계가 표시됩니다(의 제약 조건을 제공합니다.내부는 알 수 없습니다).적합 매트릭스는 X Q X 입니다. P(\ P Q Q X X Y(\ Y의 여백(행 및 열 합계)을 대각 행렬입니다. 일부 알고리즘을 선택하여 바이프로포트를 수행할 수 있습니다.우리는 또한 그 엔트로피 maximization,[2][3]정보 손실은 명시한 열은 모두 어울리게 한 다음 지정한 칼럼 합계에 맞춰;각각의 단계는 보통, 그래서 이 단계 주기에서, re-adjust를 반복하는 이전 단계의 경기 방해 그 난들 매트릭스수들로 이루어져 있습니다 최소화(또는cross-entropy)[4]또는 후방 지역 경계다.는 받을 수 있는모든 지정된 한계 총계가 만족스럽게 근사될 때까지 행과 열을 차례로 선택합니다.그러나 모든 알고리즘이 동일한 [5]솔루션을 제공합니다.3차원 또는 그 이상의 경우에는 조정 단계가 각 치수의 여백에 차례로 적용되며, 마찬가지로 사이클로 반복된다.

역사

IPF조절"다시 만들" 많은 때는 Kruithof에 의해 1937년[6]에서 통화량("Kruithof의 이중 요소 방식"), Deming과 슈테판 1940[7]에 인구 조사 crosstabulations 조정을 위해, G.V. Sheleikhovskii 교통으로서의 Bregman에 의해 보도되기 위해 관계에 제일 일찍 왔다.[8](Deming과 슈테판 알고리즘 번째의 minimizer를 끌어내려IPFP을 제안했다.e Pearson X-제곱 통계량. Stephan은 나중에 이 통계량을 보고하지 않았습니다.[9]독특함과 융합의 초기 증거들은 싱크혼,[10] 바차라크,[11][12] 비숍, 그리고 피엔베르크에서 나왔다.[13]IPFP가 임의의 수의 차원에 대한 최대우도 추정기를 찾는다는 비숍의 증거는 1959년 브라운이 2x2x2에 대해 증명한 것이다.사례. Fienberg의 미분 기하학에 의한 증명은 엄밀하게 양의 표에 대해 방법의 일정한 교차곱 비율을 이용한다.Csiszarr(1975).[14]엔트리가 0인 일반 테이블에 필요한 충분한 조건을 발견했습니다.Pukelsheim과 Simeone(2009)은 수렴과 오류 동작에 대한 추가 결과를 제공한다.

알고리즘과 그 수학적 기초에 대한 철저한 설명은 비숍 외 연구진(1975)[16]의 저서에서 찾을 수 있다.Idel(2016)[17]은 보다 최근의 조사를 제공한다.

다른 일반 알고리즘은 IPFP와 동일한 제한을 제공하도록 수정할 수 있습니다. 예를 들어 Newton-Raphson 방법EM 알고리즘입니다.대부분의 경우 IPFP는 계산 속도, 낮은 스토리지 요건, 수치 안정성 및 대수적 단순성 때문에 선호됩니다.

IPFP의 적용은 교통 계획(Lamond 및 Stewart), 교통 계획, 조사 가중치, 교차 분류 인구 통계 데이터의 합성, 경제학의 입력-출력 모델 조정, 예상 준독립적 분할표 추정, 이원적 분배포함하도록 성장했다.선형대수의 [18]전제조건에 대한 정치적 대표 체계와 nment systems of preconditioner.

쌍운송

이원형 행렬은 알고리즘이 이를 해결하기 위해 사용하는 것이 무엇이든 다음과 같은 개념입니다(\ Z Y(\Y) 및 X X 치수,(\ n의 실제 비음수 행렬로 알려져 있습니다.Y Y 내부는 알 수 . 여백을 검색됩니다. , \ Xs \ sng 주어진 기준에서 적합 은 X ( , ) Z ( \ X ( , Y ) = P \ P} Q \ Q는 대각 행렬이다.

n j ( x / j min \ {_ { }\( x { / _ { } s.t. . { \ _ j x x x x { x { } _ j} _ { ij } { ij } { i } { } { ij } { y } { }∀ {\ i { i } 및 i ij . j { \{ i } x _ { ij = { } " j 입니다.Lagrangian은 i i j log ( i / ij) - p (- x j) - j ( . - j){ L = \ } \ { ix}_ { log ( ) _ i } { log } { log ) 。{ij_{ij

x j exp -( + i + j ){ { = z { } \- ( + p { } + _ { )는 i j에 대해 다음과 같습니다.

- ( + }=\(1 - j { }=\의 위치 후 산출됩니다.

§ { i X { X

i. ( j ) - }= _ {{- i} 및 j . ( i ) -1 { }= § j { Q {는 반복적으로 해결할 수 있는 시스템입니다.

{ i 및 Q ( + ) . ( z +)-1 { ( + 1 }) {z } § j

X(\ X 선택한 초기화와는 무관합니다(예: j ) } ( 수 있습니다그 후 이 과정은 프로그램이 콤팩트 집합에서 정의된 볼록하고 연속적으로 유도 가능한 함수인 것을 추론하기 때문에 독특한 고정점을 갖는다.솔루션이 존재하지 않는 경우도 있습니다.Miller R.E. & Blair P.D. (2009) 입출력 분석에서 인용한 de Mesnard의 예를 참조하십시오.Foundations and Extensions, 제2판, 캠브리지(영국): 캠브리지 대학 출판부, 335-336페이지(무료 이용 가능)

일부 속성(de Mesnard(1994) 참조):

정보 부족:Z { Z(가) 정보를 가져오지 않는 (: z { i { i X

Idemputency : ( , ) ( \ Y )가Z ( \ Z 여백이 같은 Z ( \ X ( , Y ) = }

2중 수송 구성: ( ( , ) , ( , ) \ K ( , { 1) , K, (\ K

Zeros:0으로 투영되므로 블록-대각행렬은 블록-대각행렬로, 삼각행렬은 삼각행렬로 투영된다.

분리 가능한 수정의 정리 Z(\ Z 대각행렬로 전승하거나 대각행렬로 후승할 해는 변하지 않는다.

"단일성"의 정리: K 지정되지 않은 알고리즘이며^=(, = UZ V(\ {= K) U V 알 수 없습니다.rm P(\ P Q Q입니다.시연은 위의 특성, 특히 분리 가능한 수정의 정리 및 이중 이동의 구성을 호출합니다.

알고리즘 1(클래식 IPF)

양방향 (I × J) x ({를 지정하면, 우리는 새로운 m j }= 모든 i에 대해 한다.} i i = v j { _ { i } { \{ m}_ { ij } \ _{ j}

m^ (0) : i {{ { }^{ ( 0 ) : _ { } {\ {\ {\ {\ {\1 { 1}세트 선택

행 및 열의 합계가 u 및 v에 충분히 근접할 때까지 이러한 단계를 반복합니다.

주의:

  • 알고리즘의 RAS 형식에 대해서는 입력 벡터가 대각선상에 있는 (대각선) 행렬을 생성하는(대각선) : k k × { \ : \ {} ^ { } \ \{ } ^ { k \ k )를 정의합니다.그런 다음 각 행 조정에 대해 R d g ( i j ( - ){ R }\ _ { _ 2 - 2로 합니다. 서 m 은 m = 1 - = 1 - 0 = 0 = 0 = 0 = 0 = 0 = 0 = 0 = 0 = 0 g( v j ( - - ){ S^ { \ } { v { } { \ _ { } _ { }^{ ( \ - )}} 。 2 = - - Meta 2 IPF. 실제로는 R 및 S 매트릭스 전체를 사용하여 실제 행렬 곱셈을 구현하지 않습니다. RAS 형식은 계산 편의라기보다는 표기에 가깝습니다.

알고리즘 2(요인 추정)

기존의 IPFP와 같은 설정을 전제로 합니다.또는 행 및 열 요인을 개별적으로 추정할 수 있습니다. b^ () : { { { }^{ ( 0 ) : 을 선택하고, 1 { \eta \1 } set 을 선택합니다.

a와 b의 연속적인 변경이 충분히 무시할 수 있을 때까지 이 단계를 반복합니다(결과 행과 열의 합이 u와 v에 가깝음을 나타냅니다).

마지막으로 결과 매트릭스는 ^ ^ ( ) ^ ( ) j{ { i } = {} { } { \ { } { }^{ i } { \ hat }^{ i ( } } } x {

주의:

  • 알고리즘의 두 변형은 수학적으로 동등하며, 이는 형식 귀납에서 알 수 있다.계수 추정에서는 각 사이클의 m ( 을 실제로 계산할 필요가 없습니다.
  • 는 m j x ( i { _ { }= a { } b _ { }x { = ( \ a _ { } ( \ { { \ b j ) = ( \ display a _ { ij ) ) ) 。

논의

M과 X의 애매하게 요구되는 '유사성'은 다음과 같이 설명할 수 있습니다.IPFP(및 RAS)는 크로스 프로덕트 비율을 유지합니다.

j ( ) () ) j ( ) j. { m { }^{ ( ) = a { () { } 。

이 특성은 때때로 구조 보존이라고 불리며 분할표의 기하학적 해석과 Fienberg(1970)의 정설 논문의 수렴 증명으로 직접 이어진다.

일반적으로 직접 요인 추정(알고리즘 2)이 IPF를 해결하는 보다 효율적인 방법입니다.반면 기존 IPFP의 형태에서는

각 반복 단계의 기초 연산(행 및 열 적합 단계 포함), 요인 추정만 필요합니다.

동작은 기존의 IPFP보다 적어도1 차수 이상 빠릅니다.

IPFP를 사용하여 준독립(불완전한) 분할표를 추정할 수 있으며, m = i + j _ { i } , v_ { =_ { +} , { m { } = 0 cellsdisplay cells cells = 1 { = 0 cells cells cells cells cells cells cells cells cells cells cells cells 0 cells cells cells cells cells cells cells cells cells 0 0 ip 0 ip 0 0 for 0 ip 0 ip 0 완전히 독립된(완전한) 분할표의 경우 IPFP를 사용한 추정은 정확히 한 사이클로 끝납니다.

NM 방식과의 비교

IPF와 마찬가지로 NM-method Z( ×m \ Z\ \ } ^ { \ m )에 가장 가까운 X(\ X 찾는 연산입니다.행의 합계 및 컬럼의 합계는Y표시 매트릭스와 . × ){ ( \ {} ^ { \ m} )

다만, NM-MethodIPF를 들어 NM 방식은 IPF와는 [19]다른 크기의 매트릭스의 근접도를 정의합니다. NM-method는 행렬 Z Y Y의 행 합계와 열 합계로 특징지어지는 모집단의 표본이 아니라 다른 [19]모집단을 나타내는 문제X(\ X 해결하기 위해 개발되었습니다.반면 Z IPF가 최대우도 추정치로 적용되는 문제에 대한 이 모집단의 샘플입니다.


MLE의 존재와 고유성

MLE의 존재와 고유성에 대한 필요충분조건은 일반적인 경우 복잡하지만[20]( 참조), 2차원 테이블에 대한 충분한 조건은 간단하다.

  • 관찰된 테이블의 여백은 사라지지 않습니다(, x i+ > , + > { x _ { i + } > , \ x _ { + } > ) 。
  • 관찰된 표는 분리할 수 없다(즉, 표는 블록-슬롯 형상으로 적합하지 않다).

하나의 MLE가 존재하는 경우 IPFP는 최악의 경우 선형 컨버전스를 나타내지만(Fienberg 1970), 지수 컨버전스도 관찰되고 있습니다(Pukelsheim 및 Simeone 2009).직접 추정기(즉, (^ j)의닫힌 형식({displaystyle이 존재하는 경우 IPFP는 2회 반복 후 수렴합니다.일의의 MLE가 존재하지 않는 경우, IPFP는 설계상(Haberman 1974)으로 이른바 확장 MLE에 컨버전스 합니다만, 컨버전스는 임의로 느릴 수 있어 계산상 실현 불가능한 경우가 많습니다.

관찰된 모든 값이 엄밀하게 양의 값일 경우 MLE의 존재와 고유성이 보장되므로 수렴이 보장됩니다.

행 및 열 합계와 표적이 주어진 다음 표를 고려하십시오.

1 2 3 4 타깃
1 40 30 20 10 100 150
2 35 50 100 75 260 300
3 30 80 70 120 300 400
4 20 30 40 50 140 150
125 190 230 255 800
타깃 200 300 400 100 1000

기존의 IPFP를 실행하기 위해 먼저 행을 조정합니다.

1 2 3 4 타깃
1 60.00 45.00 30.00 15.00 150.00 150
2 40.38 57.69 115.38 86.54 300.00 300
3 40.00 106.67 93.33 160.00 400.00 400
4 21.43 32.14 42.86 53.57 150.00 150
161.81 241.50 281.58 315.11 1000.00
타깃 200 300 400 100 1000

첫 번째 단계는 행 합계와 정확히 일치하지만 열 합계는 일치하지 않습니다.다음으로 열을 조정합니다.

1 2 3 4 타깃
1 74.16 55.90 42.62 4.76 177.44 150
2 49.92 71.67 163.91 27.46 312.96 300
3 49.44 132.50 132.59 50.78 365.31 400
4 26.49 39.93 60.88 17.00 144.30 150
200.00 300.00 400.00 100.00 1000.00
타깃 200 300 400 100 1000

열 합계는 목표와 정확히 일치하지만 열 합계는 더 이상 일치하지 않습니다.각각 행 조정과 열 조정이 있는 세 개의 사이클을 완료한 후, 보다 가까운 근사치를 얻을 수 있습니다.

1 2 3 4 타깃
1 64.61 46.28 35.42 3.83 150.13 150
2 49.95 68.15 156.49 25.37 299.96 300
3 56.70 144.40 145.06 53.76 399.92 400
4 28.74 41.18 63.03 17.03 149.99 150
200.00 300.00 400.00 100.00 1000.00
타깃 200 300 400 100 1000

실행

R 패키지 mipfp(현재 버전 3.1)는 기존의 반복 비례 장착 [21]절차를 다차원적으로 구현합니다.이 패키지를 사용하면 주어진 목표 한계 분포에 대한 N차원 배열을 업데이트할 수 있습니다(다차원적일 수 있음).

Python에는 pip을 통해 설치할 수 있는 동등한 패키지[22][23] ipfn이 있습니다.패키지는 numpy 및 pander 입력 객체를 지원합니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Bacharach, M. (1965). "Estimating Nonnegative Matrices from Marginal Data". International Economic Review. Blackwell Publishing. 6 (3): 294–310. doi:10.2307/2525582. JSTOR 2525582.
  2. ^ Jaynes E.T.(1957) 정보이론과 통계역학, Physical Review, 106: 620-30.
  3. ^ Wilson A.G.(1970) 도시 및 지역 모델링의 엔트로피.런던: Pion LTD, 공간 및 환경 시스템 분석의 Monograph.
  4. ^ Kullback S. & Leibler R.A.(1951) 정보와 충분성에 관한 수학통계연보, 22(1951) 79-86.
  5. ^ de Mesnard, L. (1994). "Unicity of Biproportion". SIAM Journal on Matrix Analysis and Applications. 15 (2): 490–495. doi:10.1137/S0895479891222507.https://www.researchgate.net/publication/243095013_Unicity_of_Biproportion
  6. ^ 크루이토프, J. (1937년)Telefoonverkeersrekening(전화 트래픽 계산), De Ingenieur, 52, 8, E15-E25
  7. ^ Deming, W. E.; Stephan, F. F. (1940). "On a Least Squares Adjustment of a Sampled Frequency Table When the Expected Marginal Totals are Known". Annals of Mathematical Statistics. 11 (4): 427–444. doi:10.1214/aoms/1177731829. MR 0003527.
  8. ^ Lamond, B.와 Stewart, N.F.(1981) Bregman의 균형법.교통연구실 15B, 239-248.
  9. ^ Stephan, F. F. (1942). "Iterative method of adjusting frequency tables when expected margins are known". Annals of Mathematical Statistics. 13 (2): 166–178. doi:10.1214/aoms/1177731604. MR 0006674. Zbl 0060.31505.
  10. ^ 싱크혼, 리처드(1964)."임의적 양의 행렬과 이중 확률 행렬 사이의 관계"인: 수학 통계 연보 35.2 페이지, 876–879.
  11. ^ 바차라크, 미카엘(1965)."경계 데이터에서 음이 아닌 행렬 추정"인: 국제 경제 리뷰 6.3, 페이지 294–310.
  12. ^ 비숍, Y.M. M. (1967년)"다차원 분할표: 세포 추정치"박사 논문하버드 대학교
  13. ^ Fienberg, S. E. (1970). "An Iterative Procedure for Estimation in Contingency Tables". Annals of Mathematical Statistics. 41 (3): 907–917. doi:10.1214/aoms/1177696968. JSTOR 2239244. MR 0266394. Zbl 0198.23401.
  14. ^ Csiszár, I. (1975). "I-Divergence of Probability Distributions and Minimization Problems". Annals of Probability. 3 (1): 146–158. doi:10.1214/aop/1176996454. JSTOR 2959270. MR 0365798. Zbl 0318.60013.
  15. ^ "On the Iterative Proportional Fitting Procedure: Structure of Accumulation Points and L1-Error Analysis". Pukelsheim, F. and Simeone, B. Retrieved 2009-06-28.
  16. ^ Bishop, Y. M. M.; Fienberg, S. E.; Holland, P. W. (1975). Discrete Multivariate Analysis: Theory and Practice. MIT Press. ISBN 978-0-262-02113-5. MR 0381130.
  17. ^ Martin Idel (2016) 매트릭스 스케일링과 Sinkhorn의 정규형 매트릭스 및 포지티브 맵 arXiv 프리프린트 https://arxiv.org/pdf/1609.06349.pdf 리뷰
  18. ^ Bradley, A.M. (2010) 행렬의 균등화와 제한된 메모리 준뉴턴 방법에 대한 이들의 적용을 위한 알고리즘.2010년 스탠퍼드 대학 계산 및 수학 공학 연구소 박사 논문
  19. ^ a b Naszodi, A.; Mendonca, F. (2021). "A new method for identifying the role of marital preferences at shaping marriage patterns". Journal of Demographic Economics. 1 (1): 1–27. doi:10.1017/dem.2021.1.
  20. ^ Haberman, S. J. (1974). The Analysis of Frequency Data. Univ. Chicago Press. ISBN 978-0-226-31184-5.
  21. ^ Barthélemy, Johan; Suesse, Thomas. "mipfp: Multidimensional Iterative Proportional Fitting". CRAN. Retrieved 23 February 2015.
  22. ^ "ipfn: pip".
  23. ^ "ipfn: github".