기하학적 중위수
Geometric median기하학에서, 유클리드 공간의 이산 표본점 집합의 기하학적 중위수는 표본점까지의 거리의 합을 최소화하는 지점이다.이는 1차원 데이터에 대한 거리 합계를 최소화하는 특성을 가진 중앙값을 일반화하고 고차원에서 중심 경향을 제공합니다.이것은 또한 1-중간,[1][2] 공간 중위수, 유클리드 미니섬 [2]점 또는 토리첼리 [3]점으로 알려져 있다.
기하학적 중위수는 [4]통계에서 위치를 추정하는 데 중요한 역할을 하며, L [5]추정기라고도1 합니다.또, 시설 로케이션의 표준적인 문제로,[6] 수송 코스트를 최소한으로 억제하기 위해서 시설 로케이션의 문제를 모델화합니다.
평면의 세 점에 대한 문제의 특별한 경우(즉, 아래 정의에서는 m = 3과 n = 2)는 페르마의 문제로도 알려져 있다. 이는 최소 슈타이너 나무의 건설에서 발생하며, 원래 피에르 드 페르마에 의해 제기되었고 에반젤리스타 토리첼리에 [7]의해 해결되었다.그것의 용액은 이제 세 개의 [8]표본점에 의해 형성된 삼각형의 페르마 점으로 알려져 있다.기하학적 중앙값은 알프레드 웨버가 1909년 시설 [2]위치에 관한 책에서 문제를 논의한 후 웨버 문제로 알려진 가중 거리의 합을 최소화하는 문제로 일반화될 수 있다.일부 출처는 대신 웨버 문제를 페르마-베버 [9]문제라고 부르지만, 다른 출처는 가중치가 없는 기하학적 중위수 [10]문제에 이 이름을 사용한다.
Wesolowsky(1993)는 기하학적 중위수 문제에 대한 조사를 제공한다.비이산점 세트에 대한 문제의 일반화에 대해서는 Fecete, Mitchell & Beurer(2005)를 참조한다.
정의.
공식적으로 각 R \ { \ \ mathbb { } ^ { } 、 x m x 、 x m } x x m 、 、 x m 、 x x 、 m m median { { { { 、 m median { { { { {{ { { { { median of of of m 、 m { m 、 m 、 m m { m 、 m { m 、 m
여기서 arg min은 합계를 최소화하는 yy의 값을 의미합니다.이 경우 이 점은 모든 유클리드 로부터 xi표시 까지의 합계가 최소인 입니다.
특성.
- 1차원의 경우 기하학적 중위수가 중위수와 일치합니다.만약 n은 이상이 일도량의 중선도 지점에서.},지만 독특하게 만약 n심지어어 그것이 될 수 있는 어떤 지점 seg하게 결정하지 못한다 거리의 합(그 오더에 좀 더 정밀하게, 만약 이 지점들은p1,…, pn, 기하학적 평균은 중간 지점 p(n+1)/2{\displaystyle p_{(n+1)/2}을 최소화하기 때문이다.m2개의 n / ({와 p( )+ ({ style 사이에 삽입합니다.
- 기하학적 중위수는 점이 공선선이 [13]아닐 때마다 고유합니다.
- 기하학적 중위수는 변환과 [5][11]회전을 포함한 유클리드 유사성 변환에 등변합니다.즉, 기하학적 중위수를 변환하거나 표본 데이터에 동일한 변환을 적용하여 변환된 데이터의 기하학적 중위수를 찾는 방법으로 동일한 결과를 얻을 수 있습니다.이 속성은 기하학적 중위수가 쌍방향 거리에서만 정의되며 표본 데이터가 표현되는 직교 데카르트 좌표계에는 의존하지 않습니다.반면 다변량 데이터 집합에 대한 성분별 중위수는 일반 회전 불변수가 아니며 [5]좌표 선택과 독립적이지도 않습니다.
- 기하학적 중위수의 분해점은 0.5입니다.[5]즉, 최대 절반의 표본 데이터가 임의로 손상될 수 있으며 표본의 중위수는 손상되지 않은 데이터의 위치에 대한 강력한 추정치를 제공합니다.
특수한 경우
- 3개(비공선) 점의 경우 해당 점으로 형성된 삼각형의 각도가 120° 이상인 경우 기하학적 중위수는 해당 각도의 정점에 있는 점이 됩니다.모든 각도가 120° 미만인 경우 기하학적 중위수는 삼각형 내부의 점으로 삼각형 [11]정점의 각 쌍에 120°의 각도를 기울입니다.이것은 세 개의 꼭지점에 의해 형성된 삼각형의 페르마 점으로도 알려져 있다.(3개의 점이 공선일 경우 기하학적 중위수는 1차원 중위수의 경우와 마찬가지로 다른 두 점 사이의 점이 됩니다.)
- 4개의 동일 평면 점의 경우, 4개의 점 중 하나가 다른 3개의 점에 의해 형성된 삼각형 안에 있으면 기하학적 중위수가 해당 점이 됩니다.그렇지 않으면 4개의 점이 볼록한 사변형을 형성하고 기하학적 중위수가 사변형의 대각선의 교차점이 됩니다.4개의 동일평면 점의 기하학적 중위수는 [14]4개의 점의 고유한 라돈 점과 동일합니다.
계산
기하학적 중앙값이 이해하기 쉬운 개념이지만, 이를 계산하는 것은 어려운 일입니다.기하학적 중앙값과 유사하게 정의되는 중심 또는 질량 중심은 각 점까지의 거리 제곱의 합을 최소화하는 간단한 공식으로 찾을 수 있다. 그 좌표는 점들의 좌표의 평균이다. 그러나 명시적 공식이나 산술 연산자만을 포함하는 정확한 알고리즘은 없는 것으로 나타났다.이온과 k번째 루트는 일반적으로 기하학적 중위수에 존재할 수 있습니다.따라서,[15] 이 계산 모델에서는 이 문제의 해법에 대한 수치적 또는 상징적 근사만이 가능하다.
그러나 각 단계가 더 정확한 근사치를 생성하는 반복 절차를 사용하여 기하학적 중위수에 대한 근사치를 계산하는 것은 간단하다.이 유형의 절차는 각 표본점까지의 거리가 볼록하고 볼록함수의 합이 볼록함수이기 때문에 표본점까지의 거리의 합이 볼록함수라는 사실에서 도출할 수 있다.따라서 각 단계에서 거리의 합을 줄이는 절차는 로컬 최적값에 갇힐 수 없습니다.
Endre [16]Weiszfeld의 연구 후에 Weiszfeld 알고리즘이라고 불리는 이 유형의 일반적인 접근법은 반복적으로 재가중된 최소 제곱의 형태이다.이 알고리즘은 현재 추정치에서 표본점까지의 거리에 반비례하는 가중치 집합을 정의하고 이러한 가중치에 따라 표본의 가중 평균인 새 추정치를 생성합니다.그것은,
이 방법은 거의 모든 초기 위치에 수렴되지만 추정치 중 하나가 지정된 점 중 하나에 해당하는 경우에는 수렴하지 못할 수 있습니다.이러한 경우를 처리하도록 수정하여 모든 초기 [13]점에 수렴할 수 있습니다.
Bose, Maheshwari 및 Morin(2003)은 이 문제에 대한 대략적인 최적의 해결책을 찾기 위한 보다 정교한 기하학적 최적화 절차를 설명한다.Nie, Parrilo & Sturmfels(2008)가 보여주듯이, 이 문제는 반확정 프로그램으로 표현될 수도 있다.
Cohen et al. (2016)는 거의 선형 시간에 임의의 정밀도로 기하학적 중위수를 계산하는 방법을 보여준다.
기하학적 중위수의 특성화
y가 주어진 모든 점 x와j 구별되는 경우 y는 다음을 만족하는 경우에만 기하학적 중위수입니다.
이는 다음과 같습니다.
바이스펠트의 알고리즘과 밀접한 관련이 있어요
일반적으로 y는 다음과 같은 벡터j u가 존재하는 경우에만 기하학적 중위수입니다.
여기서 x , y의 경우j,
그리고 x = y의 경우j,
이 조건의 등가 공식은 다음과 같습니다.
이는 중앙값 특성의 일반화로서, 특히 y를 통한 모든 하이퍼플레인에 의해 유도되는 점의 분할은 각 면에서 y와 양의 방향의 동일하고 반대되는 합을 갖는다는 점에서 볼 수 있다.1차원 케이스에서 하이퍼플레인은 점 y 그 자체이며 방향의 합계는 (방향) 계수 측도로 단순화된다.
일반화
기하학적 중위수는 리만 [17]다양체에서 프레셰 평균을 정의하는 데 사용되는 것과 동일한 아이디어를 사용하여 유클리드 공간에서 일반 리만 다양체(및 미터법 공간)로 일반화할 수 있다.M M을 대응하는 거리 d d로 리만 다양체, 1, w(\},\ n(\ n의 가중치를 1로 로 .M{\ M의 관측치 {\ n 그런 다음 데이터 포인트의 가중 기하학적 m {\ m또는 가중 프레셰 중위수)을 다음과 같이 정의한다.
- r n M d ( , ) {\ displaystyle M} {\ { \_ {,x_
모든 가중치가 동일하면 단순히 mm이 기하학적 중위수라고 .
「 」를 참조해 주세요.
메모들
- ^ 보다 일반적인 k-중간 문제는 각 표본점에서 가장 가까운 중심까지의 거리의 합을 최소화하면서 k개의 군집 중심 위치를 묻는 것입니다.
- ^ a b c 드레즈너 외(2002)
- ^ Cieslik (2006)
- ^ Lawera & Thompson (1993)
- ^ a b c d Lopuhaae & Rouseeuuw (1991)
- ^ Iceelt & Marianov (2011).
- ^ Krarup & Vajda(1997).
- ^ 스페인(1996년).
- ^ 브림버그(1995).
- ^ Bose, Maheshwari & Morin(2003).
- ^ a b c 홀데인(1948년)
- ^ 청구항 18.10, 기하학적 방법과 최적화 문제, V. 볼탄스키, H. 마르티니, V. 솔탄, 스프링거, 1999.
- ^ a b Vardi & Zhang (2000)
- ^ Cieslik(2006), 페이지 6; Plastria(2006).볼록한 케이스는 원래 지오반니 파그나노에 의해 증명되었다.
- ^ Bajaj(1986년); Bajaj(1988년).앞서 Cokayne & Melzak(1969)은 비행기의 5개 지점에 대한 스타이너 지점은 자 및 나침반으로 구성할 수 없다는 것을 증명했다.
- ^ 바이스펠트(1937년), 쿤(1973년), 찬드라세카란과 타미르(1989년).
- ^ Fletcher, Venkatasubramanian & Joshi(2009).
레퍼런스
- Bajaj, C. (1986). "Proving geometric algorithms nonsolvability: An application of factoring polynomials". Journal of Symbolic Computation. 2: 99–102. doi:10.1016/S0747-7171(86)80015-3.
- Bajaj, C. (1988). "The algebraic degree of geometric optimization problems". Discrete and Computational Geometry. 3 (2): 177–191. doi:10.1007/BF02187906.
- Bose, Prosenjit; Maheshwari, Anil; Morin, Pat (2003). "Fast approximations for sums of distances, clustering and the Fermat–Weber problem". Computational Geometry: Theory and Applications. 24 (3): 135–146. doi:10.1016/S0925-7721(02)00102-5.
- Brimberg, J. (1995). "The Fermat–Weber location problem revisited". Mathematical Programming. 71 (1, Ser. A): 71–76. doi:10.1007/BF01592245. MR 1362958. S2CID 206800756.
- Chandrasekaran, R.; Tamir, A. (1989). "Open questions concerning Weiszfeld's algorithm for the Fermat-Weber location problem". Mathematical Programming. Series A. 44 (1–3): 293–295. doi:10.1007/BF01587094. S2CID 43224801.
- Cieslik, Dietmar (2006). Shortest Connectivity: An Introduction with Applications in Phylogeny. Combinatorial Optimization. Vol. 17. Springer. p. 3. ISBN 9780387235394.
- Cockayne, E. J.; Melzak, Z. A. (1969). "Euclidean constructability in graph minimization problems". Mathematics Magazine. 42 (4): 206–208. doi:10.2307/2688541. JSTOR 2688541.
- Cohen, Michael; Lee, Yin Tat; Miller, Gary; Pachocki, Jakub; Sidford, Aaron (2016). "Geometric median in nearly linear time" (PDF). Proc. 48th Symposium on Theory of Computing (STOC 2016). Association for Computing Machinery. arXiv:1606.05225. doi:10.1145/2897518.2897647.
- Drezner, Zvi; Klamroth, Kathrin; Schöbel, Anita; Wesolowsky, George O. (2002). "The Weber problem". Facility Location: Applications and Theory. Springer, Berlin. pp. 1–36. ISBN 9783540213451. MR 1933966.
- Eiselt, H. A.; Marianov, Vladimir (2011). Foundations of Location Analysis. International Series in Operations Research & Management Science. Vol. 155. Springer. p. 6. ISBN 9781441975720.
- Fekete, Sándor P.; Mitchell, Joseph S. B.; Beurer, Karin (2005). "On the continuous Fermat-Weber problem". Operations Research. 53 (1): 61–76. arXiv:cs.CG/0310027. doi:10.1287/opre.1040.0137. S2CID 1121.
- Fletcher, P. Thomas; Venkatasubramanian, Suresh; Joshi, Sarang (2009). "The geometric median on Riemannian manifolds with application to robust atlas estimation". NeuroImage. 45 (1 Suppl): s143–s152. doi:10.1016/j.neuroimage.2008.10.052. PMC 2735114. PMID 19056498.
- Haldane, J. B. S. (1948). "Note on the median of a multivariate distribution". Biometrika. 35 (3–4): 414–417. doi:10.1093/biomet/35.3-4.414.
- Krarup, Jakob; Vajda, Steven (1997). "On Torricelli's geometrical solution to a problem of Fermat". IMA Journal of Mathematics Applied in Business and Industry. 8 (3): 215–224. doi:10.1093/imaman/8.3.215. MR 1473041.
- Kuhn, Harold W. (1973). "A note on Fermat's problem". Mathematical Programming. 4 (1): 98–107. doi:10.1007/BF01584648. S2CID 22534094.
- Lawera, Martin; Thompson, James R. (1993). "Some problems of estimation and testing in multivariate statistical process control" (PDF). Proceedings of the 38th Conference on the Design of Experiments. U.S. Army Research Office Report. Vol. 93–2. pp. 99–126. Archived from the original on May 17, 2014.
- Lopuhaä, Hendrick P.; Rousseeuw, Peter J. (1991). "Breakdown points of affine equivariant estimators of multivariate location and covariance matrices". Annals of Statistics. 19 (1): 229–248. doi:10.1214/aos/1176347978. JSTOR 2241852.
- Nie, Jiawang; Parrilo, Pablo A.; Sturmfels, Bernd (2008). "Semidefinite representation of the k-ellipse". In Dickenstein, A.; Schreyer, F.-O.; Sommese, A.J. (eds.). Algorithms in Algebraic Geometry. IMA Volumes in Mathematics and its Applications. Vol. 146. Springer-Verlag. pp. 117–132. arXiv:math/0702005. Bibcode:2007math......2005N. doi:10.1007/978-0-387-75155-9_7. S2CID 16558095.
- Ostresh, L. (1978). "Convergence of a class of iterative methods for solving Weber location problem". Operations Research. 26 (4): 597–609. doi:10.1287/opre.26.4.597.
- 를 클릭합니다Plastria, Frank (2006). "Four-point Fermat location problems revisited. New proofs and extensions of old results" (PDF). IMA Journal of Management Mathematics. 17 (4): 387–396. doi:10.1093/imaman/dpl007. Zbl 1126.90046..
- Spain, P. G. (1996). "The Fermat point of a triangle". Mathematics Magazine. 69 (2): 131–133. doi:10.1080/0025570X.1996.11996409. JSTOR 2690672?origin=pubexport. MR 1573157.
- Vardi, Yehuda; Zhang, Cun-Hui (2000). "The multivariate L1-median and associated data depth". Proceedings of the National Academy of Sciences of the United States of America. 97 (4): 1423–1426 (electronic). Bibcode:2000PNAS...97.1423V. doi:10.1073/pnas.97.4.1423. MR 1740461. PMC 26449. PMID 10677477.
- Weber, Alfred (1909). Über den Standort der Industrien, Erster Teil: Reine Theorie des Standortes (in German). Tübingen: Mohr.
- Wesolowsky, G. (1993). "The Weber problem: History and perspective". Location Science. 1: 5–23.
- Weiszfeld, E.(1937년)."수르 르 포인트 pour lequel 라 somme 데 거리를 지불한 n점 donnes. 최소".도호쿠 수학 저널(프랑스어로).43:355–386.영어로 Weiszfeld, E;Plastria, 프랭크(2008년 4월)로 번역을 하다."그 점에 관해서는 거리의 합 최소는 점을 감안 n에".작전 연구 연보. 167(1):7–41. doi:10.1007/s10479-008-0352-z.S2CID 21000317.