기하학적 중위수

Geometric median
일련의 점의 기하학적 중위수(노란색) 예제입니다.파란색은 질량 중심을 나타냅니다.

기하학에서, 유클리드 공간의 이산 표본점 집합의 기하학적 중위수는 표본점까지의 거리의 합을 최소화하는 지점이다.이는 1차원 데이터에 대한 거리 합계를 최소화하는 특성을 가진 중앙값을 일반화하고 고차원에서 중심 경향을 제공합니다.이것은 또한 1-중간,[1][2] 공간 중위수, 유클리드 미니섬 [2]또는 토리첼리 [3]점으로 알려져 있다.

기하학적 중위수는 [4]통계에서 위치를 추정하는 데 중요한 역할을 하며, L [5]추정기라고도1 합니다., 시설 로케이션의 표준적인 문제로,[6] 수송 코스트를 최소한으로 억제하기 위해서 시설 로케이션의 문제를 모델화합니다.

평면의 세 점에 대한 문제의 특별한 경우(즉, 아래 정의에서는 m = 3과 n = 2)는 페르마의 문제로도 알려져 있다. 이는 최소 슈타이너 나무의 건설에서 발생하며, 원래 피에르 드 페르마에 의해 제기되었고 에반젤리스타 토리첼리[7]의해 해결되었다.그것의 용액은 이제 세 개의 [8]표본점에 의해 형성된 삼각형의 페르마 점으로 알려져 있다.기하학적 중앙값은 알프레드 웨버가 1909년 시설 [2]위치에 관한 책에서 문제를 논의한 후 웨버 문제로 알려진 가중 거리의 을 최소화하는 문제로 일반화될 수 있다.일부 출처는 대신 웨버 문제를 페르마-베버 [9]문제라고 부르지만, 다른 출처는 가중치가 없는 기하학적 중위수 [10]문제에 이 이름을 사용한다.

Wesolowsky(1993)는 기하학적 중위수 문제에 대한 조사를 제공한다.비이산점 세트에 대한 문제의 일반화에 대해서는 Fecete, Mitchell & Beurer(2005)를 참조한다.

정의.

공식적으로 각 R \ { \ \ mathbb { } ^ { } 、 x m x 、 x m } x x m 、 、 x m 、 x x 、 m m median { { { { 、 m median { { { { {{ { { { { median of of of m 、 m { m 、 m 、 m m { m 、 m { m 、 m

여기서 arg min은 합계를 최소화하는 yy의 값을 의미합니다.이 경우은 모든 유클리드 로부터 xi표시 까지의 합계가 최소인 입니다.

특성.

  • 1차원의 경우 기하학적 중위수가 중위수와 일치합니다.만약 n은 이상이 일도량의 중선도 지점에서.},지만 독특하게 만약 n심지어어 그것이 될 수 있는 어떤 지점 seg하게 결정하지 못한다 거리의 합(그 오더에 좀 더 정밀하게, 만약 이 지점들은p1,…, pn, 기하학적 평균은 중간 지점 p(n+1)/2{\displaystyle p_{(n+1)/2}을 최소화하기 때문이다.m2개의 n / ({ p( )+ ({ style 사이에 삽입합니다.
  • 기하학적 중위수는 점이 공선선[13]아닐 때마다 고유합니다.
  • 기하학적 중위수는 변환[5][11]회전을 포함한 유클리드 유사성 변환에 등변합니다.즉, 기하학적 중위수를 변환하거나 표본 데이터에 동일한 변환을 적용하여 변환된 데이터의 기하학적 중위수를 찾는 방법으로 동일한 결과를 얻을 수 있습니다.이 속성은 기하학적 중위수가 쌍방향 거리에서만 정의되며 표본 데이터가 표현되는 직교 데카르트 좌표계에는 의존하지 않습니다.반면 다변량 데이터 집합에 대한 성분별 중위수는 일반 회전 불변수가 아니며 [5]좌표 선택과 독립적이지도 않습니다.
  • 기하학적 중위수의 분해점은 0.5입니다.[5]즉, 최대 절반의 표본 데이터가 임의로 손상될 수 있으며 표본의 중위수는 손상되지 않은 데이터의 위치에 대한 강력한 추정치를 제공합니다.

특수한 경우

  • 3개(비공선) 점의 경우 해당 점으로 형성된 삼각형의 각도가 120° 이상인 경우 기하학적 중위수는 해당 각도의 정점에 있는 점이 됩니다.모든 각도가 120° 미만인 경우 기하학적 중위수는 삼각형 내부의 점으로 삼각형 [11]정점의 각 쌍에 120°의 각도를 기울입니다.이것은 세 개의 꼭지점에 의해 형성된 삼각형의 페르마 점으로도 알려져 있다.(3개의 점이 공선일 경우 기하학적 중위수는 1차원 중위수의 경우와 마찬가지로 다른 두 점 사이의 점이 됩니다.)
  • 4개동일 평면 점의 경우, 4개의 점 중 하나가 다른 3개의 점에 의해 형성된 삼각형 안에 있으면 기하학적 중위수가 해당 점이 됩니다.그렇지 않으면 4개의 점이 볼록한 사변형을 형성하고 기하학적 중위수가 사변형의 대각선의 교차점이 됩니다.4개의 동일평면 점의 기하학적 중위수는 [14]4개의 점의 고유한 라돈 점과 동일합니다.

계산

기하학적 중앙값이 이해하기 쉬운 개념이지만, 이를 계산하는 것은 어려운 일입니다.기하학적 중앙값과 유사하게 정의되는 중심 또는 질량 중심은 각 점까지의 거리 제곱의 합을 최소화하는 간단한 공식으로 찾을 수 있다. 그 좌표는 점들의 좌표의 평균이다. 그러나 명시적 공식이나 산술 연산자만을 포함하는 정확한 알고리즘은 없는 것으로 나타났다.이온과 k번째 루트는 일반적으로 기하학적 중위수에 존재할 수 있습니다.따라서,[15]계산 모델에서는 이 문제의 해법에 대한 수치적 또는 상징적 근사만이 가능하다.

그러나 각 단계가 더 정확한 근사치를 생성하는 반복 절차를 사용하여 기하학적 중위수에 대한 근사치를 계산하는 것은 간단하다.이 유형의 절차는 각 표본점까지의 거리가 볼록하고 볼록함수의 합이 볼록함수이기 때문에 표본점까지의 거리의 이 볼록함수라는 사실에서 도출할 수 있다.따라서 각 단계에서 거리의 합을 줄이는 절차는 로컬 최적값에 갇힐 수 없습니다.

Endre [16]Weiszfeld의 연구 후에 Weiszfeld 알고리즘이라고 불리는 이 유형의 일반적인 접근법은 반복적으로 재가중된 최소 제곱의 형태이다.이 알고리즘은 현재 추정치에서 표본점까지의 거리에 반비례하는 가중치 집합을 정의하고 이러한 가중치에 따라 표본의 가중 평균인 새 추정치를 생성합니다.그것은,

이 방법은 거의 모든 초기 위치에 수렴되지만 추정치 중 하나가 지정된 점 중 하나에 해당하는 경우에는 수렴하지 못할 수 있습니다.이러한 경우를 처리하도록 수정하여 모든 초기 [13]점에 수렴할 수 있습니다.

Bose, Maheshwari Morin(2003)은 이 문제에 대한 대략적인 최적의 해결책을 찾기 위한 보다 정교한 기하학적 최적화 절차를 설명한다.Nie, Parrilo & Sturmfels(2008)가 보여주듯이, 이 문제는 반확정 프로그램으로 표현될 수도 있다.

Cohen et al. (2016)는 거의 선형 시간에 임의의 정밀도로 기하학적 중위수를 계산하는 방법을 보여준다.

기하학적 중위수의 특성화

y가 주어진 모든 점 xj 구별되는 경우 y는 다음을 만족하는 경우에만 기하학적 중위수입니다.

이는 다음과 같습니다.

바이스펠트의 알고리즘과 밀접한 관련이 있어요

일반적으로 y는 다음과 같은 벡터j u가 존재하는 경우에만 기하학적 중위수입니다.

여기서 x , y경우j,

그리고 x = y의 경우j,

이 조건의 등가 공식은 다음과 같습니다.

이는 중앙값 특성의 일반화로서, 특히 y를 통한 모든 하이퍼플레인에 의해 유도되는 점의 분할은 각 면에서 y와 양의 방향의 동일하고 반대되는 합을 갖는다는 점에서 볼 수 있다.1차원 케이스에서 하이퍼플레인은 점 y 그 자체이며 방향의 합계는 (방향) 계수 측도로 단순화된다.

일반화

기하학적 중위수는 리만 [17]다양체에서 프레셰 평균을 정의하는 데 사용되는 것과 동일한 아이디어를 사용하여 유클리드 공간에서 일반 리만 다양체(및 미터법 공간)로 일반화할 수 있다.M M 대응하는 거리 d d 리만 다양체, 1, w(\},\ n(\ n 가중치를 1로 .M{\ M의 관측치 {\ n 그런 다음 데이터 포인트의 가중 기하학적 m {\ m또는 가중 프레셰 중위수)을 다음과 같이 정의한다.

r n M d ( , ) {\ displaystyle M} {\ { \_ {,x_

모든 가중치가 동일하면 단순히 mm이 기하학적 중위수라고 .

「 」를 참조해 주세요.

메모들

  1. ^ 보다 일반적인 k-중간 문제는 각 표본점에서 가장 가까운 중심까지의 거리의 합을 최소화하면서 k개의 군집 중심 위치를 묻는 것입니다.
  2. ^ a b c 드레즈너 외(2002)
  3. ^ Cieslik (2006)
  4. ^ Lawera & Thompson (1993)
  5. ^ a b c d Lopuhaae & Rouseeuuw (1991)
  6. ^ Iceelt & Marianov (2011).
  7. ^ Krarup & Vajda(1997).
  8. ^ 스페인(1996년).
  9. ^ 브림버그(1995).
  10. ^ Bose, Maheshwari & Morin(2003).
  11. ^ a b c 홀데인(1948년)
  12. ^ 청구항 18.10, 기하학적 방법과 최적화 문제, V. 볼탄스키, H. 마르티니, V. 솔탄, 스프링거, 1999.
  13. ^ a b Vardi & Zhang (2000)
  14. ^ Cieslik(2006), 페이지 6; Plastria(2006).볼록한 케이스는 원래 지오반니 파그나노에 의해 증명되었다.
  15. ^ Bajaj(1986년); Bajaj(1988년).앞서 Cokayne & Melzak(1969)은 비행기의 5개 지점에 대한 스타이너 지점은 자 나침반으로 구성할 수 없다는 것을 증명했다.
  16. ^ 바이스펠트(1937년), 쿤(1973년), 찬드라세카란과 타미르(1989년).
  17. ^ Fletcher, Venkatasubramanian & Joshi(2009).

레퍼런스