디리클레 공정

Dirichlet process
Diriclet 프로세스 (1 ) , ) {에서 추첨함 네 행은 서로 다른 알파 위부터 아래까지: 1, 10, 100, 1000)를 사용하며 각 행은 동일한 실험의 세 번 반복을 포함한다. 그래프에서 볼 수 있듯이 디리클레 공정의 그림은 이산형 분포로, 이(가) 증가하면서 집중도가 낮아진다(더 넓게 분포). 이 그래프는 디리클레 공정의 스틱 브레이크 공정 뷰를 사용하여 생성되었다

확률론에서 디리클레 프로세스(Peter Gustav Lejeun Dirichlet 이후)는 확률적 프로세스의 계열로서 실현확률분포인 것이다. 즉, 디리클레 공정은 확률 분포로서 범위 자체가 확률 분포의 집합인 것이다. 랜덤 변수의 분포에 대한 사전 지식, 즉 랜덤 변수가 하나 또는 다른 특정 분포에 따라 분포될 가능성이 얼마나 높은지를 설명하는 것은 베이시안 추론에서 종종 사용된다.

예를 들어, 100개의 실제 주사위가 들어 있는 백은 무작위 확률 질량 함수(랜덤 pdf)이다 - 이 무작위 pmf를 샘플링하여 가방에 손을 넣고 주사위를 꺼내는 것, 즉 pmf를 그린다. 100년 전 조잡한 공정을 이용해 제조된 주사위 한 봉지는 균일한 pmf에서 크게 벗어나는 확률을 가질 가능성이 높은 반면 라스베이거스 카지노에서 사용하는 최첨단 주사위 한 봉지는 거의 감지할 수 없는 불완전성을 가질 수 있다. 우리는 디리클레 분포로 pmfs의 랜덤성을 모델링할 수 있다.[1]

디리클레 프로세스는 염기 분포 농도 파라미터(스케일링 파라미터라고도 함)로 불리는 양의 실수 에 의해 지정된다. 기준 분포는 공정의 기대값이다. 즉, Dirichlet 공정은 정규 분포가 평균 주위에 실제 숫자를 그리는 방식으로 기준 분포의 "주변" 분포를 그린다. 그러나 베이스 분포가 연속적이더라도 디리클레 공정에서 도출된 분포는 거의 확실히 분리되어 있다. 스케일링 파라미터는 이 디크릿화가 얼마나 강한지를 지정한다: [\의 한계에서는 실현이 모두 단일 값으로 집중되는 반면 {\의 한계에서는 실현이 계속된다. 두 극단 사이에서 실현은 (가) 증가함에 따라 농도가 점점 더 낮은 이산형 분포다.

디리클레 과정은 디리클레 분포의 무한 차원 일반화로도 볼 수 있다. 디리클레 분포가 범주형 분포이전의 결합인 것과 같은 방식으로, 디리클레 프로세스는 무한하고 비모수적인 이산 분포의 결합 전이다. Dirichlet 프로세스의 특히 중요한 적용은 무한 혼합물 모델에서 선행 확률 분포로 사용된다.

디리클레 과정은 1973년 토마스 퍼거슨에 의해 정식으로 도입되었다.[2] 이후 자연어 처리, 컴퓨터 비전, 생물정보학 등에 데이터 마이닝머신러닝에 적용되었다.

디리클레가 특히 유용하다고 입증된 응용 분야 중 하나는 텍스트 문서의 단어 분포를 모델링하는 것이다. 만약 우리가 k개의 가능한 단어를 포함하는 사전을 가지고 있다면, 특정한 문서는 그것의 단어의 경험적 빈도를 정상화함으로써 생성된 k 길이의 pmf로 표현될 수 있다. 문서 그룹은 pmfs 컬렉션을 생산하고, 우리는 Dirichlet 분포를 맞혀 이러한 pmf의 가변성을 포착할 수 있다. 다른 디리클레 분포는 다른 주제에 대한 다른 작성자나 문서에 의한 문서를 모형화하는 데 사용될 수 있다.[3]

소개

디리클레 프로세스는 흔히 이전의 가치를 반복하는 경향이 있는 데이터를 소위 "부유해진" 방식으로 모델링할 때 사용된다. 구체적으로 , 2,의 생성은 다음 알고리즘으로 시뮬레이션할 수 있다고 가정해 보자.

입력: 기본 분포라고 하는 확률 분포), 스케일링 매개 변수라고 하는 양의 실수)
1의 경우

a) 확률 α + - alpha +n-1를) 하여 H 에서 n (를) 그린다

b) 확률 n + n - 을(를) 사용하여 = x 을(를) 설정하십시오 여기서 n 의 이전 관측치 수입니다
(공식적으로 n :{ : X = x < 여기서 }은(는) 집합의 요소 수를 나타낸다.)

동시에, 데이터에 대한 또 다른 일반적인 모델은 , 2,이(가) 일부 (랜덤) P 에 따라 독립적이고 동일한 분포(i.d.)라고 가정하는 것이다. Dirichlet 프로세스를 도입하는 목적은 이 i.i.d. 모델에서 위에서 설명한 절차를 설명할 수 있는 것이다.

알고리즘의 , 관측치는 다음 값을 생성할 때 이전 결과를 고려해야 하기 때문에 독립적이지 않다. 그러나 그들은 교환할 수 있다. 이러한 사실은 관측치의 공동 확률 분포를 계산하고 결과 공식이 관측치 사이에서 발생하는 값과 각 값이 갖는 반복 횟수에 따라서만 달라진다는 것을 알아봄으로써 알 수 있다. 이러한 교환성 때문에 데 피네티의 표현 정리가 적용되며 이는 관측치 X , 2, … }이가) 분포 P P}에주어진 조건부로 독립적이라는 것을 암시한다 랜덤 변수 자체로서 분포를 가지고 있다. 이러한 분포(오버 배포)를 프로세스(DP 라고 한다. 요약하자면, 이는 위의 알고리즘과 동등한 절차를 얻게 된다는 것을 의미한다.

  1. ,) 에서 P 그리기
  2. 관측치 , 2 , … {\displaystyle 을(를) 과(와) 독립적으로 그리십시오

그러나 실제로는 규격에 무한한 양의 정보가 필요하기 때문에 구체적인 분포 을(를) 그리는 것은 불가능하다. 이는 베이지안 비모수 통계학의 맥락에서 흔히 볼 수 있는 현상인데, 기능 공간에 대한 분포를 학습하는 것이 일반적인 작업이며, 여기에는 효과적으로 무한히 많은 매개변수가 포함된다. 중요한 통찰력은 많은 응용 프로그램에서 무한 차원 분포는 중간 계산 장치로만 나타나며 이전 믿음의 초기 사양이나 최종 추론의 진술에 필요하지 않다는 것이다.

형식 정의

Given a measurable set S, a base probability distribution H and a positive real number , the Dirichlet process is a stochastic process whose sample path (or realization, i.e. an infinite sequence of random variates drawn from the process) is a pro다음과 같은 S에 대한 Bability 분포. 측정 가능한 S의 유한 파티션에 대해 { i=

여기서 는) Dirichlet 분포를 나타내고 X ~D 표기법 는 랜덤 변수 이(가) 분포 {\\ D 가지고 있음을 의미한다

대체 보기

디리클레 과정에는 몇 가지 동등한 관점이 있다. 위의 형식적 정의 외에도 디리클레 프로세스는 제1절에서 설명한 데 피네티의 정리를 통해 암묵적으로 정의할 수 있는데, 이를 흔히 중식당 과정이라고 한다. A third alternative is the stick-breaking process, which defines the Dirichlet process constructively by writing a distribution sampled from the process as , where are samples from the base distribution , is an indicator function centered on (zero everywhere except for ) and the 는 베타 분포 (,에서 반복적으로 샘플을 추출하는 재귀적 방법으로 정의된다

중국음식점공정

스케일링 매개 변수 = 0.5 을(를) 가진 중식당 프로세스 애니메이션 테이블의 고객은 더 이상 표시할 수 없지만 테이블마다 좌석이 무한히 많다.(대화형 애니메이션 기록)[4]

디리클레 공정에 대해 널리 이용되고 있는 은유는 이른바 중식당 공정에 바탕을 두고 있다. 비유는 다음과 같다.

손님들이 입장하는 중국 식당을 상상해 보라. 새로운 고객은 이미 앉아 있는 고객 수에 비례하는 확률로 테이블에 앉는다. 또한 고객은 스케일링 파라미터 에 비례하는 확률로 새 테이블을 연다 무한히 많은 고객이 입력한 후, 선택할 테이블의 무한히 많은 부분에 걸쳐 확률 분포를 얻는다. 표 위의 확률 분포는 스케일링 파라미터 을(를) 사용하여 Diriclet 공정에서 도출된 관측치의 확률을 랜덤하게 표본으로 추출 파라미터 α {\displaystyle \alpha

한 관계자가 모든 표와 함께 기본 H 에서 도출하는 경우, 표본 공간 에 대한 결과 분포는 Dirichlet 공정의 랜덤 표본이다. 중식당 과정은 유한 디리클레 분포로부터 표본을 추출하는 Polya urn 샘플링 계획과 관련이 있다.

고객이 테이블에 이미 앉아 있는 고객 수에 비례하는 확률로 테이블에 앉기 때문에 DP의 두 가지 속성을 추론할 수 있다.

  1. 디리클레 프로세스는 다음과 같은 자체 보강 특성을 보인다. 과거에 주어진 값을 더 자주 표본으로 추출할수록 다시 표본으로 추출될 가능성이 높다.
  2. 이(가) 마운트 불가능한 집합에 대한 분포라 하더라도 확률 질량이 소수의 표에 집중되기 때문에 두 표본의 값이 정확히 같을 확률은 0이 아니다.

스틱브레이킹

디리클레 프로세스에 대한 세 번째 접근방식은 이른바 스틱 브레이크 프로세스 관점이다. 개념적으로, 이것은 처음에 길이 1의 "스틱"의 무작위 분율(베타 분포에서 추출한)을 반복적으로 분리하고 폐기하는 것을 포함한다. Dirichlet 공정의 그리기는 된 S 에 대한 분포라는 점을 기억하십시오 앞에서 언급한 바와 같이 그려진 분포는 확률 1과 별개입니다. 스틱 브레이크 공정 뷰에서 우리는 명확하게 discretity를 사용하고 이 (랜덤) 이산형 분포의 확률 질량 함수를 다음과 같이 제공한다.

여기서 theta_{은(는) Δ 는) 을 제외한 모든 곳에서 0으로 평가하는 지표 함수 이 분포. 이 분포. 이 분포는 다음과 같다.ions and the corresponding probabilities . In the following, we present without proof what these random variables are.

위치 는 독립적이며 디리클레트 공정의 기본 H H}에 따라 동일하게 분포한다. 확률은 단위 길이 스틱(이름 표시):

여기서 '은(는) 베타 분포 , ) 을(는)을(를) 가진 독립 랜덤 변수들이다 '막대기 부러짐'과 유사한 점은 k 를 막대 조각의 길이로 보면 알 수 있다. 단위 길이 스틱으로 시작하여 각 단계에서 에 따라 나머지 스틱의 일부를 분리하고 이 분리된 조각을 에 할당한다 The formula can be understood by noting that after the first k − 1 values have their portions assigned, the length of the remainder of the stick is and this piece is broken according to and gets가 }에 할당됨

(가) 작을수록 후속 값(평균적으로)에 스틱이 적게 남아 더 집중된 분포를 산출하게 된다.

막대기 파괴 공정은 디리클레 분포에서 표본을 생성하기 위해 한계 베타 분포에서 순차적으로 표본을 추출하는 구조와 유사하다. 증거를 찾아봐.

폴리야 항아리의 계획

그러나 디리클레 과정과 중식당 과정을 시각화하는 또 다른 방법은 블랙웰-맥퀸 샘플링 방식이라고 불리는 수정된 Polya urn schemption이다. 검은 공으로 채워진 항아리로 시작한다고 상상해 보십시오. 그 후 다음과 같이 진행한다.

  1. 관찰이 필요할 때마다 우리는 항아리에서 공을 끌어낸다.
  2. 공이 검은색일 경우, 우리는 균일하게 새로운 (검은색이 아닌) 색상을 생성하고, 이 색상에 새로운 공에 라벨을 붙이고, 우리가 그린 공과 함께 항아리에 새 공을 떨어뜨리고, 우리가 생성한 색상을 반환한다.
  3. 그렇지 않으면, 우리가 그린 공의 색깔로 새 공에 라벨을 붙이고, 우리가 그린 공과 함께 항아리에 새 공을 떨어뜨리고, 우리가 관찰한 색상을 돌려준다.

결과적으로 색상에 대한 분포는 중국 식당 과정의 테이블 위에 분포하는 것과 동일하다. 게다가, 만약 우리가 검은 공을 그릴 때, 새로운 색을 생성하는 대신에 우리는 베이스 분포 에서 무작위 값을 선택하고그 값을 사용하여 새로운 공에 라벨을 붙이면, 라벨에 대한 결과 분포는 디리클레 에서 값에 대한 분포와 같을 것이다.

사전 분포로 사용

디리클레 프로세스는 데이터를 생성하는 확률 분포를 추정하기 위한 사전 분포로 사용될 수 있다. 이 섹션에서는 모델을 고려한다.

디리클레 프로세스 분포는 이전의 결합성, 후방의 일관성, 번스타인-본 미세스 정리를 만족한다. [6]

선행결합

이 모형에서 후분포는 다시 디리클레 과정이다. 이것은 디리클레 공정이 이 모델의 선행 결합이라는 것을 의미한다. 후분포는 다음에 의해 주어진다.

여기서 P 은(는) 아래에 정의되어 있다.

후부정합성

확률에 대한 빈번한 견해를 취한다면, 데이터를 생성한 실제 확률 분포 이 있다고 본다. 그런 다음 Dirichlet 프로세스가 약한 토폴로지에서 일관된다는 것이 밝혀졌는데, 는 P 약한 U 에 대해U 의 후방 확률은 1에 수렴한다는 것을 의미한다

번스타인-본 미세스 정리

신뢰할 수 있는 세트를 신뢰 집합으로 해석하기 위해서는 번스타인-본 미세스 정리가 필요하다. In case of the Dirichlet process we compare the posterior distribution with the empirical process . Suppose is a -Donsker class, i.e.

일부 Brownian 브릿지 GP0{\displaystyle G_{P_{0} 들어}}. 예를 들어 또한 기능 F와 F())≥ 저녁밥을 먹다 f∈ Ff({\displaystyle F())\geq \sup_{f\in{{\mathcal F}}}f())}가 ∫ F2dH<>∞{\displaystyle\int F^{2}\mathrm{d}H<, \infty}, th{F\displaystyle}존재한다.앙, 0 거의 확실히

이것은 당신이 구성하는 신뢰할 수 있는 집합은 무증상 신뢰 집합이며, 디리클레 프로세스에 기초한 베이시안 추론은 무증상적으로 또한 유효 빈도수 추론이다.

디리클레 혼합물 모델에서 사용

디리클레 혼합물 모델에서 도출한 1000개의 관측치 시뮬레이션. 군집 내 각 관측치는 다변량 정규 N(, / 에서 독립적으로 그려진다 군집은 농도 =5 {\}이 있는 공정에서 추출된 분포 G에서 추출된 것을 의미하며, 기본 H= N ) 각 행은 새로운 시뮬레이션이다

Dirichlet 프로세스가 무엇이고 그들이 해결하는 문제를 이해하기 위해 우리는 데이터 클러스터링의 예를 고려한다. 각 데이터 포인트가 (무작위적으로 선택한) 클러스터에 속하고 클러스터의 구성원이 그 클러스터 내에서 추가로 랜덤하게 분포되는 계층적 방식으로 데이터 포인트가 분포된다고 가정하는 것은 일반적인 상황이다.

예 1

예를 들어, 우리는 다가오는 선거에서 사람들이 어떻게 많은 질문들에 투표할 것인지에 관심이 있을 것이다. 이러한 상황에 대한 타당한 모델은 각 유권자를 진보주의자, 보수주의자 또는 온건파로 분류한 다음, 유권자가 특정 질문에 "예"라고 말하는 사건을 그들이 속한 정치적 클러스터에 따라 달라지는 확률을 가진 베르누이 무작위 변수로 모델화하는 것일 수 있다. 예년에 유사한 법안에 대한 투표가 어떻게 이루어졌는지를 보면 k-평균과 같은 단순한 군집화 알고리즘을 사용한 예측 모델에 적합할 수 있다. 그러나 이 알고리즘은 데이터를 생성한 클러스터의 수를 미리 알아야 한다. 많은 상황에서, 이것을 미리 결정하는 것은 불가능하며, 심지어 우리가 합리적으로 다수의 군집을 가정할 수 있는 경우에도 우리는 여전히 이 가정을 확인할 수 있기를 원한다. 예를 들어, 위의 투표 예제에서, 진보주의자와 중도주의자로 나누는 것은 충분히 조정되지 않을 수 있다; 종교, 계급 또는 인종과 같은 속성 또한 유권자의 행동을 모델링하는 데 중요할 수 있고, 그로 인해 모델에 더 많은 군집이 생길 수 있다.

예 2

또 다른 예로서, 우리는 예를 들어 각 에서 정상 vi ~ ( ,) N^{에 따라 분포된다고 가정하여 단순한 모델을 사용하여 은하의 속도를 모델링하는 데 관심이 있을 수 있다관측치는 th의 은하단에 속하며, 기대 속도는 동일하다. 이 경우 얼마나 많은 (일반적인 속도의) 클러스터가 있어야 하는지 그리고 이에 대한 모델은 매우 의심스러울 것이며 데이터에 대해 점검되어야 하는지를 결정하는 방법은 명확하지 않다. 군집 분포에 앞서 디리클레 프로세스를 사용함으로써, 농도 매개변수가 여전히 군집 수를 암묵적으로 제어하지만, 사전에 군집 수를 명시적으로 지정할 필요가 없다.

우리는 이 예를 좀 더 자세히 고려한다. 첫 번째 순진한 모델은 일반적으로 알려진 고정 분산 2 {\ 정상적으로 분산된 속도의 클러스터가 가정하는 것이다 th 관측치가 k클러스터에 이벤트 표시 우리는 이 모델을 다음과 같이 쓸 수 있다.

즉, 데이터는 {\ K{\ \k 개별 에 속하며,known k {\ th 클러스터에 속하는 데이터 포인트의 (알 수 없는) 사전 확률이라고 가정한다. We assume that we have no initial information distinguishing the clusters, which is captured by the symmetric prior . Here denotes the Dirichlet distribution and 는 각 1인 길이 K {\의 벡터를 의미한다. 또한 각 클러스터 평균에 독립적이고 동일한 사전 분포 ) H을(를) 할당하며, 여기서 은(는) )로 표시된 파라메트릭 일 수 있다은(는) 시스템에 대한 이전의 우리의 믿음을 반영하기 위해 선택된 고정 상수로 간주된다. Dirichlet 프로세스 이전 버전과의 연결을 이해하기 위해 우리는 동등하지만 더 암시적인 형식으로 이 모델을 다시 작성한다.

각 데이터 포인트에 먼저 군집이 할당되었다가 그 군집과 연관된 분포로부터 도출된다고 상상하는 대신에, 이제 우리는 각 관측치가 에 대한 지원을 가지고 어떤 이산 G 에서 도출된 ~ 과 연관되어 있다고 생각한다.는 다음을 의미한다. 즉, 현재 ~ i 을(를) 랜덤 분포 에서 추출한 것으로 처리하고 있으며, 이전 정보는 분포 에 대한 분포에 의해 모델에 통합되어 있다.

디리클레 공정에서 도출한 가우스 분포를 이용한 1차원 데이터의 군집화 공정의 애니메이션. 군집의 히스토그램은 다른 색상으로 표시된다. 모수 추정 프로세스 동안 데이터에서 새로운 클러스터가 생성되고 증가한다. 범례는 클러스터 색상과 각 클러스터에 할당된 데이터 포인트 수를 보여준다.

We would now like to extend this model to work without pre-specifying a fixed number of clusters . Mathematically, this means we would like to select a random prior distribution where the values of the clusters means are again independently distributed according to and the distribution over is symmetric over the infinite set of clusters. 이것이 바로 모델에 의해 달성되는 것이다.

이것을 손에 들고 우리는 디리클레 과정의 계산적 장점을 더 잘 이해할 수 있다. 정확히 군집이 있는 순진한 모형에서 관측치를 추출하려고 했다고 가정합시다. A simple algorithm for doing this would be to draw values of from , a distribution from (를) 선택한 다음 각 관측치에 대해 으로 k{\} 확률을 k {\k과(μk ,)에 따른 관측치 값},\sigma 을 샘플링한다 무한 차원 파라미터 을 샘플링해야 하기 때문에 무한 클러스터가 허용되는 경우 이 알고리즘이 작동하지 않는 것을 쉽게 알 수 있지만 v 를 샘플링하는 것은 여전히 가능하다 예를 들어 중국 식당 종업원을 사용할 수 있다.아래에 기술된 설명과 사용된 군집과 새 군집이 생성될 확률을 계산한다. 이렇게 하면 을(를) 명시적으로 지정할 필요가 없다 다른 솔루션은 클러스터 자르기를 기반으로 한다. 즉, 실제 클러스터 수에 대한 상한(높음)이 도입되고 하한보다 높은 클러스터 번호가 하나의 클러스터로 처리된다.

관측 데이터 을(를) 기반으로 위에서 설명한 모델을 적합시킨다는 것은 군집 확률과 관련 수단에 대한 후방 p μ 를 찾는 것을 의미한다. 무한 치수 사례에서 후방을 명시적으로 적는 것은 분명히 불가능하다. 그러나 수정된 Gibbs sampler를 사용하여 이 후면에서 표본을 추출하는 것은 가능하다.[7] 이것은 디리클레 과정을 추론에 앞서 유용하게 만드는 결정적인 사실이다.

디리클레 공정의 적용

디리클레 프로세스는 베이시안 비모수 통계량에 자주 사용된다. 여기서 "비모수"는 모수가 없는 모형을 의미하는 것이 아니라, 더 많은 데이터가 관찰될수록 표현력이 커지는 모델을 의미한다. 베이지안 비모수 모델은 위에서 언급한 유연성, 특히 감독되지 않은 학습에서 기계학습 분야에서 상당한 인기를 얻었다. 베이지안 비모수 모델에서 이전 분포와 후분포는 모수 분포가 아니라 확률적 과정이다.[8] 디리클레 분포가 음수가 아닌 숫자의 단순한 집합에 대한 확률 분포라는 사실은 함수보다 분포나 분포를 모형화하기에 좋은 후보라고 할 수 있다. 또한, 이 모델의 비모수적 특성은 클러스터링 문제를 사전에 알 수 없는 이상적인 후보로서 만든다. 또한 Dirichlet 프로세스는 감독된 학습 알고리즘(회귀 또는 분류 설정)의 맥락에서 전문가 모델의 혼합 개발을 위해서도 사용되어 왔다. 예를 들어, 필요한 전문가 수를 데이터에서 추론해야 하는 가우스 공정 전문가의 혼합물.[9][10]

Dirichlet 공정에서 끌어내는 것은 이산적이기 때문에, 무한 혼합물 모델에서 중요한 사용은 선행 확률이다. 이 경우 은(는) 성분 분포의 모수 집합이다. 따라서 생성 과정은 표본을 Dirichlet 공정에서 추출하고 각 데이터 점에 대해 이 표본 분포에서 값을 추출하여 해당 데이터 점에 대한 성분 분포로 사용하는 것이다. 생성될 수 있는 구별되는 성분의 수에 제한이 없다는 사실은 혼합물 성분의 수가 사전에 잘 정의되지 않은 경우에 이러한 종류의 모델을 적합하게 만든다. 예를 들어 가우스 모형의 무한 혼합물 및 [11]관련 혼합물 회귀 모형(예:[12]

이러한 모델의 무한한 특성은 또한 어휘를 무한하고 이산적인 집합으로 취급하는 것이 바람직한 자연어 처리 어플리케이션에 그들을 빌려준다.

Dirichlet 프로세스는 비모수 가설 검정, 즉 부호 검사, Wilcoxon 순위-sum 검사, Wilcoxon 서명 순위 검사 등과 같은 고전적 비모수 가설 검정의 베이지안 비모수 버전을 개발하는 데도 사용될 수 있다. 예를 들어, 베이지안 비모수 버전의 Wilcoxon 순위섬 테스트와 Wilcoxon 서명 순위 테스트는 이전의 무지 디리클레 프로세스인 부정확한 Dirichlet 프로세스를 사용하여 개발되었다.[citation needed]

관련 분포

참조

  1. ^ Frigyik, Bela A.; Kapila, Amol; Gupta, Maya R. "Introduction to the Dirichlet Distribution and Related Processes" (PDF). Retrieved 2 September 2021.
  2. ^ Ferguson, Thomas (1973). "Bayesian analysis of some nonparametric problems". Annals of Statistics. 1 (2): 209–230. doi:10.1214/aos/1176342360. MR 0350949.
  3. ^ Frigyik, Bela A.; Kapila, Amol; Gupta, Maya R. "Introduction to the Dirichlet Distribution and Related Processes" (PDF). Retrieved 2 September 2021.
  4. ^ "Dirichlet Process and Dirichlet Distribution -- Polya Restaurant Scheme and Chinese Restaurant Process".
  5. ^ 페이즐리, 존 디리클레 공정의 막대기 파괴 공정에 대한 간단한 증거. 기술 보고서, 프린스턴 대학교 컴퓨터 과학 학부, 2010.
  6. ^ Aad van der Vaart, Subhashis Ghosal (2017). Fundamentals of Bayesian Nonparametric Inference. Cambridge University Press. ISBN 978-0-521-87826-5.
  7. ^ Sudderth, Erik (2006). Graphical Models for Visual Object Recognition and Tracking (PDF) (Ph.D.). MIT Press.
  8. ^ Nils Lid Hjort, Chris Holmes, Peter Müller and Stephen G. Walker (2010). Bayesian Nonparametrics. Cambridge University Press. ISBN 978-0-521-51346-3.{{cite book}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  9. ^ 소티리오스 P. Chatzis, "Pitman-Yor Process Priors for Multiclass Classification," Neurocomputing, vol. 120, 페이지 482-489, 2013년 11월. doi:10.1016/j.neucom.2013.04.029
  10. ^ 소티리오스 P. Chatzis, Yiannis Demiris, "권력-법률 행동을 가진 가우스 프로세스의 비모수 혼합물", IEEE 신경망 및 학습 시스템에 대한 거래, 1862-1871페이지, 2012년 12월. doi:10.1109/TNLS.2217986
  11. ^ Rasmussen, Carl (2000). "The Infinite Gaussian Mixture Model" (PDF). Advances in Neural Information Processing Systems. 12: 554–560.
  12. ^ 소티리오스 P. Chatzis, Dimitrios Korkinof 및 Yiannis Demiris, "시범에 의한 로봇 학습에 대한 비모수적 베이지안적 접근법," vol. 60, no. 6, pp. 789–802, 2012.doi:10.1016/j.robot.212.02.005

외부 링크