확률 이론과 통계에서 디리클레-다변량 분포는 음이 아닌 정수의 유한 지지에 대한 이산 다변량 확률 분포의 집합이다.디리클레 화합물 다항 분포(DCM) 또는 다변량 포리아 분포(George Polya 이후)라고도 한다.복합 확률 분포로, 매개변수 벡터 을(를) 가진 디리클레 분포에서 확률 벡터 p를, 확률 벡터 p와 시행 횟수를 갖는 다항 분포에서 관측치를 도출한다.디리클레 매개변수 벡터는 상황에 대한 이전의 믿음을 포착하고, 실제 데이터가 수집되기 전에 발생하는 각 결과의 관측치인 유사분산으로 볼 수 있다.그 배합은 Polya urn 계획에 해당한다.그것은 과도하게 분산된 다항 분포로서 베이시안 통계학, 머신러닝, 경험적 베이즈 방법 및 고전적 통계학에서 자주 접하게 된다.null
n = 1일 때 특별한 경우로서 범주형 분포로 감소한다.또한 큰 α에 대해서는 임의로 다항 분포에 가깝다.디리클레-다항 분포는 베타 이항 분포의 다항 분포와 디리클레 분포가 각각 이항 분포와 베타 분포의 다변량 버전이기 때문에 다항 분포의 다변량 확장이다.null
디리클레 분포는 다항 분포에 대한 결합 분포다.이 사실은 분석적으로 추적 가능한 화합물 분포를 유도한다.다항 분포에 따라 분포된 x=( ,… , x K) dots의 경우, 한계 분포는 디리클레 분포에 따른 랜덤 벡터로 생각할 수 있는 p에 대한 분포에 통합하여 얻는다.
다음과 같은 명시적 공식으로 귀결된다.
여기서 는 합계 =로 정의된다베타 함수의 관점에서 보다 압축적으로 작성된 동일한 복합분포의 또 다른 형태는 다음과 같다.
후자의 형식은 제로 카운트 범주가 계산에서 무시될 수 있다는 사실을 강조한다. 즉, 범주의 수가 매우 크고 희박할 때 유용한 사실(예: 문서에서 단어 카운트)이다.null
pdf는 = 일 때 베타 이항 분포라는 것을 관찰하십시오 또한 0{\가 무한에 근접함에 따라 다항 분포에 접근한다는 것을 보여줄 수도 있다.파라미터 은 다항성에 상대적인 과대산포 또는 버스트 정도를 지배한다.문헌에서 볼 수 있는 0 을 나타내는 대안은 S와 A이다.null
항아리 모형으로서의 디리클레-다항식
Dirichlet-multinomial 분포는 또한 폴리아 urn 모델로 알려진 벡터 α의 양의 정수 값에 대한 urn 모델을 통해 동기 부여될 수 있다.구체적으로, 무작위 추첨이 이루어지는 ih 색상에 대해 i 를 번호 매기는 K 색상의 볼이 들어 있는 단지를 상상해보자.공을 무작위로 뽑아 관찰하면 같은 색의 공 두 개가 항아리로 돌아온다.만약 이것이 n번 수행된다면, 색상 카운트의 무작위 벡터 을 관측할 확률은 매개변수 n과 α가 있는 Dirichlet-멀티노미알이다.무작위 추첨이 단순한 교체(단지에 관찰된 공 위와 위의 공은 추가되지 않음)인 경우 분포는 다항 분포를 따르고, 무작위 추첨이 교체 없이 이루어진 경우 분포는 다변량 초계량 분포를 따른다.null
특성.
순간
Once again, let and let , then the expected number of times the outcome i was observed over n trials is
변수 ▼ 을(를) "intra class" 또는 "intra cluster" 상관 관계라고 한다.다항 분포에 대한 과대산포를 유발하는 것은 이러한 양의 상관관계다.null
집계
만약
그런 다음, 첨자 i와 j를 가진 랜덤 변수가 벡터에서 떨어져 그 합으로[citation needed] 대체되는 경우,
이 집계 속성은 의 한계 분포를 도출하는 데 사용할 수 있다
우도함수
개념적으로 K 범주를 포함한 범주형 분포로부터 N을 독립적으로 추첨한다.= … 에 대해 독립 추첨을 임의 변수 n {\displaystyle으로 표시함 특정 k 이(= … 의 경우가 표시되는 횟수를 표시함및 and k =N{\ 그러면 이 문제에 대해 두 가지 다른 견해를 가지고 있다.
전자의 경우는 각 개별 결과를 지정하는 변수의 집합인 반면 후자는 각 K 범주의 결과 수를 지정하는 변수의 집합이다.두 사례의 확률 분포가 서로 다르기 때문에 구별이 중요하다.null
The parameter of the categorical distribution is where is the probability to draw value ; is likewise the parameter of the multinomial distribution . Rather than specifying directly, we give it a conjugate prior distribution, and hence it is drawn from a Dirichlet distribution with parameter vector
를) 통합하여 복합 분포를 얻는다그러나 어떤 관점을 취하느냐에 따라 분포의 형태가 달라진다.null
또 다른 유용한 공식은, 특히 Gibbs 샘플링의 맥락에서, 변수 z n{\n}의 조건부 밀도가 어떤지를 질문한다(이것은 (- n) 이것은 매우 단순한 형태를 가지고 있는 것으로 밝혀졌다.
여기서 (- 은(는) z z_{ 이외의 모든 변수에 표시되는범주 k {\의 카운트 수를 지정한다
이 공식을 도출하는 방법을 보여주는 것이 유용할 수 있다.일반적으로 조건부 분포는 해당 공동 분포에 비례하므로, 는 z 1 , …,z},\ ,} 값의공동 분포에 대해 위의 공식으로 시작하여 특정 에 의존하지 않는 요인을 제거하면 된다. 문제의이를 위해 위에서 정의한(- ) 을(를) 사용하고,
우리는 또한 다음과 같은 사실을 사용한다.
다음:
일반적으로 조건부 분포에 대한 방정식을 도출하는 시점에 상수 정규화에 대해 걱정할 필요는 없다.정규화 상수는 분포로부터 샘플링을 위한 알고리즘의 일부로 결정된다(Categal distribution#Sampling 참조).그러나 위의 간단한 형태로 조건부 분포를 작성하면 정상화된 상수는 다음과 같은 단순한 형태를 가정하는 것으로 나타났다.
그러므로,
공식은 중식당 과정과 밀접하게 연관되어 있는데, 이는 K→ {\to \로 한도를 취함에서 비롯된다
베이지안 네트워크에서
더 큰 네트워크의 일부로 Dirichlet 분포 이전 노드를 사용하여 범주형(또는 소위 "다단계") 분포가 발생하는 더 큰 베이지안 네트워크에서, 모든 Dirichlet 이전 분포는 그것들에 의존하는 유일한 노드가 범주형 분포일 경우 축소될 수 있다.붕괴는 각 Dirichlet-distribution 노드에 대해 다른 노드와 별도로 발생하며, 범주형 분포에 의존할 수 있는 다른 노드에 관계없이 발생한다.또한 범주형 분포가 Dirichlet 이전 노드에 추가된 노드에 의존하는지 여부에 관계 없이 발생한다(이 경우 그러한 다른 노드는 추가 조건화 계수로 유지되어야 한다).본질적으로, 주어진 디리클레 분포 노드에 따른 모든 범주형 분포는 위의 공식에 의해 정의된 단일 디리클레-다항 접합 분포로 연결된다.이 방법으로 정의한 공동 분포는 통합형 Dirichet 이전 노드의 상위뿐만 아니라 Dirichett 이전 노드 이외의 범주형 노드의 상위 노드에 따라 달라진다.null
다음 절에서는 베이시안 네트워크에서 흔히 볼 수 있는 다양한 구성에 대해 논의한다.위에서부터 확률밀도를 반복하고Z {\ 기호를 사용하여 정의한다
동일한 하이퍼프라이어를 가진 다중 디리클릿 이전 버전
우리가 다음과 같은 계층적 모델을 가지고 있다고 상상해보십시오.
이와 같은 경우, 우리는 여러 개의 디리셰트 전례를 가지고 있는데, 각각은 어느 정도 많은 범주형 관측치를 생성한다(아마도 이전 각 경우에 다른 숫자로 나타남).위와 같은 임의변수라 하더라도 모두 동일한 하이퍼프라이어에 의존하고 있다는 사실은 아무런 차이가 없다.Dirichlet 선행 통합의 효과는 공동 분포가 단순히 이전 Dirichlet의 조건화 요소를 상속하는 이전 변수에 첨부된 범주형 변수를 연결한다.여러 개의 이전 항목이 하이퍼프라이어를 공유할 수 있다는 사실은 다음과 같은 차이가 없다.
여기서 는 단순히 이전 d에 종속된 범주형 변수의 집합이다.null
따라서 조건부 확률 분포는 다음과 같이 작성할 수 있다.
여기서 n , d(- n은는)을 d {\dd {\ 자체를 제외한 세트 d 사이의 변수 수를 으로 의미한다.
동일한 이전 변수를 통해 해당 변수와 결합된 값 k를 갖는 변수만 세어 볼 필요가 있다.우리는 k 값을 갖는 다른 변수들도 세고 싶지 않다.null
동일한 하이퍼프라이버, 종속 자녀가 있는 다중 디리클릿 이전 버전
이제 다음과 같이 조금 더 복잡한 계층적 모델을 상상해 보십시오.
이 모형은 위와 동일하지만, 게다가 각 범주형 변수에 종속된 자식 변수가 있다.이것은 혼합물의 전형적인 모델이다.null
다시 말해, 공동 분포에서는 동일한 이전에 종속된 범주형 변수만 단일 Diriclet-multinomial로 연결된다.
부모와 조상에게만 의존하는 범주형 변수의 조건부 분포는 더 단순한 경우에서 위와 동일한 형태를 가질 것이다.단, Gibbs 샘플링에서는 - d 및과 같은 선조들뿐만 아니라 다른모든 파라미터에 의존하는 주어진 노드 의 조건부 분포를 결정할 필요가 있다.null
조건부 분포에 대한 단순화된 표현은 단순히 결합 확률에 대한 표현식을 다시 작성하고 상수 인자를 제거함으로써 위에서 도출된다.따라서 동일한 단순화는 Dirichlet-multinomial density와 범주형 변수의 값에 의존하는 많은 다른 랜덤 변수에 대한 인자로 구성된 이 모형의 것과 같은 더 큰 합동 확률 식에 적용될 것이다.null
이는 다음과 같은 결과를 낳는다.
여기서 }의 확률밀도가 직접 나타난다.에 대해 랜덤 표본을 추출하려면 위의 공식을 사용하여에 대한 모든 K 가능성의 비 정규화 확률을 계산한 다음, 이를 정규화하여 범주형 분포 문서에 기술된 알고리즘을 사용하여 정규화하여 진행한다null
정확히 말하면, 조건부 분포에 나타나는 추가 요인은 모형 명세서가 아니라 관절 분포에서 직접 도출된다.이러한 구분은 디리클레-prior 부모가 있는 특정 노드가 특히 그 아이들이 서로 의존하는 경우(예: 붕괴된 부모를 공유하는 경우)에 복수의 종속적 자식을 갖는 모델을 고려할 때 중요하다.이것은 아래에서 더 많이 논의된다.null
이전 구성원 자격이 변경되는 다중 디리클레 이전 항목
이제 우리가 다음과 같은 계층적 모델을 가지고 있다고 상상해보자.
여기서 우리는 이전과 같이 여러 개의 디리클레 프리(Dirichlet prior)와 일련의 종속적인 범주형 변수를 가지는 까다로운 상황이 있지만, 이전과 달리 프리(prior)와 종속(dependent) 변수 사이의 관계는 고정되어 있지 않다.대신 사용 전 선택은 다른 랜덤 범주형 변수에 따라 달라진다.예를 들어 주제 모델에서 이러한 현상이 발생하며, 실제로 위의 변수 이름은 잠재된 디리클레 할당에 있는 변수와 일치하도록 의도된다.이 경우 집합 {\은(는) 단어 집합으로, 각각은 가능한 주제 중 하나에서 도출된다. 여기서 각 주제는 가능한 단어의 어휘보다 이전인 디리클레트로, 주제에 다른 단어의 빈도를 지정한다.그러나 주어진 단어의 주제 멤버십은 고정되어 있지 않고, 잠재 변수 Z 에서 결정된다 단어당 의 잠재 변수인 K -차원범주형 변수가 있는데, 단어가 속한 주제를 지정하는 것이다.null
이 경우, 이전과 같이 특정 이전에 종속된 모든 변수(즉, 상관 관계)가 그룹 내에서 함께 결합된다(특히, 특정 주제에 속하는 모든 단어가 연결된다).그러나 이 경우 단어들이 특정 주제에 고정되어 있지 않고 단어와 관련된 잠재 변수의 값에 따라 주제가 달라진다는 점에서 그룹 멤버십은 변한다.그러나 Dirichlet-multinomial density의 정의는 실제로 그룹의 범주형 변수 수(즉, 특정 주제에서 생성된 문서의 단어 수)에 따라 달라지지 않고 그룹 내 변수 개수에 따라 지정된 값이 얼마나 되는지(즉, 특정 주제에서 생성된 모든 단어 토큰 중)에 대해서만 달라진다.oh 많은 단어들이 주어진 단어다.따라서 우리는 여전히 공동분포를 위한 명시적 공식을 작성할 수 있다.
여기서 n 을(를) 사용하여 단어 기호 v이며 주제 k에 속하는 단어 토큰의 수를 표시한다.null
조건부 분포는 여전히 동일한 형식을 가지고 있다.
여기서 다시, 주어진 주제에 속하는 단어에 대한 범주형 변수만 연결되며(이 연결은 잠재 변수의 할당에 따라 달라지더라도), 따라서 단어 카운트는 주어진 주제에 의해 생성된 단어만 초과하면 된다.따라서 기호 k,(- n) 는 기호 v라는 단어를 가지고 있지만 주제 k에 의해 생성된 단어 중에만 있는 단어 토큰의 수입니다. 그리고 분포가 설명되고 있는 단어 자체를 제외한다.null
(단어 자체를 제외해야 하는 이유, 그리고 전혀 이치에 맞는 이유까지, 우리는 Gibbs 샘플링 컨텍스트에서 모든 이전 변수를 검사하고 샘플링한 후 각 랜덤 변수의 값을 반복적으로 다시 샘플링하기 때문이다.따라서 변수에 이미 값이 있을 것이며, 우리가 사용하는 다양한 계수에서 이 기존 값을 제외할 필요가 있다.)null
기본적으로 우리는 앞의 세 가지 시나리오를 조합한다.우리는 하이퍼프라이어를 공유하는 여러 사전들에 의존하는 범주형 변수를 가지고 있다; 우리는 종속적인 자녀가 있는 범주형 변수(잠재적인 변수 주제 ID)를 가지고 있다; 그리고 하이퍼프라이어를 공유하는 여러 사전의 멤버쉽을 이동하는 범주형 변수를 가지고 있다.표준 LDA 모델에서는 단어들이 완전히 관찰되므로 우리는 그것들을 다시 샘플링할 필요가 없다.(단, 깁스 표본 추출은 단어의 일부 또는 전혀 관찰되지 않는다면 똑같이 가능할 것이다.그러한 경우, 우리는 단어들에 대한 분포를 기계 번역 모델과 같이 문장을 생성하는 일부 프로세스의 출력에서와 같이 합리적으로 초기화하여 결과적인 후방 잠재 변수 분포를 이해할 수 있도록 할 것이다.null
위의 공식을 사용하여 조건부 확률을 직접 기록할 수 있다.
여기서는 단어 수와 주제 수를 명확하게 구분하기 위해 개수를 더 명확하게 정의했다.
종속 자녀가 있는 범주형 변수를 사용하는 위의 시나리오에서와 같이, 종속 자녀의 조건부 확률은 지배기업의 조건부 확률의 정의에 나타난다.이 경우 각각의 잠재변수는 하나의 종속적인 자식단어만을 가지고 있기 때문에 그러한 용어는 하나만 나타난다.(다수의 종속 자녀가 있었다면, 서로 다른 부모와 같은 자녀 사이에 중복이 있었는가에 관계없이, 즉 종속적인 ch와 관계없이 모두 부모의 조건부 확률에 나타나야 할 것이다.주어진 부모의 일드렌은 또한 다른 부모들을 가지고 있다.자녀가 여러 부모를 가진 경우, 해당 자녀의 조건부 확률은 각 부모의 조건부 확률 정의에 나타난다.)null
위의 정의는 단어의 정규화되지 않은 조건부 확률만을 지정하는 반면, 주제 조건부 확률은 실제(즉, 정규화) 확률을 요구한다.따라서 우리는 모든 단어의 기호를 종합하여 정상화해야 한다.
어디에
또한, 위의 두 번째 요인을 조건부 확률에 관한 또 다른 세부적인 요점을 제시할 가치가 있다.일반적으로 조건부 분포는 공동 분포에서 파생되며 조건부 영역(수직 막대 왼쪽 부분)에 종속되지 않는 항을 제거하여 단순화한다는 점을 기억하십시오.노드 이(가) 종속된 경우, 공동 분포에 \mid z}인자 z) z가 하나 이상 있을 것이다일반적으로 종속 노드마다 하나의 요인이 있으며, distar와 동일한 밀도 함수를 갖는다.수학적 정의를 나타내는 갈비뼈그러나 종속 노드에도 다른 상위 노드(공동 상위 노드)가 있고, 그 공동 상위 노드가 축소되면, 그 노드는 공동 상위 노드를 공유하는 다른 모든 노드에 종속되며, 그러한 노드 각각에 대해 복수 용어를 대신하여 공동 분포는 하나의 공동 용어만 가질 것이다.우리는 정확히 여기에 그런 상황을 가지고 있다.은(는) 단 한 명의 자식만 있지만 그 아이는 가 쓰러뜨린 디리클레의 공동부모를 가지고 있어, W ^{에 걸쳐 디리클레-다원수를 유도한다
이 경우에는 이 문제가 큰 문제를 일으키지 않는 경우가 있는데, 와의 일대일 관계 때문이다 공동분포를 다음과 같이 다시 쓸 수 있다.
서 W ,(- n}{k,(- 설정(, 을(를) 제외한 노드 )에서 어떤 노드도 z_을 부모로 가지고 있지 않다.따라서 조건화 요인(라인 2)으로 제거할 수 있으며, 이는 전체 요인이 조건화 분포(라인 3)에서 제거될 수 있음을 의미한다.null
두 번째 예: 순진한 베이즈 문서 클러스터링
여기 다른 문제가 있는 다른 모델이 있다.이것은 문서 군집을 위한 무감독 순진 베이즈 모델의 구현이다.즉, 문서를 텍스트 내용을 기준으로 여러 범주(예: "스팸" 또는 "비 스팸" 또는 "과학 저널" 기사, "재정 관련 신문 기사", "정치 관련 신문 기사", "러브 레터")로 분류하고자 한다.그러나, 우리는 이미 어떤 문서의 정확한 범주를 알지 못한다. 대신, 우리는 상호 유사성을 바탕으로 그것들을 군집화하기를 원한다. (예를 들어, 일련의 과학적인 논문들은 단어 사용에서는 서로 비슷하지만 연애편지와는 매우 다른 경향이 있을 것이다.이것은 감독되지 않은 학습의 한 유형이다. (동일한 기법을 준 감독 학습에 사용할 수 있다. 즉, 문서의 일부 부분에 대한 올바른 범주를 알고 있으며, 이 지식을 사용하여 나머지 문서를 클러스터링하는 데 도움을 주고자 한다.)null
모델은 다음과 같다.
여러 면에서 이 모델은 위에서 설명한 LDA주제 모델과 매우 유사하지만, 한 단어당 하나의 주제보다는 문서당 하나의 주제를 가정하며, 주제의 혼합으로 구성된 문서가 있다.이는 위의 모델에서 명확히 볼 수 있는데, 이는 LDA 모델과 동일하며, 단 한 단어 대신 문서당 하나의 잠재적 변수만 존재한다는 점을 제외한다.다시 한 번, 우리는 우리가 디리클레의 모든 전리품을 붕괴시키고 있다고 가정한다.null
주어진 단어의 조건부 확률은 LDA 사례와 거의 동일하다.다시 한번 말하지만, 이전에 같은 디리클레에 의해 생성된 모든 단어들은 상호의존적이다.이 경우, 이것은 주어진 라벨이 있는 모든 문서의 단어를 의미한다. 다시 말해, 이것은 라벨 할당에 따라 달라질 수 있지만, 우리가 신경쓰는 것은 총계수뿐이다.따라서 다음과 같다.
어디에
그러나 라벨 할당에 대한 잠재적 변수의 조건부 분포에는 결정적인 차이가 있는데, 이는 주어진 라벨 변수가 단 하나의 노드(특히 라벨 문서의 모든 단어에 대한 노드)가 아닌 여러 개의 하위 노드를 가지고 있다는 것이다.이는 공동분포에서 비롯된 ( z d) 에 대한 위의 논의와 밀접한 관련이 있다.이 경우 공동 는 z d z_의값과 동일한 라벨 할당을 포함하는 모든 문서에서 모든 단어를 인수할 필요가 있으며, Dirichlet-multinomial 분포의 값을 갖는다.나아가 이 공동분포를 한 단어에 걸친 조건부분포까지 줄일 수는 없다.오히려 해당 라벨에 대한 문서의 단어에 대한 보다 작은 공동 조건부 분포로만 줄일 수 있으며, 따라서 단순한 예상 카운트 및 이전의 합계를 산출하는 위의 트릭을 사용하여 단순화할 수 없다.사실 그러한 개별적인 합계의 산물로 다시 쓰는 것이 가능하지만, 인자의 수는 매우 크고, 디리클레-다중분포 확률을 직접 계산하는 것보다 분명히 더 효율적이지 않다.null
Dirichlet-multinomial 분포는 자동화된 문서 분류 및 클러스터링, 유전학, 경제, 전투 모델링 및 정량적 마케팅에 사용된다.null
이 글은 일반적인 참고문헌 목록을 포함하고 있지만, 그에 상응하는 인라인 인용구가 충분하지 않기 때문에 대체로 검증되지 않은 상태로 남아 있다. 좀 더 정밀한 인용구를 도입하여 이 기사를 개선할 수 있도록 도와주십시오.(2012년 6월)(이 템플릿 메시지를 제거하는 방법과 시기 알아보기)