동적 토픽 모델
Dynamic topic model통계에서 동적 토픽 모델'은 시간이 지남에 따라 문서 집합의 (관찰되지 않은) 토픽의 진화를 분석하는 데 사용할 수 있는 생성 모델입니다.이 모델군은 David Blei와 John Lafferty에 의해 제안되었으며 순차 [1]문서를 처리할 수 있는 잠재 디리클레 할당(LDA)의 확장입니다.
LDA에서는 단어들이 문서에 나타나는 순서와 말뭉치에 나타나는 순서가 모두 모델을 인식하지 못한다.단어 교환이 가능한 것으로 가정되지만 동적 주제 모델에서 문서의 순서는 기본적인 역할을 합니다.보다 정확하게는 문서는 타임 슬라이스(예: 년)별로 그룹화되어 있으며, 각 그룹의 문서는 이전 슬라이스 집합에서 발전된 주제 집합에서 나온 것으로 가정한다.
토픽
LDA 및 pLSA와 마찬가지로 동적 주제 모델에서 각 문서는 관찰되지 않은 주제의 혼합으로 간주됩니다.또한 각 항목은 일련의 항에 대한 다항 분포를 정의합니다.따라서 각 문서의 각 단어에 대해 혼합물에서 주제를 도출하고 그 주제에 대응하는 다항 분포에서 용어를 도출한다.
그러나, 토픽은 시간이 지남에 따라 진화한다.예를 들어, t시점의 토픽의 가장 가능성이 높은 2개의 용어는 "network"와 "Zipf"(내림차순)이며, t+1시점의 가장 가능성이 높은 용어는 "Zipf"(내림차순)와 "percolation"(내림차순)일 수 있습니다.
모델
정의
- t _ 시간 t에서의 각 토픽 분포.
- t , \ \ displaystyle _ { 시간 t에서의 토픽 k 의 단어 분포.
- \d}: displaystyle d의 토픽 배포로서 시각 t,
- z t (\n})은 document d의 n번째 단어(time t)의 주제입니다.
- t (\을 특정 단어로 지정합니다.
이 모델에서는 다항 t+({ _과 t +\ 이 각각 t{\ _로부터 됩니다다항 분포는 보통 평균 모수로 작성되지만 동적 주제 모형의 맥락에서 자연 모수로 표현하는 것이 더 낫다.
앞의 표현은 매개변수가 음이 아닌 합계가 [2]1로 제한되기 때문에 몇 가지 단점이 있다.이러한 분포의 진화를 정의할 때는 그러한 제약이 충족되는지 확인해야 한다.두 분포는 모두 지수군에 속하기 때문에 이 문제에 대한 한 가지 해결책은 실제 값을 가정하고 개별적으로 변경할 수 있는 자연 모수로 표현하는 것입니다.
자연 매개변수화를 사용하여 주제 모델의 역학은 다음과 같이 주어진다.
그리고.
- - 1 ~ - ,, I ) { _ { t \_ { t - 1 } \ N ( \ _ { t - 1 , \ ^ { } I )}
따라서 타임슬라이스 't'에서의 생성 프로세스는 다음과 같습니다.
- t t -, k ~ ( -, k I )k k\ style \ { , } \ N ( \ _ { , \ ) \ k )을 그립니다.
- 혼합물 - ~ ( -1 , 2 I) { _ { \_ { t - 1 } \ ( \_ { t - 1 , \ {2} ) } 。
- 각 문서의 경우:
- t , ~ ( , I) { \_ , \ ( \ , {2} I) } 를 그립니다.
- 각 단어에 대해:
- Z ~ ( ,) { style _을 그립니다.
- ~ ( , , ,) { W_ d , } \ { ( \ _ { , _ { , , } )를 .
서 () \ x )는 자연 파라미터화x에서 평균 파라미터화로의 매핑입니다.
- i
추론
동적 토픽 모델에서는 W (\만 관찰할 수 있습니다.다른 매개변수를 배우는 것은 추론 문제를 구성한다.Blei와 Lafferty는 가우스 분포와 다항 분포의 비부적합성 때문에 이 모델에서 추론을 수행하기 위해 깁스 표본을 적용하는 것이 정적 모델보다 더 어렵다고 주장한다.이들은 특히 변동 칼만 필터링과 변동 웨이브릿 회귀 분석과 같은 변동 방법을 사용할 것을 제안한다.
적용들
원문에서는, 1881년부터 1999년 사이에 발표된 사이언스 논문의 말뭉치에 동적 주제 모델이 적용되어 이 방법이 주제 [1]내의 단어 사용 경향을 분석하는데 사용될 수 있다는 것을 보여준다.저자들은 또한 과거 문서로 교육받은 모델이 LDA보다 다가오는 해의 문서에 더 잘 적합할 수 있다는 것을 보여준다.
연속 동적 주제 모델은 Wang 등에 의해 개발되었고 [3]문서의 타임스탬프를 예측하기 위해 적용되었다.
텍스트 문서를 넘어,[4] 음악적 주제와 최근 역사에서 어떻게 발전했는지에 대한 학습을 통해 음악적 영향을 연구하기 위해 동적 주제 모델이 사용되었습니다.
레퍼런스
- ^ a b Blei, David M; Lafferty, John D (2006). Dynamic topic models. Proceedings of the ICML. ICML'06. pp. 113–120. doi:10.1145/1143844.1143859. ISBN 978-1-59593-383-6. S2CID 5405229.
- ^ Rennie, Jason D. M. "Mixtures of Multinomials" (PDF). Retrieved 5 December 2011.
- ^ Wang, Chong; Blei, David; Heckerman, David (2008). "Continuous Time Dynamic Topic Models". Proceedings of ICML. ICML '08.
- ^ Shalit, Uri; Weinshall, Daphna; Chechik, Gal (2013). "Modeling musical influence with topic models" (PDF). Journal of Machine Learning Research.