가변 길이 메모리를 가진 확률적 체인

Stochastic chains with memory of variable length

가변 길이에 대한 기억을 가진 확률적 사슬은 유한한 알파벳의 유한한 질서의 확률적 사슬의 한 계열로, 매 번 지나갈 때마다 문맥이라 불리는 과거의 유한한 접미사 하나만 있으면 다음 기호를 예측할 수 있다. 이들 모델은 1983년 조르마 리사넨이 정보이론 문헌에 데이터 압축의 보편적 도구로 [1]도입했으나 최근에는 생물학,[2] 언어학[3], 음악 등 다양한 분야의 데이터를 모델링하는 데 활용되고 있다.[4]

정의

가변 길이의 메모리를 가진 확률 체인은 확률 체인) Z이며 유한한 알파벳 A의 값을 취하며 확률론적 컨텍스트 트리 tree , ) (\을 특징으로 한다

  • 은(는) 모든 컨텍스트의 그룹이다. A context , being the size of the context, is a finite portion of the past , which is relevant to predict the next symbol ;
  • (는) 각 맥락과 관련된 전환 확률의 집합이다.

역사

가변 길이의 메모리를 가진 확률형 체인의 등급은 데이터 압축 시스템을 위한 A 범용 시스템이라는 글에서 조르마 리사넨에 의해 소개되었다.[1] 그러한 종류의 확률적 사슬은 P에 의해 통계학적, 확률론적 공동체에서 대중화되었다. 1999년, Vühlmann과 A. J. Wyner는 Variable Length Markov Chains라는 기사에서, 불만과 와이너에 의해 "변량 길이 마르코프 체인"(VLMC)으로 명명된 이들 체인은 "변량 순서 마르코프 모델"(VOM), "확률적인 접미사 트리",[2] "콘텍스트 트리 모델"[5]로도 알려져 있다. '변수길이의 기억을 가진 스토크스틱 체인'이라는 명칭은 갈베스와 뢰처바흐가 2008년 동명 기사에서 소개한 것으로 보인다.[6]

중단된 광원

램프, 관찰자, 그리고 그들 둘 사이의 문으로 시스템을 고려하라. 램프에는 두 가지 가능한 상태가 있다. 켜짐, 켜짐, 꺼짐, 꺼짐, 0으로 표시된다. 램프가 켜지면 관찰자는 도어가 열린 상태, 1 또는 닫힌 상태, 0에 따라 도어를 통해 빛을 볼 수 있다. 이러한 상태는 램프의 원래 상태와 무관하다.

) 0 값을 가진 마코프 으로,A = {\ A의 값을 가지고, p{\확률 전이 행렬 한다. 또한 () 0 도어의 상태를 나타내는 독립 랜덤 변수의 시퀀스가 되게 하고 체인) 0 독립적으로 을 취한다.

여기서 < > 0 새 시퀀스) 0 을(를) 정의하십시오.

= X }\{n ( {\Z_{n})_

관찰자가 램프를 켤 수 있는 마지막 순간(, Z = < n 최소 순간k 를) 식별하기 위해.

컨텍스트 트리를 사용하면 다음 상태를 식별하는 데 관련된 시퀀스의 과거 상태를 나타낼 수 있다.

확률 체인) 은(는) 가변 길이의 메모리를 가진 체인으로, 의 값을 취하며 확률적 컨텍스트 트리 (,) tree 와 호환된다

가변 길이 체인의 추론

샘플 ,… ,X 을(를) 제공하면 다음과 같은 알고리즘을 사용하여 전용 컨텍스트 트리를 찾을 수 있다

컨텍스트 알고리즘

Rissanen은 A 범용 데이터 압축 시스템 기사에서 데이터를 생성하는 확률론적 컨텍스트 트리를 추정하기 위해 일관된 알고리즘을 도입했다.[1] 이 알고리즘의 기능은 두 단계로 요약할 수 있다.

  1. 가변 길이의 메모리가 있는 체인에 의해 생산된 샘플을 고려할 때, 우리는 샘플에 컨텍스트할 수 있는 모든 지원자를 가지는 최대 트리에서 시작한다.
  2. 이 나무의 가지들은 데이터에 잘 적응된 가장 작은 나무를 얻을 때까지 잘려진다. 로그 우도의 비율과 같이 주어진 게인 함수를 통해 컨텍스트 단축 여부를 결정한다.

Be a sample of a finite probabilistic tree . For any sequence with , it is possible to denote by 샘플에서 시퀀스가 발생한 횟수, 즉,

Rissanen은 X - ( n) - 1 여기서 ( n ) = C 에 의해 주어지는 컨텍스트 최대 후보를 작성했다. 임의의 양의 상수다. 를 선택하는 직관적인 이유는 가 n 인 표본을 바탕으로 보다 긴 시퀀스의 확률을 추정할 수 없기 때문이다

거기서부터 리사넨은 통계적 우도비에 기초한 일련의 시험에 따라 연속적으로 가지를 자르기를 통해 최대 후보를 단축시킨다. 보다 공식적인 정의에서 bANnxk1b0이 전환 확률 p의 확률 추정기를 정의한 경우

where . If , define A

에 대해 정의하십시오

여기서 - - 1=( - i,, - ) 그리고

Note that is the ratio of the log-likelihood to test the consistency of the sample with the probabilistic context tree against the alternative that is consistent with , where ( {\displaystyle 은(는) 형제 매듭 집합에 의해서만 다르다.

현재 추정된 컨텍스트의 길이는 다음과 같이 정의된다.

여기서 (는) 임의의 양의 상수임. 마침내 리사넨에 의해 다음과 같은 결과가 나왔다.[1] 유한 확률론적 컨텍스트 트리 (, , p ,… , - 그 다음

이(가) 있을 때

베이시안 정보 기준(BIC)

패널티 상수 > 을(를) 가진 BIC에 의한 컨텍스트 트리의 추정기는 다음과 같이 정의된다.

최소 최대값 기준(SMC)

가장 작은 맥시저 기준은[3] 챔피언 트리 C 세트의 가장 작은 트리 τ을 선택하여 계산한다.

참고 항목

참조

  1. ^ a b c d Rissanen, J (Sep 1983). "A Universal Data Compression System". IEEE Transactions on Information Theory. 29 (5): 656–664. doi:10.1109/TIT.1983.1056741.
  2. ^ a b Bejenaro, G (2001). "Variations on probabilistic suffix trees: statistical modeling and prediction of protein families". Bioinformatics. 17 (5): 23–43. doi:10.1093/bioinformatics/17.1.23. PMID 11222260.
  3. ^ a b Galves A, Galves C, Garcia J, Garcia NL, Leonardi F (2012). "Context tree selection and linguistic rhythm retrieval from written texts". The Annals of Applied Statistics. 6 (5): 186–209. arXiv:0902.3619. doi:10.1214/11-AOAS511.
  4. ^ Dubnov S, Assayag G, Lartillot O, Bejenaro G (2003). "Using machine-learning methods for musical style modeling". Computer. 36 (10): 73–80. CiteSeerX 10.1.1.628.4614. doi:10.1109/MC.2003.1236474.
  5. ^ Galves A, Garivier A, Gassiat E (2012). "Joint estimation of intersecting context tree models". Scandinavian Journal of Statistics. 40 (2): 344–362. arXiv:1102.0673. doi:10.1111/j.1467-9469.2012.00814.x.
  6. ^ Galves A, Löcherbach E (2008). "Stochastic chains with memory of variable length". TICSP Series. 38: 117–133.