요인 코드

Factorial code

대부분의 실제 데이터 세트는 개별 구성요소가 통계적으로 독립적이지 않은 데이터 벡터로 구성된다.즉, 요소의 값을 알면 데이터 벡터에 있는 요소의 값에 대한 정보를 제공할 것이다.이 경우 데이터의 요인 코드, 즉 결과 코드 벡터(손실 없는 코드)에 의해 고유하게 인코딩되도록 각 데이터 벡터의 새로운 벡터 값 표현을 생성하는 것이 바람직할 수 있으나, 코드 구성요소는 통계적으로 독립적이다.

나중에 감독되는 학습은 대개 원시 입력 데이터가 그러한 요인 코드로 처음 변환될 때 훨씬 더 효과적이다.예를 들어, 최종 목표가 중복성이 높은 픽셀을 사용하여 영상을 분류하는 것이라고 가정해 보십시오.순진한 베이즈 분류자는 픽셀이 통계적으로 독립적인 랜덤 변수라고 가정할 것이며 따라서 좋은 결과를 내지 못할 것이다.그러나 데이터가 먼저 요인 방식으로 암호화되면 순진한 베이즈 분류기가 최적의 성능을 달성할 것이다(Schmidhuber et al. 1996).

요인 코드를 생성하기 위해 Horace Barlow와 동료들은 이진 코드(1989)의 코드 구성요소의 비트 엔트로피 합계를 최소화하자고 제안했다.위르겐 슈미두버(1992)는 각각 원시 데이터를 입력으로 수신하는 예측 변수와 이항 특성 검출기의 측면에서 문제를 다시 형성했다.각 검출기에 대해 다른 검출기를 보고 다양한 입력 벡터 또는 영상에 반응하여 자체 검출기의 출력을 예측하는 방법을 학습하는 예측 변수가 있다.그러나 각 검출기는 기계 학습 알고리즘을 사용하여 가능한 한 예측할 수 없게 된다.목표 함수전역 최적값은 형상 검출기의 출력 전체에 걸쳐 분산 방식으로 표시되는 요인 코드에 해당한다.

Botsky, Rosset, Feder(2016, 2017)는 유한한 알파벳 크기에 대한 독립적인 성분 분석이라는 맥락에서 이 문제를 더욱 연구했다.일련의 정리를 통해 그들은 요인 코딩 문제가 가지와 바인딩된 검색 트리 알고리즘으로 정확하게 해결될 수 있거나 일련의 선형 문제와 밀접하게 근사할 수 있다는 것을 보여준다.또한, 그들은 탐욕스럽지만 매우 효과적인 최적 용액의 근사치를 제공하는 단순한 변환(이름, 순서 순열)을 도입한다.실제로, 그들은 신중한 구현을 통해 주문 순열의 유리한 특성이 무증상 최적 계산 복잡도에서 달성될 수 있다는 것을 보여준다.중요한 것은, 그들은 이론적 보증을 제공하여, 모든 무작위 벡터가 독립적 구성요소로 효율적으로 분해될 수 있는 것은 아니지만, 벡터의 대다수가 차원이 증가함에 따라 (즉, 적은 일정한 비용으로) 매우 잘 분해된다는 것을 보여준다.또한 다중 설정(2017년)에서 데이터 압축에 요인 코드를 사용하는 방법을 시연한다.

참고 항목

참조

  • 호레이스 바를로, T. P. 카우샬, G. J. 미치슨.최소 엔트로피 코드 찾기.신경 연산 1:412-423, 1989.
  • 위르겐 슈미두버예측 가능성 최소화를 통한 요인 코드 학습신경 계산, 4:863-879, 1992
  • J. Schmidhuber와 M.엘드라허와 B.폴틴.반선형 예측성 최소화는 잘 알려진 형상 검출기를 생성한다.신경 계산, 8:773-786, 1996
  • A. Botsky, S. Rosset, M.Feder. 유한한 알파벳에 대한 일반화된 독립 성분 분석.IEEE 정보이론 거래, 62:1038-1053, 2016
  • A. Botsky, S. Rosset, M.Feder. 독립 성분 분석을 사용한 대형 알파벳 소스 코드화.IEEE 정보이론 거래, 63:6514 - 6529, 2017