정규화된 압축 거리
Normalized compression distance정규화된 압축 거리(NCD)는 문서 2개, 편지 2개, 이메일 2개, 음악 점수 2개, 언어 2개, 프로그램 2개, 사진 2개, 시스템 2개, 게놈 2개 등 두 개체의 유사성을 측정하는 방법이다. 이러한 측정은 적용에 의존하거나 임의로 해서는 안 된다. 두 물체의 유사성에 대한 합리적인 정의는 두 물체를 서로 변형시키는 것이 얼마나 어려운가 하는 것이다.
클러스터 분석을 위한 정보 검색 및 데이터 마이닝에 활용할 수 있다.
정보 거리
우리는 한 사람이 말하는 물체가 0과 1의 유한 문자열이라고 가정한다. 따라서 우리는 끈 유사성을 의미한다. 모든 컴퓨터 파일은 이런 형태, 즉, 어떤 물체가 컴퓨터의 파일이라면 이런 형태다. 과 y 사이의 거리를 y y에서 x x}을(를) 계산하는 최단 프로그램p {\ p}의 길이로 정의할 수 있다. 이 최단 프로그램은 고정 프로그래밍 언어로 되어 있다. 기술적인 이유로 튜링 머신의 이론적 개념을 사용한다. 더욱이 의 길이를 표현하기 위해서는 Kolmogorov 복잡성의 개념을 사용한다. 그리고 나서, 그것은 보여졌다.
무시될 수 있는 로그 첨가 용어까지. 이 정보 거리는 미터법(로그 적층 용어까지의 메트릭 불평등을 충족함), 범용(예를 들어 형상에서 일정한 적층 용어까지 계산된 모든 계산 가능한 거리를 경미화함)[1]으로 표시된다.
정규화된 정보 거리(유사성 메트릭)
정보 거리는 절대적이지만 유사성을 표현하려면 상대적인 것에 더 관심을 갖는다. 예를 들어, 길이 1,000,000의 두 문자열이 1000비트만큼 차이가 난다면, 우리는 그 문자열이 1000비트만큼 다른 1000비트의 두 문자열보다 상대적으로 더 비슷하다고 생각한다. 따라서 우리는 유사성 지표를 얻기 위해 정상화할 필요가 있다. 이 방법으로 정규화된 정보 거리(NID)를 얻는다.
여기서 y) 은 이(가) 입력으로 지정된 x 의 알고리즘 정보다 . NID는 , y라는 함수가 미터법 거리 측정에 대한 기본 요건을 만족하는 것으로 나타났기 때문에 '유사성 메트릭'이라고 불린다.[2][3] 그러나 계산이 가능하지도 않고 심지어 반투명도 가능하지도 않다.[4]
정규화된 압축 거리
NID 메트릭은 계산할 수 없지만 응용 프로그램이 풍부하다. () {\Z(을(를 사용하여 실제 압축기에 K displaystyle 을(를) 약칭하면 NID를 적용하기 쉽도록 압축기 Z(예:[2] "gzip", "bzip2, "PPMZ")로 압축한 파일 x의 이진 길이입니다. Vitani와 Cilibrasi는 NID를 다시 작성하여 NCD(표준화된 압축 거리)를 얻는다.
NCD는 실제로 압축기 Z와 파라메트리된 거리의 제품군이다. Z가 좋을수록 NCD가 NID에 가까이 접근할수록 결과가 좋아진다.[3]
적용들
정규화된 압축 거리는 언어와 계통생성 나무를 완전히 자동으로 재구성하는 데 사용되어 왔다.[2][3] 또한 일반 클러스터링의 새로운 애플리케이션과 임의 도메인의 자연 데이터 분류,[3] 이기종 데이터의 클러스터링,[3] 도메인 전체의 이상 징후 검출에도 사용할 수 있다.[5] NID와 NCD는 네트워크 트래픽과 클러스터 컴퓨터 웜 및 바이러스, 저자 [6]귀인,[3] 유전자 표현 역학, 유용성 대 쓸모없는 줄기 세포 예측,[7][8][9] 중요 네트워크,[10] 이미지 등록,[11] 질의 응답 시스템 등을 분석하기 위해 음악 분류 등 수많은 과목에 적용되어 왔다.[12]
퍼포먼스
데이터마이닝 커뮤니티의 연구자들은 NCD와 변형을 "변수 없는 특징 없는" 데이터 마이닝 도구로 사용한다.[5] 한 그룹은 다양한 시퀀스 벤치마크에서 밀접하게 관련된 메트릭스를 실험적으로 테스트했다. 이들은 지난 10년간 7개 주요 데이터 마이닝 컨퍼런스에서 발견된 51가지 주요 방법과 압축 방식을 비교해 이질적인 데이터를 클러스터링하고 이상 징후를 탐지하는 압축 방식과 도메인 데이터의 클러스터링 경쟁력을 확립했다.
NCD는 소음에 강하다는 장점이 있다.[13] 그러나 NCD가 "변수가 없는" 것처럼 보이지만, 실제적인 질문에는 NCD 계산에 사용할 압축기와 기타 가능한 문제가 포함된다.[14]
NRC(표준화된 상대 압축)와의 비교
다른 문자열과 관련된 문자열의 정보를 측정하기 위해서는 상대적 반간격(NRC)에 의존할 필요가 있다.[15] 대칭과 삼각 불평등 거리 특성을 존중할 필요가 없는 조치들이다. NCD와 NRC는 매우 유사해 보이지만 다른 문제를 다룬다. NRC는 다른 문자열의 정보를 사용하여 구성할 수 없는 대상 문자열의 분율을 나타내는 반면 NCD는 주로 정보 콘텐츠를 사용하여 두 문자열이 얼마나 유사한지 측정한다. 영장류 게놈의 진화에 대한 비교는 다음을 참조하십시오.[16]
표준화된 Google 거리
물체는 쥐의 문자 그대로 4글자 게놈이나 톨스토이의 문자 그대로 전쟁과 평화의 문자처럼 주어질 수 있다. 단순성을 위해 우리는 그 물체의 모든 의미는 문자 그대로의 물체 그 자체로 표현된다고 생각한다. '쥐의 네 글자로 된 게놈'이나 '톨스토이의 전쟁과 평화'라는 글과 같은 물체도 이름별로 줄 수 있다. 또한 문자 그대로 주어질 수 없고, 이름만으로 주어질 수 없고, '집'이나 '빨간'처럼 인류의 배경 상식에 있는 문맥에서 그 의미를 습득하는 사물도 있다. 우리는 의미적 유사성에 관심이 있다. 구글이 웹에서 반환한 페이지 적중 횟수에서 얻은 코드 워드 길이를 이용해 NCD 공식을 이용해 의미적 거리를 얻고 구글을 데이터 마이닝, 텍스트 이해, 분류, 번역에 유용한 압축기로 본다. 표준화된 구글 거리(NGD)라고 불리는 관련 NCD는 다음과 같이 다시 쓸 수 있다.
서 f( ) 은(는) 검색어 를 포함하는 페이지 수를 나타내며 , y) 는 구글이나agg를 반환할 수 있는 엔진에서 반환된 를 모두 포함하는 페이지 수를 .페이지수를 재등록하다 N{\은(는) 포함된 검색어 또는 구 수에 따라 각 페이지를 세는 것이 더 적절하지만 인덱싱된 페이지 수로 설정할 수 있다. 엄지의 법칙으로 페이지 수를 천 단위로 곱할 수 있다.[17]
참고 항목
참조
- ^ a b C.H. 베넷, P. 개스, M. 리, P.M.B. 비타니, W. 주렉, 정보 거리, IEEE 트랜스. 알려 주다. 이론, IT-44:4 (1998) 1407–1423
- ^ a b c Li, Ming; Chen, Xin; Li, Xin; Ma, Bin; Vitanyi, P. M. B. (2011-09-27). "M. Li, X. Chen, X. Li, B. Ma, P.M.B. Vitanyi, The similarity metric, IEEE Trans. Inform. Th., 50:12(2004), 3250–3264". IEEE Transactions on Information Theory. 50 (12): 3250–3264. doi:10.1109/TIT.2004.838101. S2CID 221927.
- ^ a b c d e f g Cilibrasi, R.; Vitanyi, P. M. B. (2011-09-27). "R. Cilibrasi, P.M.B. Vitanyi, Clustering by compression". IEEE Transactions on Information Theory. 51 (4): 1523–1545. arXiv:cs/0312044. doi:10.1109/TIT.2005.844059. S2CID 911.
- ^ Terwijn, Sebastiaan A.; Torenvliet, Leen; Vitányi, Paul M.B. (2011). "Nonapproximability of the normalized information distance". Journal of Computer and System Sciences. 77 (4): 738–742. doi:10.1016/j.jcss.2010.06.018. S2CID 10831035.
- ^ a b Keogh, Eamonn; Lonardi, Stefano; Ratanamahatana, Chotirat Ann (2004-08-22). "Towards parameter-free data mining". E. Keogh, S. Lonardi, and C.A. Ratanamahatana. "Towards parameter-free data mining." In Conference on Knowledge Discovery in Data: Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, vol. 22, no. 25, pp. 206–215. 2004. Dl.acm.org. p. 206. doi:10.1145/1014052.1014077. ISBN 978-1581138887. S2CID 1616057.
- ^ "S. Wehner,Analyzing worms and network traffic using compression, Journal of Computer Security, 15:3(2007), 303–320". Iospress.metapress.com. Retrieved 2012-11-03.
{{cite journal}}
: Cite 저널은 필요로 한다.journal=
(도움말) - ^ Stamatatos, Efstathios (2009). "A survey of modern authorship attribution methods". Journal of the American Society for Information Science and Technology. 60 (3): 538–556. CiteSeerX 10.1.1.207.3310. doi:10.1002/asi.21001.
- ^ Nykter, M. (2008). "Gene expression dynamics in the macrophage exhibit criticality". Proceedings of the National Academy of Sciences. 105 (6): 1897–1900. Bibcode:2008PNAS..105.1897N. doi:10.1073/pnas.0711525105. PMC 2538855. PMID 18250330.
- ^ Cohen, Andrew R (2010). "Computational prediction of neural progenitor cell fates". Nature Methods. 7 (3): 213–218. doi:10.1038/nmeth.1424. hdl:1866/4484. PMID 20139969. S2CID 18652440.
- ^ Nykter, Matti; Price, Nathan D.; Larjo, Antti; Aho, Tommi; Kauffman, Stuart A.; Yli-Harja, Olli; Shmulevich, Ilya (2008). "M. Nykter, N.D. Price, A. Larjo, T. Aho, S.A. Kauffman, O. Yli-Harja1, and I. Shmulevich, Critical networks exhibit maximal information diversity in structure-dynamics relationships, Phys. Rev. Lett. 100, 058702 (2008)". Physical Review Letters. 100 (5): 058702. arXiv:0801.3699. doi:10.1103/PhysRevLett.100.058702. PMID 18352443. S2CID 5760862.
- ^ Bardera, Anton; Feixas, Miquel; Boada, Imma; Sbert, Mateu (July 2006). "Compression-based Image Registration". M. Feixas, I. Boada, M. Sbert, Compression-based Image Registration. Proc. IEEE International Symposium on Information Theory, 2006. 436–440. Ieeexplore.ieee.org. pp. 436–440. doi:10.1109/ISIT.2006.261706. hdl:10256/3052. ISBN 978-1-4244-0505-3. S2CID 12549455.
- ^ Zhang, Xian; Hao, Yu; Zhu, Xiaoyan; Li, Ming; Cheriton, David R. (2007). "Information distance from a question to an answer". X Zhang, Y Hao, X Zhu, M Li, Information distance from a question to an answer, Proc. 13th ACM SIGKDD international conference on Knowledge discovery and data mining, 2007, 874–883. Dl.acm.org. p. 874. doi:10.1145/1281192.1281285. ISBN 9781595936097. S2CID 3040254.
- ^ Cebrian, M.; Alfonseca, M.; Ortega, A. (2011-09-27). "The normalized compression distance is resistant to noise". IEEE Transactions on Information Theory. 53 (5): 1895–1900. CiteSeerX 10.1.1.158.2463. doi:10.1109/TIT.2007.894669. S2CID 15691266.
- ^ "M. Cebrián, M. Alfonseca, and A. Ortega, Common pitfalls using the normalized compression distance: what to watch out for in a compressor, Commun. Inf. Syst. 5:4(2005), 367–384". Projecteuclid.org. Retrieved 2012-11-03.
- ^ Ziv, J.; Merhav, N. (1993). "A measure of relative entropy between individual sequences with application to universal classification". IEEE Transactions on Information Theory. 39 (4): 1270–1279. doi:10.1109/18.243444.
- ^ Pratas, 디오고;실바, 라켈 M.;Pinho, 아르만도 J.(2018년)."비교Compression-Based 조치의 적용과 영장류 유전체의 진화에".엔트로피. 20(6):393.Bibcode:2018Entrp..20..393P. doi:10.3390/e20060393.PMC7512912.PMID 33265483.재료는 창조적 공용 귀인 4.0국제 라이센스 하에 가능하다 이 원본에서 복사되었다.
- ^ Cilibrasi, R. L.; Vitanyi, P. M. B. (2011-09-27). "R.L. Cilibrasi, P.M.B. Vitanyi, The Google Similarity Distance, IEEE Trans. Knowledge and Data Engineering, 19:3(2007), 370-383". IEEE Transactions on Knowledge and Data Engineering. 19 (3): 370–383. arXiv:cs/0412098. doi:10.1109/TKDE.2007.48. S2CID 59777.