문자열 메트릭
String metric수학 및 컴퓨터 과학에서 문자열 메트릭(끈 유사성 메트릭 또는 문자열 거리 함수로도 알려져 있음)은 대략적인 문자열 일치 또는 비교와 퍼지 문자열 검색에서 두 텍스트 문자열 사이의 거리("역 유사성")를 측정하는 메트릭이다. 문자열 메트릭(예: 문자열 매칭 대비)의 요구사항은 삼각형 불평등 충족이다. 예를 들어, 현악 「샘」과 「사뮤엘」은 가까운 것으로 생각할 수 있다.[1] 문자열 메트릭은 알고리즘별 거리 표시를 나타내는 숫자를 제공한다.
가장 널리 알려진 끈 측정법은 레벤슈테인 거리(편집 거리라고도 한다)[2]라고 불리는 초보적인 것이다. 두 입력 문자열 사이에서 작동하며, 한 입력 문자열을 다른 입력 문자열로 변환하는 데 필요한 대체 및 삭제 횟수에 해당하는 숫자를 반환한다. 레벤슈테인 거리와 같은 단순한 문자열 지표가 음성, 토큰, 문법 및 문자 기반 통계 비교 방법을 포함하도록 확장되었다.
스트링 메트릭스는 정보 통합에 많이 사용되며, 현재 사기 탐지, 지문 분석, 표절 탐지, 온톨로지 병합, DNA 분석, RNA 분석, 이미지 분석, 증거 기반 기계 학습, 데이터베이스 데이터 중복 제거, 데이터 마이닝, 증분 검색, 데이터 통합, 멀웨어 디텍 등의 영역에서 사용되고 있다.tion, 그리고 의미론적 지식 통합.
문자열 메트릭 목록
- Levenshtein 거리 또는 일반화
- 다메라우-레벤슈테인 거리
- 쇠렌센-디체 계수
- 블록 거리 또는 L1 거리 또는 도시 블록 거리
- 해밍 거리
- 자로-윙클러 거리
- 단순 일치 계수(SMC)
- 자카드 유사성 또는 자카드 계수 또는 타니모토 계수
- 트베르스키 지수
- 겹침 계수
- 변동 거리
- 헬링거 거리 또는 바타차리야 거리
- 정보 반지름(Jensen-Shannon 차이)
- 스큐 다이버전스
- 혼동 확률
- 툴백-라이블러 분기의 근사치인 타우 미터법
- Fellegi 및 Sunters 메트릭(SFS)
- 최대 일치 항목
- 문법 기반 거리
- TFIDF 거리 메트릭[4]
선택한 문자열 측정 예제
이름 | 예. |
---|---|
해밍 거리 | "카롤린"과 "kathrin"은 3이다. |
레벤슈테인 거리 및 다메라우-레벤슈테인 거리 | 고양이와 앉아있는 거리는 3이다.
|
자로-윙클러 거리 | 자로윙클러디스트("MARTHA","MARHTA") =
|
가장 빈번한 k 문자 | MostFreqKeySimilarity('리서치', '추적', 2) = 2 |
참조
- ^ Lu, Jiaheng; et al. (2013). "String similarity measures and joins with synonyms". Proceedings of the 2013 ACM SIGMOD International Conference on Management of Data: 373–384. doi:10.1145/2463676.2465313. ISBN 9781450320375.
- ^ Navarro, Gonzalo (2001). "A guided tour to approximate string matching". ACM Computing Surveys. 33 (1): 31–88. doi:10.1145/375360.375365. hdl:10533/172862.
- ^ Shlomi Dolev; Mohammad, Ghanayim; Alexander, Binun; Sergey, Frenkel; Yeali, S. Sun (2017). "Relationship of Jaccard and edit distance in malware clustering and online identification". 16th IEEE International Symposium on Network Computing and Applications: 369–373.
- ^ Cohen, William; Ravikumar, Pradeep; Fienberg, Stephen (2003-08-01). "A Comparison of String Distance Metrics for Name-Matching Tasks": 73–78.
{{cite journal}}
: Cite 저널은 필요로 한다.journal=
(도움말)
외부 링크
- https://web.archive.org/web/20070304092115/http:///www.dcs.shef.ac.uk/~sam/stringmetrics.www.dcs.shef.ac.uk/#qgram 상당히 완전한 개요 웨이백 머신의 Archive index
- 카네기 멜론 대학교 오픈소스 도서관
- StringMetric 프로젝트 String 메트릭스 및 음성 알고리즘의 Scala 라이브러리
- 일반적인 문자열 메트릭 구현을 포함하는 JavaScript 자연 언어 처리 라이브러리 자연 프로젝트