음성 알고리즘
Phonetic algorithm발음 알고리즘은 단어의 발음에 의한 색인화를 위한 알고리즘이다.대부분의 음성 알고리즘은 영어를 위해 개발되었으며 다른 언어의 단어 색인에는 유용하지 않다.[1]영어 철자는 단어의 기원과 시간에 따른 사용, 다른 언어로부터의 차용 등 여러 요인에 따라 크게 달라지기 때문에 음성 알고리즘은 반드시 수많은 규칙과 예외를 고려해야 한다.[2]
알고리즘
가장 잘 알려진 음성 알고리즘은 다음과 같다.
- 사운덱스는 검열에 사용하기 위해 성을 암호화할 수 있도록 개발되었다.사운덱스 코드는 한 글자 뒤에 세 개의 숫자가 있는 네 개의 문자로 된 문자열이다.
- 다이치-모코토프 사운덱스(Daitch-Mokotoff Soundex)는 슬라브어와 게르만어 출신 성(性)에 더 잘 맞도록 설계된 사운덱스를 정교하게 다듬은 것이다.다이치-모코토프 사운덱스 코드는 6자리 숫자로 구성된 문자열이다.
- 쾰른 음성학:이것은 사운덱스와 비슷하지만 독일어에 더 적합하다.
- 이름뿐 아니라 대부분의 영어 단어와 함께 사용하기에 적합한 은유와 이중 은유.은유 알고리즘은 많은 인기 있는 철자 검사기의 기본이다.
- 뉴욕주 식별정보시스템(NYSIIS)은 동일한 문자에 유사한 음음을 매핑한다.결과는 해독하지 않고 독자가 발음할 수 있는 문자열이다.
- 1977년 Western Airlines에 의해 개발된 매치 레이팅 접근법 - 이 알고리즘은 인코딩과 레인지 비교 기법을 가지고 있다.
- 19세기 후반에서 20세기 초반 사이의 데이터 매칭을 돕기 위해 만들어진 Caverphone은 뉴질랜드의 일부 지역에 존재하는 억양에 최적화되었다.
공통 용법
- 철자 검사기는 종종 음성 알고리즘을 포함할 수 있다.예를 들어, Miquone 알고리즘은 철자가 틀린 단어를 가져와서 코드를 만들 수 있다.그런 다음 동일하거나 유사한 은유법을 가진 단어들을 디렉토리에서 찾아본다.동일하거나 유사한 은유법을 가진 단어들은 가능한 대체 철자가 된다.
- 검색 기능은 종종 음성 알고리즘을 사용하여 검색에 사용된 용어와 정확히 일치하지 않는 결과를 찾을 수 있다.이름에는 대체 철자가 여러 개 있는 경우가 많기 때문에 이름을 검색하는 것은 어려울 수 있다.그 예로는 클레어라는 이름이 있다.클레어/클레어라는 두 가지 대안이 있는데, 둘 다 똑같이 발음된다.한 가지 철자를 검색하는 것은 다른 두 가지 철자에 대한 결과를 보여주지 않을 것이다.Soundex를 사용하면 세 가지 변형이 모두 동일한 Soundex 코드인 C460을 생성한다.사운덱스 코드에 근거한 이름을 검색함으로써 3가지 변형이 모두 반환될 것이다.
참고 항목
참조
- ^ Li, Nan; Hitchcock, Peter; Blustein, James; Bliemel, Michael (2011). H. Raghav Rao; Raj Sharman; T. S. Raghu (eds.). Exploring the grand challenges for next generation E-Business : 8th Workshop on E-Business, WEB 2009, Phoenix, AZ, USA, December 15, 2009, Revised selected papers. Berlin: Springer. p. 232. ISBN 9783642174483. Retrieved 31 December 2020.
- ^ Cohen, Eli B. (2009). Growing Information: Part 2. Santa Rosa, Calif.: Informing Science. p. 498. ISBN 978-1-932886-17-7.