음성 알고리즘

발음 알고리즘은 단어의 발음에 의한 색인화를 위한 알고리즘이다.대부분의 음성 알고리즘은 영어를 위해 개발되었으며 다른 언어의 단어 색인에는 유용하지 않다.^[1]영어 철자는 단어의 기원과 시간에 따른 사용, 다른 언어로부터의 차용 등 여러 요인에 따라 크게 달라지기 때문에 음성 알고리즘은 반드시 수많은 규칙과 예외를 고려해야 한다.^[2]

알고리즘

가장 잘 알려진 음성 알고리즘은 다음과 같다.

사운덱스는 검열에 사용하기 위해 성을 암호화할 수 있도록 개발되었다.사운덱스 코드는 한 글자 뒤에 세 개의 숫자가 있는 네 개의 문자로 된 문자열이다.
다이치-모코토프 사운덱스(Daitch-Mokotoff Soundex)는 슬라브어와 게르만어 출신 성(性)에 더 잘 맞도록 설계된 사운덱스를 정교하게 다듬은 것이다.다이치-모코토프 사운덱스 코드는 6자리 숫자로 구성된 문자열이다.
쾰른 음성학:이것은 사운덱스와 비슷하지만 독일어에 더 적합하다.
이름뿐 아니라 대부분의 영어 단어와 함께 사용하기에 적합한 은유와 이중 은유.은유 알고리즘은 많은 인기 있는 철자 검사기의 기본이다.
뉴욕주 식별정보시스템(NYSIIS)은 동일한 문자에 유사한 음음을 매핑한다.결과는 해독하지 않고 독자가 발음할 수 있는 문자열이다.
1977년 Western Airlines에 의해 개발된 매치 레이팅 접근법 - 이 알고리즘은 인코딩과 레인지 비교 기법을 가지고 있다.
19세기 후반에서 20세기 초반 사이의 데이터 매칭을 돕기 위해 만들어진 Caverphone은 뉴질랜드의 일부 지역에 존재하는 억양에 최적화되었다.

공통 용법

철자 검사기는 종종 음성 알고리즘을 포함할 수 있다.예를 들어, Miquone 알고리즘은 철자가 틀린 단어를 가져와서 코드를 만들 수 있다.그런 다음 동일하거나 유사한 은유법을 가진 단어들을 디렉토리에서 찾아본다.동일하거나 유사한 은유법을 가진 단어들은 가능한 대체 철자가 된다.
검색 기능은 종종 음성 알고리즘을 사용하여 검색에 사용된 용어와 정확히 일치하지 않는 결과를 찾을 수 있다.이름에는 대체 철자가 여러 개 있는 경우가 많기 때문에 이름을 검색하는 것은 어려울 수 있다.그 예로는 클레어라는 이름이 있다.클레어/클레어라는 두 가지 대안이 있는데, 둘 다 똑같이 발음된다.한 가지 철자를 검색하는 것은 다른 두 가지 철자에 대한 결과를 보여주지 않을 것이다.Soundex를 사용하면 세 가지 변형이 모두 동일한 Soundex 코드인 C460을 생성한다.사운덱스 코드에 근거한 이름을 검색함으로써 3가지 변형이 모두 반환될 것이다.

참고 항목

참조

^ Li, Nan; Hitchcock, Peter; Blustein, James; Bliemel, Michael (2011). H. Raghav Rao; Raj Sharman; T. S. Raghu (eds.). Exploring the grand challenges for next generation E-Business : 8th Workshop on E-Business, WEB 2009, Phoenix, AZ, USA, December 15, 2009, Revised selected papers. Berlin: Springer. p. 232. ISBN 9783642174483. Retrieved 31 December 2020.
^ Cohen, Eli B. (2009). Growing Information: Part 2. Santa Rosa, Calif.: Informing Science. p. 498. ISBN 978-1-932886-17-7.

이 문서에는 NIST 문서의 공용 도메인 자료가 포함되어 있다.

외부 링크

단어를 음소 및 등으로 변환하기 위한 알고리즘.
StringMetric은 발음 알고리즘의 스칼라 라이브러리를 투영한다.
Clj-fuzzi는 발음 알고리즘의 Clojure 라이브러리를 투영한다.
R에서 구현된 음성 알고리즘의 사운드exBR 라이브러리.
탈리스만은 온라인에서 시도할 수 있는 다양한 음성 알고리즘을 수집하는 자바스크립트 도서관이다.

[1] Li, Nan; Hitchcock, Peter; Blustein, James; Bliemel, Michael (2011). H. Raghav Rao; Raj Sharman; T. S. Raghu (eds.). Exploring the grand challenges for next generation E-Business : 8th Workshop on E-Business, WEB 2009, Phoenix, AZ, USA, December 15, 2009, Revised selected papers. Berlin: Springer. p. 232. ISBN 9783642174483. Retrieved 31 December 2020.

[2] Cohen, Eli B. (2009). Growing Information: Part 2. Santa Rosa, Calif.: Informing Science. p. 498. ISBN 978-1-932886-17-7.

[1]

[2]

Search

음성 알고리즘

네임스페이스

더

목차

알고리즘

공통 용법

참고 항목

참조

외부 링크