코사인 유사성

Cosine similarity

데이터 분석에서 코사인 유사성은 두 개의 숫자 시퀀스 사이의 유사성을 측정하는 척도다.그것을 정의하기 위해, 시퀀스는 내부 제품 공간에서 벡터로 보고, 코사인 유사성은 그들 사이의 각도의 코사인 즉, 벡터의 도트 곱을 길이의 곱으로 나눈 값으로 정의된다.코사인 유사성은 벡터의 크기에 따라 달라지는 것이 아니라 각도에 따라서만 달라지는 것이다.코사인 유사성은 항상 간격[ -1, . [-에 속한다. 예를 들어 두 개의 비례 벡터는 코사인 유사성이 1, 두 개의 직교 벡터는 유사성이 0이며, 두 개의 반대 벡터는 -1과 유사성이 있다.코사인 유사성은 결과가 [ 에서 깔끔하게 경계되는 양의 공간에 특히 사용된다

예를 들어, 정보 검색과 텍스트 마이닝에서는 각 단어마다 다른 좌표가 할당되고 문서에 포함된 각 단어의 발생 횟수의 벡터로 문서가 표현된다.코사인 유사성은 두 문서가 얼마나 유사한지, 주제의 관점에서, 그리고 문서의 길이에 대해 모호하게 나타내는 유용한 척도를 제공한다.[1]

이 기술은 데이터 마이닝 분야에서 클러스터 내의 응집력을 측정하는 데도 사용된다.[2]

코사인 유사성의 한 가지 장점은 특히 희박한 벡터의 경우 복잡성이 낮다는 것이다: 0이 아닌 좌표만 고려할 필요가 있다.

코사인 유사성의 다른 이름에는 오크티니 유사성일치성의 터커 계수가 있다. 오츠카-오키아이의 유사성(아래 참조)은 이항 데이터에 적용된 코사인 유사성이다.

정의

0이 아닌 두 벡터의 코사인은 유클리드 도트 제품 공식을 사용하여 도출할 수 있다.

AB라는 두 가지 속성의 벡터를 주어 코사인 유사성, cos(cos)는 제품크기를 사용하여 나타낸다.

여기서 는 각각 벡터 구성 요소다.

결과 유사성 범위는 -1과 정확히 반대되는 의미부터 정확히 같은 의미까지이며, 0은 직교성 또는 장식성을 나타내며, 중간 값은 중간 유사성 또는 상이성을 나타낸다.

텍스트 일치의 경우, 속성 벡터 AB는 일반적으로 문서의 용어 주파수 벡터가 된다.코사인 유사성은 비교 시 문서 길이를 정규화하는 방법으로 볼 수 있다.

정보 검색의 경우, 빈도가 음수가 될 수 없기 때문에 두 문서의 코사인 유사도는 0부터 1까지이다.이것은 tf-idf 가중치를 사용할 때 그대로 적용된다.두 용어 주파수 벡터 사이의 각도는 90°보다 클 수 없다.

계수 벡터가 벡터 평균(: A- - A의 {\A})을 빼서 정규화된 경우, 이 측정값을 중심 코사인 유사도라고 하며 Pearson 상관 계수와 동일하다.For an example of centering,

코사인 거리라는 용어는 양성공간에서 코사인 유사성을 보완하기 위해 일반적으로 사용된다.

그러나 코사인 거리는 삼각형 불평등 특성(또는 더 공식적으로 슈바르츠 불평등)이 없고 우연 공리를 위반하므로 적절한 거리 측정 기준이 아니라는 점에 유의해야 한다.이를 볼 수 있는 한 가지 방법은 코사인 거리가 L 2}} 정상화의 제곱 유클리드 거리의 절반이며 제곱 유클리드 거리 역시 삼각 불평등을 만족시키지 못한다는 점에 주목하는 것이다.동일한 순서를 유지하면서 삼각 불평등 특성을 보수하기 위해서는 각거리 또는 유클리드 거리로 변환할 필요가 있다.또는 각 거리에 작용하는 삼각형 불평등은 코사인 단위로 직접 표현할 수 있다. 아래를 참조한다.

각도 거리 및 유사성

두 벡터 B 사이의 각도라고 하는 정규화된 각도는 공식 거리 메트릭이며 코사인 유사성으로부터 계산할 수 있다.[3]그런 다음 각도 거리 메트릭의 보완을 사용하여 0과 1 사이의 각 유사성 함수를 정의할 수 있다.

벡터 원소가 양 또는 음일 수 있는 경우:

또는 벡터 원소가 항상 양수인 경우:

불행히도, 아크쿠스 코시누스 함수의 계산은 다소 느려서, 각거리의 사용은 위의 더 일반적인 코사인 거리를 사용하는 것보다 계산적으로 더 비싸게 만든다.

L 정규화2 유클리드 거리

코사인 거리에 대한 또 다른 유효 대리점은 벡터의 2 }}회 정규화 따라 얻을 수 있으며, 이어서 정상 유클리드 거리를 적용할 수 있다.이 기법을 사용하여 각 벡터의 각 항은 먼저 벡터의 크기로 나누어져 단위 길이의 벡터를 산출한다.그렇다면 분명한 것은 어떤 두 벡터의 끝점에 걸친 유클리드 거리는 벡터의 비교에 대해 코사인 거리(유클리드 거리의 단조적 변환, 이하 참조)와 동일한 순서를 제공하며, 나아가 적절한 나를 산출하는 데 필요한 잠재적으로 비싼 삼각법 연산을 피하는 적절한 측정법이라는 것이다.tric. 일단 정상화가 이루어지면, 벡터 공간은 유클리드 공간, 특히 표준 치수 감소 기법과 함께 사용할 수 있다.이 정규화된 폼 거리는 많은 딥 러닝 알고리즘 내에서 종종 사용된다.

오쓰카-오치아이 계수

In biology, there is a similar concept known as the Otsuka–Ochiai coefficient named after Yanosuke Otsuka (also spelled as Ōtsuka, Ootsuka or Otuka,[4] Japanese: 大塚 弥之助)[5] and Akira Ochiai (Japanese: 落合 明),[6] also known as the Ochiai–Barkman[7] or Ochiai coefficient,[8] which can be represented as:

여기서 B (가 세트되고, 의 원소 개수인데 세트를 비트 벡터로 나타내면 오츠카-오치아이 계수는 코사인 유사도와 동일한 것으로 볼 수 있다.

최근 한 책에서 이 계수는 오쓰카라는 성을 가진 또 다른 일본 연구자에게 잘못 표기되어 있다.[9]혼란은 1957년 오치아이 아키라가 오쓰카 야노스케의 1936년 원고를 인용한 하마이 이쿠소(일본어: 浜井 生三 生三)[6][10]의 기사를 인용하여 오쓰카에만 계수를 귀속시키기 때문에 발생한다.[5]

특성.

코사인 유사성의 가장 주목할 만한 특성은 개별 벡터 치수의 절대적 비교보다는 상대적 비교를 반영한다는 것이다. a) V {\ V대해 V V}과(와) 은(와) 최대 유사하다.따라서 이 측정치는 절대값보다 빈도가 더 중요한 데이터(특히 문서의 빈도수)에 가장 적합하다.그러나 젠슨-샤논, SED, 삼각편차 등 정보이론의 기초가 되는 보다 최근의 지표들은 적어도 일부 맥락에서 의미론적 요소가 개선된 것으로 나타났다.[11]

코사인 유사성은 다음과 같이 유클리드 거리와 관련이 있다.인 ucl A- B \ 만큼 유클리드 거리를 표시하고 다음을 관찰하십시오.

(polarization identity)

확장하여AB가 단위 길이로 정규화되면 = = 1 \(와) 같으므로 이 식은 다음과 같다.

요컨대 코사인 거리는 유클리드 거리로 표현할 수 있다.

.

유클리드 거리는 화음 거리(단위 원 위의 화음의 길이이기 때문에)라고 하며, 벡터 사이의 유클리드 거리로서 벡터 내의 제곱 값의 단위 합으로 정규화되었다.

Null 분포:음수일 뿐 아니라 양수일 수 있는 데이터의 경우 코사인 유사성에 대한 null 분포는 두 개의 독립 랜덤 단위 벡터도트 곱의 분포다.이 분포는 평균이 0이고 분산 서는 n (가) 치수 수인 경우)이며, 분포가 -1과 +1 사이에 경계되지만, n이(가) 커짐에 따라 정규 분포에 의해 분포가 점점 더 잘 추정되고 있다.[12][13]비트스트림과 같은 다른 유형의 데이터로, 0 또는 1 값만 사용하는 null 분포는 다른 형식을 취하며 0이 아닌 평균을 가질 수 있다.[14]

코사인 유사성에 대한 삼각형 부등식

각도에 대한 일반적인 삼각형 불평등(즉, 하이퍼스피어 유닛의 아크 길이)은 우리에게 다음과 같은 것을 제공한다.

[0, π] 라디안의 각도가 증가함에 따라 코사인 함수가 감소하기 때문에, 우리가 각 값의 코사인(cosine)을 취할 때 이러한 불평등의 감각은 역전된다.

코사인 덧셈과 뺄셈 공식을 사용하여, 이 두 불평등은 원래의 코사인 관점에서 쓰여질 수 있다.

이 삼각형 불평등의 형태는 기준 객체 C와 유사성이 이미 알려진 경우 두 물체 A와 B의 최소 및 최대 유사성을 구속하는 데 사용될 수 있다.이것은 예를 들어 미터법 데이터 인덱싱에서 사용되지만, 유클리드 삼각형 불평등이 일반 k-평균을 가속화하는 데 사용된 것과 동일한 방법으로 구형 k-평균 군집화[15] 가속화하는 데도 사용되어 왔다.

소프트 코사인 측정

부드러운 코사인 또는 두 벡터 사이의 ("부드러운" 유사성)은 형상 쌍 사이의 유사성을 고려한다.[16]전통적인 코사인 유사성은 벡터 공간 모델(VSM) 특성을 독립적이거나 완전히 다른 것으로 간주하는 반면, 소프트 코사인 측정은 (소프트) 유사성 아이디어뿐만 아니라 코사인(및 소프트 코사인)의 개념을 일반화하는 데 도움이 되는 VSM의 특징의 유사성을 고려하는 것을 제안한다.

예를 들어, 자연어 처리(NLP) 분야에서 특징들 간의 유사성은 상당히 직관적이다.공식적으로는 VSM에서 다른 기능으로 간주되지만[17] 단어, n그램 또는 구문 n그램과 같은 기능은 상당히 유사할 수 있다.예를 들어, "play"와 "game"은 서로 다른 단어여서 VSM에서 서로 다른 지점에 매핑되지만, 그것들은 의미론적으로 관련이 있다.n그램이나 통사 n그램의 경우, 레벤스테인 거리를 적용할 수 있다(사실, 레벤스테인 거리도 단어에 적용할 수 있다).

소프트 코사인 계산을 위해 행렬 s를 사용하여 형상 간의 유사성을 나타낸다.레벤슈테인 거리, 워드넷 유사성 또는 기타 유사성 측정을 통해 계산할 수 있다.그러면 우리는 이 행렬로 곱하기만 하면 된다.

개의 N-차원 벡터 a 에 따라 소프트 코사인 유사성이 다음과 같이 계산된다

여기ij s = 유사성(상호i, 형상j)

형상 사이에 유사성이 없는 경우(iiij의 경우 s = 1, sij = 0) 주어진 방정식은 기존의 코사인 유사성 공식과 동일하다.

이 조치의 시간 복잡성은 2차적이라 실제 업무에 적용할 수 있다.복잡성은 하위 분기로 줄일 수 있다는 점에 유의하십시오.[18]이러한 부드러운 코사인 유사성의 효율적인 구현은 겐심 오픈 소스 라이브러리에 포함되어 있다.

참고 항목

참조

  1. ^ 싱할, 아미트(2001)"모던 정보 검색: 간략한 개요"IEEE 데이터 엔지니어링 기술 위원회 회보 24 (4): 35–43.
  2. ^ P.-N. Tan, M. Steinbach & V. Kumar, 데이터 마이닝 소개, Addison-Wesley(2005) ISBN0-321-32136-7, 8장; 500페이지.
  3. ^ "COSINE DISTANCE, COSINE SIMILARITY, ANGULAR COSINE DISTANCE, ANGULAR COSINE SIMILARITY". www.itl.nist.gov. Retrieved 2020-07-11.
  4. ^ Omori, Masae (2004). "Geological idea of Yanosuke Otuka, who built the foundation of neotectonics (geoscientist)". Earth Science. 58 (4): 256–259. doi:10.15080/agcjchikyukagaku.58.4_256.
  5. ^ a b Otsuka, Yanosuke (1936). "The faunal character of the Japanese Pleistocene marine Mollusca, as evidence of the climate having become colder during the Pleistocene in Japan". Bulletin of the Biogeographical Society of Japan. 6 (16): 165–170.
  6. ^ a b Ochiai, Akira (1957). "Zoogeographical studies on the soleoid fishes found in Japan and its neighhouring regions-II". Bulletin of the Japanese Society of Scientific Fisheries. 22 (9): 526–530. doi:10.2331/suisan.22.526.
  7. ^ Barkman, Jan J. (1958). Phytosociology and Ecology of Cryptogamic Epiphytes: Including a Taxonomic Survey and Description of Their Vegetation Units in Europe. Assen: Van Gorcum.
  8. ^ H. Charles Romesburg (1984). Cluster Analysis for Researchers. Belmont, California: Lifetime Learning Publications. p. 149.
  9. ^ Howarth, Richard J. (2017). Dictionary of Mathematical Geosciences: With Historical Notes. Cham, Switzerland: Springer. p. 421. doi:10.1007/978-3-319-57315-1. ISBN 978-3-319-57314-4.
  10. ^ Hamai, Ikuso (1955). "Stratification of community by means of "community coefficient" (continued)". Japanese Journal of Ecology. 5 (1): 41–45. doi:10.18960/seitai.5.1_41.
  11. ^ Connor, Richard (2016). A Tale of Four Metrics. Similarity Search and Applications. Tokyo: Springer.
  12. ^ Spruill, Marcus C. (2007). "Asymptotic distribution of coordinates on high dimensional spheres". Electronic Communications in Probability. 12: 234–247. doi:10.1214/ECP.v12-1294.
  13. ^ "Distribution of dot products between two random unit vectors in RD". CrossValidated.
  14. ^ Graham L. Giller (2012). "The Statistical Properties of Random Bitstreams and the Sampling Distribution of Cosine Similarity". Giller Investments Research Notes (20121024/1). doi:10.2139/ssrn.2167044.
  15. ^ Schubert, Erich; Lang, Andreas; Feher, Gloria (2021). Reyes, Nora; Connor, Richard; Kriege, Nils; Kazempour, Daniyal; Bartolini, Ilaria; Schubert, Erich; Chen, Jian-Jia (eds.). "Accelerating Spherical k-Means". Similarity Search and Applications. Lecture Notes in Computer Science. Cham: Springer International Publishing: 217–231. arXiv:2107.04074. doi:10.1007/978-3-030-89657-7_17. ISBN 978-3-030-89657-7.
  16. ^ Sidorov, Grigori; Gelbukh, Alexander; Gómez-Adorno, Helena; Pinto, David (29 September 2014). "Soft Similarity and Soft Cosine Measure: Similarity of Features in Vector Space Model". Computación y Sistemas. 18 (3): 491–504. doi:10.13053/CyS-18-3-2043. Retrieved 7 October 2014.
  17. ^ Sidorov, Grigori; Velasquez, Francisco; Stamatatos, Efstathios; Gelbukh, Alexander; Chanona-Hernández, Liliana (2013). Advances in Computational Intelligence. Lecture Notes in Computer Science. Vol. 7630. LNAI 7630. pp. 1–11. doi:10.1007/978-3-642-37798-3_1. ISBN 978-3-642-37798-3.
  18. ^ Novotný, Vít (2018). Implementation Notes for the Soft Cosine Measure. The 27th ACM International Conference on Information and Knowledge Management. Torun, Italy: Association for Computing Machinery. pp. 1639–1642. arXiv:1808.09407. doi:10.1145/3269206.3269317. ISBN 978-1-4503-6014-2.

외부 링크