통계적으로 있을 것 같지 않은 문구

Statistically improbable phrase

통계적으로 일어날 것 같지 않은 문구(SIP)는 일부 대형 말뭉치보다 문서(또는 문서 모음)[1][2][3]에서 더 자주 발생하는 문구 또는 단어 세트이다.Amazon.com에서는 특정 책 또는 장의 키워드를 결정할 때 이 개념을 사용합니다.책 또는 장의 키워드가 해당 [4][5]섹션에 불균형하게 표시될 수 있기 때문입니다.Christian Rudder는 또한 그의 책 Dataclysm에서 [6]주어진 인종이나 성별의 가장 특징적인 문구를 결정하기 위해 온라인 데이트 프로필과 트위터 게시물의 데이터와 함께 이 개념을 사용했다.두세 단어, 형용사, 명사 또는 부사, 부사, 동사의 언어적 밀도를 가진 SIP는 저자의 태도, 전제 또는 결론을 독자에게 전달하거나 중요한 생각을 표현합니다.

컴퓨터에 관한 문서에서는 가장 일반적인 단어가 "the"일 가능성이 높지만, "the"가 영어에서 가장 일반적으로 사용되는 단어이기 때문에 어떤 문서에서도 "the"라는 단어가 매우 자주 사용될 가능성이 높습니다.그러나 "명시적 부울 알고리즘"과 같은 문구는 문서에서 영어의 평균 속도보다 훨씬 높은 속도로 발생할 수 있습니다.따라서 이 문구는 특정 문서에서는 발생하지 않을 가능성이 높지만 지정된 문서에서는 발생하였습니다."명시 부울 알고리즘"은 통계적으로 있을 것 같지 않은 문구입니다.

다윈의 '의 기원'의 통계적으로 있을 것 같지 않은 문구는 다음과 같습니다: 온화한 생산, 하류, 과도기적 변화, 알려지지 않은 조상, 화석생성, 우리의 국내 품종, 변형된 자손, 의심스러운 형태, 밀접하게 연관된 형태, 수익성 있는 변화, 매우 멀리 떨어진, 과도기적 등급, 매우 뚜렷한 sp이종잡종 자손.[7]

「 」를 참조해 주세요.

  • 코로케이션 – 우연이 예상하는 것보다 더 자주 발생하는 일련의 단어
  • Googlewhack – Google에서 색인화한 한 쌍의 단어
  • tf-idf – 정보 검색 및 텍스트마이닝에 사용되는 통계 정보

레퍼런스

  1. ^ "SIPping Wikipedia" (PDF). Courses.cms.caltech.edu. Retrieved 2017-01-01.
  2. ^ Jonathan Bailey (3 July 2012). "How Long Should a Statistically Improbably Phrase Be?". Plagiarism Today.
  3. ^ Errami, Mounir; Sun, Zhaohui; George, Angela C.; Long, Tara C.; Skinner, Michael A.; Wren, Jonathan D.; Garner, Harold R. (1 June 2010). "Identifying duplicate content using statistically improbable phrases". Bioinformatics. 26 (11): 1453–1457. doi:10.1093/bioinformatics/btq146. PMC 2872002. PMID 20472545 – via bioinformatics.oxfordjournals.org.
  4. ^ "What are Statistically Improbable Phrases?". Amazon.com. Retrieved 2007-12-18.
  5. ^ Weeks, Linton (August 30, 2005). "Amazon's Vital Statistics Show How Books Stack Up". The Washington Post. Retrieved September 8, 2015.
  6. ^ Rudder, Christian (2014). Dataclysm: Who We Are When We Think No One's Looking. New York: Crown Publishers. ISBN 978-0-385-34737-2.
  7. ^ 2005년 4월, 사회학적으로 있을 것 같지 않은 문구 비뚤어진 목재