위키백과:검색엔진시험

Wikipedia:

검색 엔진인터넷의 웹 페이지를 나열한다.이는 즉시 다양한 적용 옵션을 제공함으로써 연구를 용이하게 한다.결과 목록의 유용한 항목으로는 사전과 같이 웹 사이트가 제공할 수 있는 소스 자료나 전자 도구를 들 수 있지만, 목록 자체는 전체적으로 중요한 정보를 나타낼 수도 있다.그러나 그러한 정보를 이해하는 데는 통찰력이 필요할 수 있다.

검색 엔진 결과를 참조하는 것은 신뢰도에 따라 소스 자료를 신속하게 표시(표시되는 사항)하거나 삭제(확인할 수 없는 사항)하는 방법이다.위키피디아에는 신뢰성에 대한 요구가 높다.소스 재료의 신뢰성을 파악하는 것은 웹을 사용하기 위한 특히 핵심 기술인 반면, 위키 자체는 여러 개의 초안을 만드는 것을 용이하게 할 뿐이다.프레젠테이션과 삭제가 진행됨에 따라, 입력에 대한 이러한 다양한 선택은 원하는 목표, 즉 중립적인 관점을 도출하는 경향이 있다.쿼리의 종류와 검색엔진의 종류에 따라, 이 다양성은 한 명의 작가에게 개방될 수 있다.

일부 검색 엔진 테스트

  1. 인기 – 아래 Google의 추세 분석 도구를 참조하십시오.
  2. 사용 – 용어의 공신력을 파악하십시오.(예: Google의 ngram 도구를 참조하십시오.)
  3. 일반성 – 거짓된 거짓말 또는 도시 전설을 식별하십시오.
  4. Notability – 페이지를 삭제할 것인지 여부를 결정하십시오.
  5. 존재 – 가능한 프레젠테이션을 위해 실제로 존재하는 소스(웹 사이트 포함)를 확인하십시오.
  6. 정보 – 사실과 인용문의 신뢰성을 검토하십시오.
  7. 명칭 및 용어 – 물품에 사용되는 명칭(대체 명칭 및 용어 포함)을 확인한다.
  8. 저작권 보호 – 자료 복사 여부를 확인하고, 복사된 자료일 경우 라이선스를 확인하십시오.

이 페이지는 이러한 웹 검색 테스트와 위키백과의 발전에 도움이 될 수 있는 웹 검색 도구를 모두 설명하고 있으며, 이들의 편견과 한계를 설명한다.

특정 검색엔진의 장점은 다양한 공통 검색엔진을 사용하여 구분할 수 있다.각각의 뚜렷한 장점은 사용자 인터페이스와 그들 자신의 인덱스를 컴파일하고 검색하는 알고리즘이다.웹 크롤러를 차단할 수 있기 때문에(특정 검색 또는 일반적으로) 서로 다른 검색 엔진은 서로 다른 웹 사이트를 나열할 수 있으며, 어떤 데이터베이스에서도 색인화된 웹 사이트보다 URL로 사용할 수 있는 웹 사이트가 더 많다.

가장 흔한 검색 엔진은 구글, , 야후다.의학, 과학, 뉴스, 법률을 위한 전문 검색엔진이 존재한다.몇 개의 일반화된 검색 엔진이 존재한다.이것들은 당신의 질의를 많은 검색 엔진에 적응시킨다.아래 § 공통 검색엔진을 참조하십시오.이 페이지는 빙이나 야후 대신 구글을 주로 사용하지만, 가능한 일반성을 목표로 한다.예를 들어 구글 그룹(usenet groups), 구글 학자(학술), 구글 뉴스, 구글 서적 등을 기술한다.

선의의 탐색: 경험 법칙

기사에 대한 소스가 없는 추가가 그럴듯해 보일 경우, 적절한 검색 엔진을 사용하여 신뢰할 수 있는 출처를 찾은 후 되돌릴지 여부를 결정하는 것을 고려해 보십시오.

검색 엔진 테스트

주체에 따라, 그리고 얼마나 신중하게 사용하는가에 따라, 검색 엔진 테스트는 매우 효과적이고 도움이 될 수 있으며, 오해의 소지가 있거나 유용하지 않은 결과를 초래할 수 있다.대부분의 경우 검색 엔진 테스트는 1차 통과 휴리스틱스 또는 "엄지의 법칙"이다.

검색 테스트가 무엇을 할 수 있는지, 무엇을 할 수 없는지.

검색 엔진은 책 뒤에 있는 큰 색인처럼 다른 사람들이 인터넷에 올려놓은 페이지와 텍스트를 색인화할 수 있다.

검색 엔진:

  • 정보를 제공하고 위의 목표를 지원하는 페이지로 유도
  • 소식통에 따르면 (중립적인 인용에 유용) "누가 무슨 말을 했는지" 확인
  • 원본 문서의 전체 인용 복사본을 제공하는 경우가 많음
  • 표현식이 얼마나 일반적으로 참조되는지 대략 확인하십시오.그러나 구글 검색은 특히 인용된 정확한 표현에 대해 사용자에게 이전보다 훨씬 더 많은 히트를 보고할 수 있다는 점에 유의한다.예를 들어 2021년 구글이 인용한 '그린 금붕어'를 검색하면 초기에는 약 20만9000개의 결과가 나왔지만 마지막 검색 결과 페이지까지 검색해 보면 반환된 조회 수는 303건이다.통계적 유의성을 계산하려면 여기를 참조하십시오.[1]
  • 특정 웹 사이트 내에서, 또는 결합 및 대체 구문(또는 결과를 혼동할 수 있는 특정 단어와 구문 제외)을 더 구체적으로 검색하십시오.

검색 엔진은 다음을 수행할 수 없음:

  • 결과가 신뢰할 수 있는지 또는 "참"인지 확인하십시오(검색 엔진은 온라인, 참 또는 거짓으로 표시하도록 선택한 텍스트에 대해 색인화).
  • 어떤 것이 많이 언급되는지, 그리고 그것이 중요하기 보다는 마케팅, 인터넷 밈으로 재포스팅, 스팸 발송, 또는 자기 홍보 때문이 아니라는 것을 보장하라.
  • 결과가 다른 용도가 아닌 당신이 의미하는 용도를 반영하도록 보장하라. (예를 들어, 특정 존 스미스를 검색하면 의미 없는 많은 "존 스미스"와 "스미스"가 별도로 수록된 많은 페이지, 그리고 "J. 스미스"에 따라 색인된 모든 유용한 참조문헌을 생략할 수 있다.)th" 및 "스미스, 존")
  • 검색 표현식을 선택하여 중요한 참조를 누락하지 않도록 하십시오.
  • 언급이 거의 없거나 언급되지 않은 항목이 자동으로 중요하지 않다는 것을 보장한다.
  • 특정 결과가 재인쇄, 발췌, 인용, 잘못 인용 또는 저작권 위반이 아닌 텍스트의 원래 인스턴스임을 보장한다.

그리고 검색 엔진은 종종 다음을 수행하지 않을 것이다.

  • 빠르게 발전하는 주제를 위해 저널이나 책과 같은 정도로 심층적인 최신 연구를 제공하라.
  • 중립을 지키다.

검색 엔진 테스트는 결과를 해석하고 결과가 실제로 무엇을 보여주는지 결정하는 작업을 피하는 데 도움이 되지 않는다.색인에 나타나는 것만으로는 보통 아무것도 증명할 수 없다.

검색 엔진 테스트 및 위키백과 정책

검증가능성

검색 엔진 테스트는 가상, 편파, 거짓 또는 유사한 결과를 반환할 수 있다.사용한 정보가 사용 또는 인용하기 전에 신뢰할 수 있는 출처에서 유래하는지를 고려하는 것이 중요하다.신뢰할 수 없는 출처는 도움이 되지 않거나, 다른 독자들이 출처가 얼마나 신뢰할 수 있는지를 판단하기 위해 중립적이고 정보에 입각한 이해를 얻도록 그들의 지위와 근거를 명확히 해야 할 수 있다.

중립

구글(및 다른 검색 시스템)은 중립적인 관점을 지향하지 않는다.위키피디아는 그렇다.구글은 중립성 정책이 없는 스스로 만든 페이지와 미디어 페이지를 색인화한다.위키피디아는 필수적이며 모든 기사, 모든 기사 관련 편집 활동에 적용되는 중립 정책을 가지고 있다.

이와 같이, 구글은 특히 인기 있는 타이틀의 출처가 아니다.위키피디아에서는 다른 곳이 아니더라도 중립성이 의무화(어떤 것을 부르는가를 결정하는 것을 포함), 구체적으로는 중립성이 인기를 능가한다.

(WP:NPOV § 검증가능성과 중립성에 관한 정책의 균형에 관한 정보에 대한 중립성과 검증가능성, 그리고 WP:NPOV § 기사 이름 지정 방법)

공신력

원시 "히트"(검색 결과) 카운트는 매우 조잡한 중요도 척도다.중요하지 않은 일부 과목은 "히트"가 많으며, 일부 주목할 만한 과목은 거의 없거나 아예 없는 경우가 있는데, 이는 이 페이지에서 더 자세히 논의된 이유 때문이다.

히트-카운트 숫자만으로는 히트 유형, 검색된 내용, 검색 방식, 결과를 제공할 수 있는 해석에 대한 추가 논의가 없이, 명성에 관한 어떤 것도 "프로브"할 수 있는 경우가 거의 없다.반면에, 발생하는 타격 유형(또는 그 부족)을 조사하는 것은 종종 공신력과 관련된 유용한 정보를 제공한다.

또한, 검색 엔진은 모호하지 않고 부분 검색과 일치하는 경향이 있다.(단, 아래에 기술한 바와 같이 일치할 구문을 인용하여 부분 일치를 제거할 수 있다.)록스의 마돈나는 확실히 백과사전적이고 주목할 만한 출품작이지만 대중문화의 아이콘은 아니다.그러나 마돈나와의 부분 매치뿐만 아니라 마돈나와의 연관성이 없는 다른 마돈나와의 매칭으로 인해 구글이나 빙 검색 결과의 결과는 르네상스 어느 그림에 비해 불균형하게 나타날 것이다.구글링할 때 부분 일치를 제외하려면 다음과 같이 일치시킬 구문을 인용하십시오: "암석의 마돈나"

검색 엔진 사용

검색 엔진 식(예 및 자습서)

이 절에서는 Google검색에 사용되는 일부 검색 표현식을 설명한다.[2]유사한 접근방식은 다른 많은 검색 엔진과 다른 구글 검색에서도 작동하지만 검색 엔진의 기능과 작동 방식이 종종 다르기 때문에 항상 도움말 페이지를 읽고 자세한 정보를 확인하십시오.Google에서 검색할 때 Google 계정에 로그인한 경우 검색 기록에 따라 검색 결과에 영향을 줄 수 있다는 점에 유의하십시오.[3] 또한 "검색 설정"[4]에서 "표시(검색) 결과"를 확인하십시오.

가장 유용한 검색 엔진 도구는 문구와 정확히 일치하는 것을 찾기 위해 인용 부호를 사용하는 것일 수 있다.그러나 구글과 같은 검색 엔진은 쉽고, 추가 검색 옵션이 있는 고급 검색 기능을 모두 갖추고 있다.고급 검색을 사용하면 검색에 도움이 될 수 있는 고급 옵션을 쉽게 입력할 수 있다.다음의 접을 수 있는 섹션은 위키피디아와 함께 검색엔진을 사용하는 기본적인 예와 도움말을 다룬다.

의료용지 보관소와 같은 전문 검색 엔진은 여기서 다루지 않는 자체 전문 검색 구조를 가지고 있다.

위키백과에서 검색 엔진의 특정 사용

  • Google Trends는 단어 또는 이름의 렌더링을 가장 많이 검색하는 렌더링(: 스포츠 카테고리) 또는 이와 같은 렌더링을 찾을 수 있다."살인파" 대 "쓰나미" 예시를 참조하십시오. 아래의 Google 북스 예도 참조하십시오.
  • 구글북스는 전체적으로 볼 때, 전통적인 백과사전 콘텐츠와 더 밀접하게 일치하는 커버리지 패턴을 가지고 있다. 만약 그것이 시스템적인 편견을 가지고 있다면, 그것은 구글 웹 검색과는 매우 다른 시스템 편향이다.구글 북 검색에서 정확한 문구에 대한 여러 번의 히트들은 문구나 개념의 실제 사용에 대한 설득력 있는 증거를 제공한다.「치명파」 대 「쓰나미」와 같은 용어의 사용을 비교할 수 있다.구글 북 검색은 인물, 이벤트 또는 개념의 중요성에 대한 인쇄된 증언을 찾을 수 있다.그것은 또한 비소싱된 "공통 지식" 사실을 동일한 사실의 인쇄소스로 대체하는데 사용될 수 있다.[5]
  • 구글 그룹이나 다른 날짜 표시 매체들은 단어 또는 구에 대한 초기 언급의 시기와 맥락을 설정하는 데 도움을 줄 수 있다.Google 그룹 검색.
  • 구글 뉴스는 어떤 것이 뉴스 가치가 있는지를 평가하는 데 도움을 줄 수 있다.구글 뉴스는 예전에는 자기 홍보자에 의한 조작에 덜 취약했지만, 광고 수익을 모으거나 특정 의제를 홍보하기 위해 고안된 사이비 뉴스 사이트가 등장하면서, 이 테스트는 대중의 관심 분야에서 다른 사람들보다 신뢰도가 떨어지는 경우가 많으며, 특정 관점을 반영하는 많은 "뉴스" 소스를 지수화한다.뉴스 기록 보관소는 여러 해 전으로 거슬러 올라가지만 제한된 기간 이후에는 무료가 될 수 없을 것이다.뉴스 결과는 종종 중립적이고 독립적인 출처가 아닌 보도자료를 포함한다.
  • 구글 스콜라(Google Scholar)는 출판, 문서 또는 저자가 다른 사람들에 의해 얼마나 많이 인용되거나 인용되었는지에 대한 증거를 제공한다.과학적이거나 학술적인 주제에 가장 적합하다.석박사 논문, 특허, 법률 문서 등이 포함될 수 있다.Google Scholar 검색.
  • 대중적인 참고자료에 의해 주목할 만하다고 주장되는 주제들은 언급의 유형과 인기를 확인할 수 있다.인터넷에 수백 개의 참고문헌만 있는 주목할 만한 이슈는 별로 눈에 띄지 않을 수 있다; 진정으로 인기 있는 인터넷 밈은 수백만 또는 심지어 수천만 개의 참고문헌을 가질 수 있다.[6]그러나 일부 영역에서는 주목할 만한 주제가 거의 언급되지 않을 수 있다는 점에 유의하십시오. 예를 들어, 사람들은 일부 고고학적 문제에 대한 소수의 언급만을 기대할 수 있으며, 일부 문제는 온라인에 전혀 반영되지 않을 것이다.
  • 진품이라고 주장되는 주제들은 신뢰할 수 있는 독립 출처에서 인용되었는지 여부를 시험하기 위해 점검될 수 있다; 이것은 조작 등에 대한 좋은 시험이다.
  • 웹사이트로부터의 저작권 위반은 종종 식별될 수 있다(위에서 설명한 바와 같이).
  • 대체 철자법과 사용법은 상대적 빈도를 점검할 수 있다(예: 똑같이 중립적이고 허용 가능한 두 용어 중 더 일반적인 토론의 경우).구글 트렌드는 '뉴스' 범주("치달파" vs "쓰나미" 예)의 사용을 비교할 수 있지만, 이것은 오래된 뉴스에서는 신뢰할 수 없을 수도 있다.[7]

결과 해석

일반

적중 횟수는 결코 공신력을 입증하기 위해 의존해서는 안 된다.대신 무엇이 발견되는지(책, 뉴스 기사, 학자적 기사, 웹 페이지)와 실제로 사례별로 공신력이나 불신력을 입증하는지 여부에 주목해야 한다.적중 횟수는 항상, 그리고 항상 그럴 가능성이 매우 높으며, 공신력 측정을 위한 극도로 잘못된 도구였으며, 확정적이거나 결정적인 도구로 간주되어서는 안 된다.발견된 관리 가능한 결과 표본을 개별적으로 열고 읽어야 실제로 관련성을 검증할 수 있다.

구글(Bing, Yahoo! 등 다른 검색엔진)의 경우, 페이지 상단의 히트 카운트는 신뢰할 수 없으며, 일반적으로 보고해서는 안 된다.결과의 Penultimate(2에서 마지막) 페이지에 보고된 히트 카운트는 약간 더 정확할 수 있다.보고된 적중 횟수가 거의 없는 검색의 경우(1000회 미만) 결과의 마지막 페이지 하단에 도달하는 데 필요한 실제 적중 횟수가 더 정확할 수 있지만 이마저도 확실하지 않다.구글은 당신의 이전 검색 기록과 당신이 우연히 어떤 구글 서버에 부딪혔는지와 같은 요인에 따라 다른 검색 결과를 반환한다.[8][9]

결과를 해석할 때 다른 유용한 고려사항은 다음과 같다.

  • 아티클 범위:폭이 좁으면 참조가 적게 필요하다.NPoV든 다른 것이든 간에 관점을 분류해 보십시오. 예를 들어 OntologyOntology(컴퓨터 과학)의 차이점을 주목하십시오.
  • 기사 제목:어떤 역사적 인물에 관한 것이라면 신뢰할 수 있는 본문에서 한두 마디 언급하는 것으로 충분할 수도 있고, 어떤 인터넷 신조어팝송이라면 700페이지에 달할 수도 있고, 위키피디아의 목적상으로는 여전히 어떤 공신력을 보일 만큼 '존재하는' 것으로 여겨지지 않을 수도 있다.

인식해야 할 편견

대부분의 경우 검색결과에 의존하기 전에 의식과 신중한 회의감을 갖고 검토해야 한다.일반적인 편향은 다음과 같다.

일반편향

일반(인터넷 또는 전체):

  • 개인적 편견 – 일상문화에서 친숙하거나 동의하거나 공통적인 신념에 더 수용적인 경향이 있으며, 선호하는 견해와 모순되는 믿음과 견해를 할인하는 경향이 있다.
  • 문화컴퓨터 사용 편견 – 인터넷을 사용하는 선진국과 사회의 풍부한 부분(인터넷 접속)의 정보에 치우친 편견.컴퓨터 사용이 그리 흔하지 않은 국가는 흔히 동등하게 주목할 만한 자료에 대한 참조율이 낮을 수 있으며, 따라서 (잘못된) 비통보적인 것으로 나타날 수 있다.
  • 과도한 무게 – 일부 문제를 불균형적으로 대표할 수 있으며, 특히 대중문화와 관련된 몇 가지 문제(어떤 문제는 훨씬 더 많은 공간이 주어질 수 있고, 다른 것은 공정하게 그들의 지위를 나타내는 것보다 훨씬 적다). 인기는 유명무실하다.
  • 쉽게 접근할 수 없는 출처 – 일부 출처는 모두 접근할 수 있지만, 많은 출처는 결제 전용이거나 온라인으로 보고되지 않는 경우도 있다.

일반 웹 검색 엔진(Google, Bing 웹 검색 등):

  • 다크넷 – 검색 엔진은 방대한 페이지를 제외하며, 여기에는 일부 사항이 불균형적으로 제외되도록 체계적 편향이 포함될 수 있다(예를 들어 Google 인덱싱을 허용하지 않는 사이트에서 일반적으로 볼 수 있거나 기술적인 이유로 콘텐츠를 인덱싱할 수 없기 때문(플래시 또는 이미지 기반 웹 사이트 등)
  • 홍보 도구로서의 검색 엔진 – 이러한 검색에서 사이트 위치, 인기 및 등급에 영향을 미치거나 검색 및 검색 위치와 관련된 광고 공간을 판매하려는 업계가 존재한다.포르노 배우와 같은 일부 피사체는 이런 것들이 너무 지배적이어서 검색어를 안정적으로 사용하여 인기를 확립할 수 없다.
  • 검토 프로세스는 다양하다. 일부 사이트는 정보를 수용하는 반면, 다른 사이트는 어떤 형태의 검토 또는 확인 시스템을 갖추고 있다.
  • 자체 미러링 – 때때로 다른 사이트들이 위키백과 컨텐츠를 복제하기도 하는데, 위키백과 컨텐츠는 인터넷을 통해 전달되고, 더 많은 페이지들이 이를 기반으로 구축된다(흔히 인용되지 않음). 이는 실제로는 검색 엔진의 많은 발견의 출처가 위키백과 자체의 이전 텍스트의 복사본일 뿐이지, 진짜 출처는 아니라는 것을 의미한다.
  • 대중적 사용 편의성 – 대중적 사용 및 도시 전설이 정확성보다 높게 보고되는 경우가 많음
    • 예:
      1. 부정확한 찰스 윈저에 대한 검색은 정확한 찰스 마운트배튼 윈저보다 10배 더 많은 결과를 준다.
      2. 엘니뇨의 가장 일반적인 철자를 찾는 것은 종종 이음절 없이 "엘니뇨"라고 표기하는 것으로 보고될 것이다.
      3. 도시 전설은 종종 널리 보도되는데, 예를 들어, 수백 개의 사이트들은 정확한 날짜는 1797년이지만, USS 헌법이 1779년에 출범했다고 보고한다.
  • 대중의 견해와 인식은 더 많이 보도될 것 같다.예를 들어 침술에 대한 언급이 많고 동물의 알레르기가 있는 경우가 많으나, 전자에 대한 의학적 동료평가가 있다는 것이 밝혀지고, 대개 털에 알레르기가 없다는 것이 밝혀지고, 그 에 끈적끈적한 피부와 침 입자(단더)가 있다는 것이 세심한 연구를 통해서만 확인될 수 있다.e 털
  • 언어 선택 편향 – 예를 들어, 아랍어로 동성애에 대한 정보를 검색하는 아랍어 화자는 영어를 사용하는 나라들 간에 동성애에 대한 대중적 견해와 신념이 크게 다를 수 있기 때문에 영어로 검색하는 영어 화자와는 다른 편견을 반영하는 페이지를 찾을 수 있을 것이다.동성애를 받아들이는 집단의 비율이 높은 영국, 호주 등)과 낮은 비율을 차지하는 아랍어권 국가(중동)의 비율이 높은 편이다.

기타:

  • 다른 구글 검색들, 특히 구글 북 검색은 구글 웹 검색과는 다른 체계적 편견을 가지고 있으며 흥미로운 교차 확인과 다소 독립적인 관점을 제공한다는 점에 유의한다.

알렉사 시청률

어떤 경우에는 웹사이트의 상대적인 인기를 추정하는 것이 도움이 된다.알렉사 인터넷은 이를 위한 도구다(HitwiseQuantcast는 다른 것이다).특정 웹 사이트에 대한 알렉사의 순위를 테스트하려면 alexa.com을 방문하여 URL을 입력하십시오.

알렉사 측정 시스템은 사용자가 반드시 설치해야 하는 툴바를 기반으로 하는데, 이는 서로 다른 운영 체제에 걸쳐 Internet Explorer, Mozilla Firefox 등 여러 브라우저에 설치할 수 있다.편향의 출처에는 사용자가 불균형적으로 이러한 도구줄을 설치하지 않는 웹사이트와 등급 제고를 위한 목적으로 알렉사 도구모음을 설치하는 웹마스터가 포함된다.특히 알렉사 순위는 다음과 같은 몇 가지 이유로 웹 사이트에 대한 공신력 지침의 일부가 아니다.

  • 일정 수준 이하의 알렉사 순위는 표본 크기가 한정돼 있어 본질적으로 의미가 없다.알렉사 스스로도 10만 이하 서열은 믿을 수 없다고 말한다.[10]
  • 알렉사 순위는 다양하며 상당한 체계적 편향성을 포함하며, 이는 등급이 종종 인기를 반영하지 않고 특정 사용자 그룹 사이에서만 인기를 반영한다는 것을 의미한다(알렉사 인터넷 § 우려 참조).일반적으로 알렉사는 사용자가 설치한 툴바에 의한 측정에 근거하여 등급을 매긴다. 그러나 이것은 매우 가변적인 도구로, 인터넷 사용자 커뮤니티의 큰 부분(특히 기업 사용자, 많은 고급 사용자, 많은 오픈 소스 및 비 Windows 사용자)이 이것을 사용하지 않고 따라서 인터넷 참조 사용이 무시된다.
  • 알렉사 순위는 백과사전적 명성과 신뢰할 수 있는 소스 자료의 존재를 반영하지 않는다.높은 순위의 웹사이트는 그것에 대해 아무것도 쓰여 있지 않을 수도 있고, 형편없는 웹사이트는 그것에 대해 많은 것을 쓸 수도 있다.
  • 의심할 여지 없이 주목할 만한 많은 주제들은 알렉사 순위가 낮은 웹사이트를 가지고 있다.

퀀트캐스트 등급

  • 통계를 얻으려면 http://quantcast.com을 방문하여 url을 입력하고 "검색"을 클릭하십시오.
  • Quantcast의 서비스에 가입하는 기업의 경우, Quantcast는 트래픽 측정치가 "검증됨"을 선언한다.이것은 플러그인의 사용자 설치에 의존하지 않기 때문에 알렉사 결과보다 더 나은 신뢰성을 제공할 수 있다.
  • Quantcast는 "정량화"를 구독하지 않는 기업의 경우 트래픽 측정치를 "추정"으로 선언한다.
  • § 알렉사 등급에 열거된 것과 동일한 신뢰성 및 공신력 조항이 여기에 적용된다.

외국어, 라틴어 이외의 스크립트 및 이전 이름

영어 이외의 출처 항목이나 라틴어 이외의 스크립트에서는 올바른 스크립트에서 검색하거나 다양한 기록에서 검색하는 횟수가 상당히 많으므로 "검색 설정"에서 "표시(검색) 결과 언어"를 확인하십시오.[4]예를 들어, 아랍어 이름은 원래 스크립트에서 검색되어야 하는데, 구글에서 쉽게 검색될 수 있지만, 예를 들어 영어, 프랑스어 및 독일어 웹 페이지가 다른 규칙을 사용하여 이름을 필사하면 문제가 발생할 수 있다.영어 전용 웹페이지의 경우에도 동일한 아랍어 또는 러시아어 이름의 많은 변형들이 있을 수 있다.다른 언어의 개인 이름(러시아어, 앵글로색슨)은 후원자를 포함하거나 제외하는 두 가지 모두를 검색해야 할 수 있으며, 강력한 언어의 이름 및 기타 단어 검색은 총 히트 수에 도달하려면 다양한 사례 끝 또는 다른 문법적 va를 포함하는 형식을 검색해야 할 수 있다는 점을 고려해야 한다.언어를 모르는 사람에게는 명백하지 않은 반란많은 문화권의 이름들은 전통적으로 그 이름의 일부로 여겨지는 제목들과 함께 붙여지지만, 또한 생략될 수도 있다(Gazi Mustafa Kemal Pasha에서처럼).

올드 잉글리쉬에서도, 나이든 이름의 철자와 렌더링은 같은 사람에게 수십 가지의 변화를 줄 수 있다.하나의 특정 변종에 대한 단순한 검색은 웹의 존재 정도를 의미하지 않을 수 있다.

이와 같은 검색은 모든 위키피디아 개인이 가지고 있는 것은 아니지만, 위키피디아 커뮤니티 전체적으로 2개 국어와 다국어를 사용하는 사람들이 많이 포함되며, 적어도 AfD의 명목공인과 유권자들은 언어나 트랜스포머를 할 때 그들의 한계를 알고, 특별한 가정을 하지 않는 것이 중요하다.스크래치 편향이 한 요인이 될 수 있다.

Google 고유 페이지 수 문제

또한 검색 엔진에서 보고된 검색 문자열 일치 항목 수는 추정치일 뿐이다.예를 들어, 구글은 사용자가 모든 결과 페이지를 탐색하고, 마지막 페이지까지, 그리고 심지어 그 수치에 제약을 가하는 경우에만 실제 일치 항목 수를 계산한다.때때로 "일치" 카운트 추정치는 마지막 결과 페이지에 표시된 결과의 총 카운트와 상당히 다를 수 있다(하나 이상의 크기 순서).

사이트별 검색은 대부분의 일치 항목이 동일한 웹 사이트에서 발생하는지 여부를 확인하는 데 도움이 될 수 있다. 단일 웹 사이트가 수십만 개의 조회 수를 차지할 수 있다.

많은 결과를 반환하는 검색어에 대해 구글은 콘텐츠가 실질적으로 유사한 페이지를 무시하고 주어진 도메인에서 반환할 수 있는 페이지 수를 제한함으로써 나열된 다른 결과와 "매우 유사한" 결과를 제거하는 프로세스를 사용한다.예를 들어, "Taco Bell"에 대한 검색은 tacobell.com에서 몇 페이지만 제공할 것이다. 비록 그 도메인의 많은 페이지들은 확실히 일치할 것이다.또한 구글의 뚜렷한 결과 목록은 상위 1000개 결과를 먼저 선택한 다음 교체 없이 중복 항목을 제거하는 방식으로 구성된다.따라서 실제로 검색어와 일치하는 웹 페이지 수와 관계없이 구별되는 결과의 목록은 항상 1000개 미만의 결과를 포함할 것이다.예를 들어, 2010년 12월 14일 현재, 「마이크로소프트」와 관련된 약 7억 4200만 페이지로부터, 구글은 572개의 「간결한」 결과를 반환하고 있었다.[11]1000개 이상의 검색 결과를 산출하는 웹사이트의 상대적 중요성을 판단할 때는 주의를 기울여야 한다.

검색 엔진 제한 – 기술 참고 사항

현존하는 많은, 아마도 대부분의, 공개적으로 이용 가능한 웹 페이지는 색인화되지 않았다.각 검색 엔진은 전체 검색의 다른 백분율을 캡처한다.어느 부분이 잡혔는지 정확히 알 수 있는 사람은 아무도 없다.

월드 와이드 웹의 예상 크기는 최소 115억 페이지지만 [12]검색 엔진이 색인화하지 않는 데이터베이스에는 3조 페이지 이상으로 추정되는 훨씬 더 깊은(더 큰) 웹이 존재한다.이러한 동적 페이지는 사용자가 요청할 때 웹 서버에 의해 포맷되며, 따라서 기존의 검색 엔진에 의해 색인화될 수 없다.미국 특허청 웹사이트가 그 예인데, 검색 엔진은 메인 페이지를 찾을 수 있지만, 사이트 자체에 쿼리를 입력해야만 개별 특허의 데이터베이스를 검색할 수 있다.[13]

구글은 모든 인터넷 검색 엔진과 마찬가지로 인터넷에서 실제로 이용할 수 있게 된 정보만 찾을 수 있다.인터넷에는 여전히 많은 양의 정보가 없다.

구글은 모든 주요 웹 검색 서비스들과 마찬가지로 로봇들을 따른다.txt 프로토콜로, 자신의 콘텐츠가 구글에 의해 색인화되거나 캐시되는 것을 원하지 않는 사이트에 의해 차단될 수 있다.주로 회원 가입을 수반하는 저작권이 있는 콘텐츠(이미지 갤러리, 구독 신문, 웹툰, 영화, 비디오, 헬프 데스크)가 다량 포함된 사이트는 구글과 기타 검색엔진을 차단한다.다른 사이트들도 콘텐츠를 호스팅하는 서버의 스트레스나 대역폭 문제로 인해 구글을 차단할 수 있다.

또한 검색 엔진은 일반적으로 브라우저 플러그인, Adobe PDF 또는 Macromedia Flash가 필요한 링크나 메타데이터를 읽지 못하거나 웹 사이트가 이미지의 일부로 표시되는 위치를 읽지 못할 수 있다.검색 엔진은 또한 팟캐스트나 다른 오디오 스트림을 들을 수 없고 심지어 검색어를 언급하는 비디오도 들을 수 없다.마찬가지로, 검색 엔진은 포토캔으로 구성된 PDF 파일을 읽거나 압축된(.zip) 파일 안을 들여다볼 수 없다.

포럼, 회원 전용 및 구독 전용 사이트(Googlebott가 사이트 액세스에 등록하지 않기 때문에) 및 콘텐츠를 순환하는 사이트는 검색 엔진에 의해 캐시되거나 색인화되지 않는다.더 많은 사이트가 AJAX/Web 2.0 설계로 이동함에 따라, 검색 엔진은 웹 페이지의 링크를 따라 시뮬레이션만 하기 때문에 이러한 제한은 더욱 보편화될 것이다.AJAX 페이지 설정(구글 맵과 유사)은 자바스크립트의 실시간 조작을 기반으로 데이터를 동적으로 반환한다.

구글은 또한 실제 콘텐츠 페이지보다 특정 검색어에 더 많은 결과를 반환하게 할 수 있는 리디렉션 악용의 희생양이 되어왔다.

구글을 비롯한 인기 검색엔진도 검색엔진 최적화 도구로도 알려진 검색엔진 '검색 결과 향상'의 표적이기 때문에 광고로만 기능하는 페이지로 이어지는 결과도 많을 수 있다.때때로 페이지는 검색 엔진 사용자를 해당 페이지로 끌어들이기 위해 특별히 고안된 수백 개의 키워드를 포함하고 있지만, 사실 키워드와 관련된 내용이 포함된 페이지 대신 광고를 제공한다.

구글이 보고한 히트 카운트는 추정치일 뿐이며, 일부 경우 특히 몇 천 명 이상의 히트 카운트에 대해서는 거의 한 자릿수만큼의 규모에서 벗어나야 하는 것으로 나타났다.[14][15]구글 히트 수 천 개를 내는 것과 같은 일반적인 단어들을 위해, 영국 국립 코퍼스 (영국 영어의 경우)와 현대 미국 영어 코퍼스 (미국 영어의 경우)와 같은 자유롭게 이용할 수 있는 텍스트 코퍼스는 두 단어의 상대적 빈도에 대한 더 정확한 추정치를 제공할 수 있다.

제한 사항의 예

경제범죄 서밋 사이트는 다소 구글과 인터넷 아카이브가 우호적이지 않은 사이트다.그것은 매우 그래픽이 무거워서 구글은 찾을 것이 거의 없거나 거의 없고 인터넷 아카이브 버전에서 누락된 페이지들을 많이 제공한다.그래서 2002년 경제범죄정상회의(Economic Crime Summit Conference)에 대해 언급할 수 있지만, 누가 효과가 없는 것을 제시했는지를 알려주는 개요 링크(Overview 링크는2004년 Economic Crime Summit Conference 아카이브는 세 군데에서 있었던 것보다 훨씬 더 심각하며, 아카이브된 링크들 중 어떤 것도 제시된 논문들에 대해 말해주지 않는다.

인터넷 아카이브를 통해 당신은 "증거 처리에 있어서의 컴퓨터 기술의 진보에 대한 영향"에 관한 정보가 인터넷에 존재한다는 증거를 갖게 된다.[16]하지만 오늘날 구글은 그 정보를 찾을없다!2002년 경제범죄정상회의(Economic Crime Summit Conference)의 일부인 것으로 알려진 프로그램은 현재[when?] 구글에서 찾을 수 없다.

공통 검색 엔진

가장 흔한 검색엔진은 구글, 빙, 야후지만 맥락에 따라 달라지는 가장 유용한 검색엔진이 가장 흔한 검색엔진은 아닐 수 있다.

유형
일반 검색 엔진 구글, , 야후
웹 사이트 인기 지수 알렉사, 히트와이즈
일반 정보 About.com
전문연구지표 메디라인(의료), 과학, 법률, 구글 스콜라
뉴스 및 미디어 Google 뉴스 아카이브 검색
웹 페이지의 기록 보관 Archive.org, 검색 엔진 캐시(웹 페이지의 모양과 내용, 다른 시간 또는 삭제된 경우)
책과 역사문학 Project Gutenberg, Google Books, Amazon.coma9.com(도서 정보용)
대학 및 고등 교육 기관 4icu.org (대학 웹사이트 검색엔진)

전문 검색엔진

구글 스콜라(Google Scholar)는 종이 중심적이고 존경받는 모든 장소(또는 거의 모든 장소)에서 온라인상의 입지를 가지고 있는 분야에서 잘 작동한다.상업적으로 이용이 가능한 톰슨 ISI웹 지식의 책, 회의 서류들 때문에 잡지, 전략 분야에서 일반 잡지, 관리, international business,[17]영어 교육과 educ하는 등 잘 있을 경우, 후자에 포함되지 않는 지역에서는 특히 이 검색 엔진은 좋은 보체,.ati온톨 [18]테크놀러지구글 스콜라(Google Scholar)가 활용하는 페이지랭크 알고리즘의 분석은 상업적 아날로그뿐만 아니라 이 검색엔진이 특정 출처의 인기에 대한 적절한 정보를 제공한다는 것을 입증했다.[19] 비록 그것이 콘크리트 출판의 실제 과학적 기여를 자동으로 반영하지는 않지만 말이다.[19]

현재 PubMed의 일부인 MedLine은 40년 전에 시작되었고 심지어 이전 논문들을 색인화하면서 광범위하게 기반을 둔 원래의 검색 엔진이다.따라서 특히 생물학과 의학에서 PubMed "관련 기사"는 온라인에 존재하지 않는 오래된 논문의 Google Scholar 대리점이다.예를 들어, The Journal Stroke는 1970년대까지 온라인으로 논문을 게재한다.1978년 본 논문[2]에 대해 구글 스콜라(Google Scholar)는 100개의 기사를 인용하며 PubMed(PubMed)는 89개의 관련 기사를 열거하고 있다.

온라인에는 의회 도서관, 의회 도서관(TOMAS), 인디애나 대법원, FindLaw(미국), 켄트대 법학도서관 출처(영국) 등 많은 국가에서 수많은 법학도서관이 있다.

검색 엔진 목록을 참조하십시오.

일반화 검색엔진

몇 개의 일반화된 검색 엔진이 존재한다.이것들은 당신의 질의를 많은 검색 엔진에 적응시킨다.웹브라우저는 검색창에 채용할 검색엔진을 선택할 수 있는 선택권을 제공하며, 검색결과를 실험하기 위해 한 번에 하나씩 사용할 수 있다.메타 검색 엔진은 한 번에 여러 개의 검색 엔진을 사용한다.About.com의 10개의 인기 있는 제품들은 리뷰를 제공한다.웹 브라우저 플러그인은 당신의 선택 목록에 검색 엔진이나 메타 검색 엔진을 추가할 수 있다.

참고 항목

참조

  1. ^ 예를 들어 구글북스에서 한 이름으로 16회, 다른 이름으로 24회 조회수가 나온다면 실제로 두 번째 이름이 더 흔하다는 확신이 70%에 불과하다.
  2. ^ Google 검색 연산자 및 기타 검색 도움말
  3. ^ 검색 기록 개인 설정
  4. ^ a b Google 검색 설정
  5. ^ LLC가 위키백과 기사의 원시 인쇄물을 '발행'하므로, 인저자를 피하십시오.
  6. ^ Google 검색 대상: AYB 또는 AYBBOBTU 또는 "All your base"
  7. ^ 뉴스 출처의 단어 빈도에 대한 질문에 대한 Google 응답
  8. ^ Takuya, Funahashi; Hayato, Yamana (2010). "Reliability Verification of Search Engines' Hit Counts" (PDF). Proceedings of the 10th international conference on Current trends in web engineering. Computer Science and Engineering Division, Waseda University. Retrieved 5 May 2015.
  9. ^ Sullivan, Danny (21 October 2010). "Why Google Can't Count Results Properly". SearchEngineLand.com. Retrieved 5 May 2015.
  10. ^ [1]
  11. ^ Google "Microsoft" 검색
  12. ^ Gulli, Antonio; Signorini, Alessio (28 August 2005). "The Indexable Web is more than 11.5 billion pages". {{cite journal}}:Cite 저널은 필요로 한다. journal=(도움말)
  13. ^ More, Alvin; Murray, Brian H. (2000). "Sizing the Internet". Cyveillance. {{cite journal}}:Cite 저널은 필요로 한다. journal=(도움말)
  14. ^ Mark Liberman(2009), "인용이 있거나 없는 인용문", Language Log.
  15. ^ Liberman, Mark (2005년), "질문 현실", Language Log; 그리고 거기서 연결된 다른 Language Log 게시물들.
  16. ^ http://web.archive.org/web/20011212161658/http:///www.summit.nw3c.org/Programs_Agenda.htm
  17. ^ Harzing, A. W. K.; Van der Wal, R. (2008).인용 분석의 새로운 출처로서 구글 스콜라?과학 환경정치의 윤리, 제8권, 제1권, 페이지 62–71
  18. ^ 반 알스트, (2010년) 교육에서 저널 기사의 영향을 추정하기 위해 구글 스콜라 사용.교육 연구원 39: 387.
  19. ^ a b Maslov, S.; Redner, S. (2008)구글의 PageLrank 알고리즘을 인용 네트워크로 확장하겠다는 약속과 함정이 있다.신경과학저널, 28, 11103–11105

추가 읽기