구글봇

Googlebot
구글봇
Google 2015 logo.svg
원저작자구글
유형웹 크롤러
웹 사이트Googlebot FAQ

GooglebotGoogle 검색 엔진에 대한 검색 가능 색인을 작성하기 위해 에서 문서를 수집하는 Google에서 사용하는 웹 크롤러 소프트웨어입니다.이 이름은 실제로 데스크톱 크롤러(데스크탑 사용자 시뮬레이션)와 모바일 크롤러(모바일 [1]사용자 시뮬레이션)의 두 가지 다른 웹 크롤러를 가리키는 데 사용됩니다.

행동

웹 사이트는 Googlebot Desktop과 Googlebot Mobile에서 탐색할 수 있습니다.그러나 구글은 2020년 9월부터 모든 사이트가 모바일 우선 인덱싱으로 전환되었으며, 이는 구글이 스마트폰 구글봇을 [2]사용하여 웹을 탐색하고 있음을 의미한다고 발표했다.Googlebot의 하위 유형은 요청 내 사용자 에이전트 문자열을 보고 식별할 수 있습니다.그러나 두 크롤러 유형은[3] 로봇에서 동일한 제품 토큰(유용한 토큰)을 따릅니다.따라서 개발자는 로봇을 사용하여 Googlebot 모바일 또는 Googlebot 데스크톱 중 하나를 선택적으로 대상으로 할 수 없습니다.txt를 클릭합니다.

만약 웹마스터가 구글봇이나 다른 거미들이 이용할 수 있는 그들의 사이트의 정보를 제한하기로 선택한다면, 그들은 로봇의 적절한 지시에 따라 그렇게 할 수 있다.txt [4]파일 또는 메타 태그를 추가하여 <meta name="Googlebot" content="nofollow" />[5]페이지로 이동합니다. 서버에 대한 Googlebot 요청은 "Googlebot"을 포함하는 사용자-에이전트 문자열과 "googlebot.com"을 포함하는 호스트 주소로 식별할 수 있습니다."What is Googlebot Google Search Central Documentation". May 2022.

현재 Googlebot은 HREF 링크와 SRC [4]링크를 따르고 있습니다.Googlebot이 JavaScript를 실행하고 Ajax 호출에 의해 생성된 콘텐츠를 구문 분석할 [6]수 있다는 증거가 증가하고 있습니다.구글봇의 자바스크립트 처리 능력이 얼마나 발전했는지에 대해서는 커스텀 [7]통역기에서 나온 최소한의 능력에서부터 다양한 의견이 나오고 있다.현재 Googlebot은 크롬 렌더링 엔진([8]2019년 5월 7일 현재 버전 74)을 기반으로 하는 웹 렌더링 서비스(WRS)를 사용하고 있습니다.구글봇은 찾을 수 있는 모든 페이지의 모든 링크를 수집하여 페이지를 발견합니다.그런 다음 이러한 링크를 따라 다른 웹 페이지로 이동합니다.새 웹 페이지를 탐색 및 인덱싱하거나 웹 마스터가 수동으로 제출하려면 웹의 다른 알려진 페이지에서 링크해야 합니다.

저대역폭호스팅[citation needed] 계획을 가진 웹마스터들이 구글봇에 자주 지적해 온 문제는 이것이 엄청난 대역폭을 [citation needed]차지한다는 것이다.이로 인해 웹 사이트가 대역폭 제한을 초과하여 일시적으로 다운될 수 있습니다.는 특히 수 기가바이트의 데이터를 호스트하는 미러 사이트의 경우 문제가 됩니다.구글은 웹 사이트 소유자가 크롤 [9]속도를 조절할 수 있는 "검색 콘솔"을 제공합니다.

구글봇이 얼마나 자주 사이트를 기어가느냐는 크롤 예산에 달려있다.크롤 예산은 웹 사이트가 [citation needed]업데이트되는 빈도에 대한 추정치입니다.기술적으로 구글봇의 개발팀(크롤링 및 인덱싱팀)은 내부적으로 정의된 여러 용어를 사용하여 "크롤 예산"이 의미하는 바를 [10]이어받습니다.구글봇은 2019년 5월부터 ECMAScript 6 기능을 지원하는 최신 크롬 렌더링 엔진을 사용한다.이로 인해 봇이 좀 더 "상시 환경 친화적"이 되어 브라우저 [8]기능에 비해 구식 렌더링 엔진에 의존하지 않게 됩니다.

미디어봇

Mediaabot은 Google AdSense가 상황에 맞는 광고를 웹 페이지에 제공할 수 있도록 Google이 콘텐츠를 분석하기 위해 사용하는 웹 크롤러입니다.Mediabot은 사용자 에이전트 문자열인 "Mediapartners-Google/2"로 자신을 식별합니다.1".

다른 크롤러와 달리 Mediaabot은 새로운 크롤러 가능한 URL을 검색하기 위해 링크를 따라가지 않고 AdSense 코드가 [11]포함된 URL만 방문합니다.로그인 뒤에 해당 콘텐츠가 있는 경우 크롤러가 로그인을 통해 보호된 콘텐츠를 [12]크롤링할 수 있습니다.

레퍼런스

  1. ^ "Googlebot". Google. 2019-03-11. Retrieved 2019-03-11.
  2. ^ "Announcing mobile first indexing for the whole web". Google Developers. Retrieved 2021-03-17.
  3. ^ admin1234 (2022-07-24). "List of all Google Crawlers that discover your every Website Pages". Ligyt SEO. Retrieved 2022-07-27.
  4. ^ a b "Google Search Console". Google.com.
  5. ^ "Google Search Console". search.google.com. Retrieved 2019-03-11.
  6. ^ "Understand the JavaScript SEO basics Search for Developers". Google Developers. Retrieved 2020-07-26.
  7. ^ Splitt, Martin. "How Google Search indexes JavaScript sites - JavaScript SEO". YouTube. Archived from the original on 2021-12-12.
  8. ^ a b "The new evergreen Googlebot". Official Google Webmaster Central Blog. Retrieved 2019-06-07.
  9. ^ "Google - Webmasters". Retrieved 2012-12-15.
  10. ^ "What Crawl Budget Means for Googlebot". Official Google Webmaster Central Blog. Retrieved 2018-07-04.
  11. ^ "About the AdSense Crawler".
  12. ^ "Display ads on login-protected pages".

외부 링크