Page protected with pending changes

사이트맵

Sitemaps

사이트 마스터가 웹 크롤링에 사용할 수 있는사이트URL에 대해 검색 엔진에 알려주는 XML 형식의 프로토콜입니다.웹마스터가 각 URL에 대한 추가 정보(마지막으로 업데이트된 시점, 변경 빈도, 사이트의 다른 URL과 관련하여 얼마나 중요한지)를 포함할 수 있습니다.이를 통해 검색 엔진은 보다 효율적으로 사이트를 탐색하고 나머지 사이트 내용에서 분리될 수 있는 URL을 찾을 수 있습니다.사이트맵 프로토콜은 URL 포함 프로토콜이며 이를 보완합니다.robots.txt, URL 제외 규약

역사

구글은 2005년 6월에 사이트맵 0.84를 처음 도입하여 웹 개발자들이 자신들의 사이트를 가로질러 링크 목록을 게시할 수 있게 했습니다.[1]구글, 야후 그리고 마이크로소프트는 2006년 11월 사이트맵 프로토콜에 대한 공동 지원을 발표했습니다.[2]스키마 버전이 "Sitemap 0.90"으로 변경되었지만 다른 변경 사항은 없습니다.

2007년 4월, Ask.com 과 IBM은 사이트맵에 대한 지원을 발표했습니다.또한 Google, Yahoo, MSN은 사이트 맵에 대한 자동 검색을 발표했습니다.robots.txt. 2007년 5월, 애리조나, 캘리포니아, 유타, 버지니아 주 정부는 웹사이트에 사이트맵을 사용할 것이라고 발표했습니다.[4]

사이트맵스 프로토콜은 "크롤러 친화적인 웹 서버"의[5] 아이디어를 기반으로 하며,[6] 자동 검색 기능을 포함한 개선 사항은 다음과 같습니다.robots.txt우선 순위를 지정하고 페이지의 빈도를 변경할 수 있습니다.

목적

사이트 맵은 다음과 같은 웹 사이트에서 특히 유용합니다.

  • 웹 사이트의 일부 영역은 브라우징 가능한 인터페이스를[7] 통해 사용할 수 없습니다.
  • 웹마스터는 검색 엔진에서 정상적으로 처리되지 않는 풍부한 Ajax, Silverlight 또는 Flash 컨텐츠를 사용합니다.
  • 사이트가 매우 크고 웹 크롤러가 새로 업데이트되거나 최근에 업데이트된 콘텐츠의[7] 일부를 간과할 가능성이 있습니다.
  • 웹 사이트가 분리되거나 서로 잘 연결되지 않은 페이지 수가 많은 경우 또는[7]
  • 웹 사이트에 외부 링크가[7] 거의 없는 경우

파일형식

사이트맵 프로토콜 형식은 XML 태그로 구성됩니다.파일 자체가 UTF-8 인코딩이어야 합니다.사이트 맵은 URL의 일반 텍스트 목록일 수도 있습니다.또한 .gz 형식으로 압축할 수도 있습니다.

아래에는 URL이 하나만 포함되어 있고 모든 옵션 태그를 사용하는 사이트맵 샘플이 나와 있습니다.

<?xml version="1.0" 인코딩="utf-8"?> < urlset xmlns="https://www.sitemaps.org/schemas/sitemap/0.9 " xsi="https://www.w3.org/2001/XMLSchema-instance " xsi:schemaLocation="https://www.sitemaps.org/schemas/sitemap/0.9 "> <url> <loc> https://example.com/ </loc> <lastmod> 2006-11-18 </lastmod> <changefreq> daily </changefreq> <priority> 0.8</priority> </url> </urlset>

사이트맵 XML 프로토콜도 확장되어 '사이트맵 인덱스' 파일에 여러 사이트맵을 나열하는 방법을 제공합니다.사이트 맵의 최대 크기가 50 MiB 또는 50,000 URL이라는[8] 것은 대규모 사이트에 필요하다는 것을 의미합니다.

하나의 개별 사이트 맵을 참조하는 사이트 맵 인덱스의 예는 다음과 같습니다.

<?xml version="1.0" 인코딩="UTF-8"?> <sitemapindex xmlns="https://www.sitemaps.org/schemas/sitemap/0.9 "> <sitemap> <loc> https://www.example.com/sitemap1.xml.gz </loc> <lastmod> 2014-10-01T18:23:17+00:00</lastmod> </sitemapindex>

요소정의

요소에 대한 정의는 다음과 같습니다.[8]

요소 꼭 필요한가요? 묘사
<urlset> 네. 사이트 맵의 문서 수준 요소입니다.'<?xml version>' 요소 뒤의 나머지 문서가 여기에 포함되어야 합니다.
<url> 네. 각 항목에 대한 상위 요소입니다.
<sitemapindex> 네. 사이트맵 색인의 문서 수준 요소입니다.'<?xml version>' 요소 뒤의 나머지 문서가 여기에 포함되어야 합니다.
<sitemap> 네. 인덱스의 각 항목에 대한 상위 요소입니다.
<loc> 네. 사이트의 호스팅 서버에서 필요한 경우 프로토콜(예: http, https) 및 후행 슬래시를 포함하여 페이지 또는 사이트 맵의 전체 URL을 제공합니다.이 값은 2,048자보다 작아야 합니다.URL의 앰퍼샌드는 다음과 같이 이스케이프해야 합니다.&amp;.
<lastmod> 아니요. ISO 8601 형식으로 파일을 마지막으로 수정한 날짜입니다.전체 날짜 및 시간을 표시하거나 원하는 경우 단순히 YYY-MM-DD 형식의 날짜를 표시할 수 있습니다.
<changefreq> 아니요. 페이지가 변경되는 빈도:
  • 항상
  • 매시간의
  • 매일 일어나는
  • 주간의
  • 매월의
  • 연간
  • 절대.

"항상"은 접근할 때마다 변경되는 문서를 나타내는 데 사용됩니다."Never"는 보관된 URL(즉, 다시는 변경되지 않을 파일)을 나타내는 데 사용됩니다.

크롤러에 대한 가이드로만 사용되며 페이지 색인화 빈도를 결정하는 데 사용되지 않습니다.

적용되지 않음<sitemap>요소들.

<priority> 아니요. 사이트의 다른 URL과 관련된 해당 URL의 우선 순위입니다.이를 통해 웹 마스터는 크롤러에게 어떤 페이지가 더 중요하게 여겨지는지 제안할 수 있습니다.

유효한 범위는 0.0 ~ 1.0이며 1.0이 가장 중요합니다.기본값은 0.5입니다.

우선 순위가 높은 사이트의 모든 페이지에 등급을 매기는 것은 사이트의 페이지가 서로에게 얼마나 중요한지 크롤러에게 제시하는 데만 사용되므로 검색 목록에 영향을 미치지 않습니다.

적용되지 않음<sitemap>요소들.

필요하지 않은 요소에 대한 지원은 검색 엔진마다 다를 수 있습니다.[8]

다른 형식

텍스트파일

사이트맵 프로토콜을 사용하면 사이트맵이 텍스트 파일에 있는 URL의 단순한 목록이 될 수 있습니다.XML 사이트맵의 파일 사양은 텍스트 사이트맵에도 적용됩니다. 파일은 UTF-8 인코딩이어야 하며 50MiB(압축되지 않음)를 초과하거나 50,000개 이상의 URL을 포함할 수 없습니다.이러한 제한을 초과하는 사이트 맵은 사이트 맵 인덱스 파일(여러 사이트 맵을 가리키는 파일)을 사용하여 여러 사이트 맵으로 분할해야 합니다.[9]

신디케이션 피드

신디케이션 피드는 크롤러에 URL을 제출하는 데 허용되는 방법으로, 이미 신디케이션 피드가 있는 사이트에 대해 주로 권장됩니다.이 방법은 최근에 생성된 URL만 크롤러에게 제공할 수 있지만 다른 URL은 일반 크롤링 중에도 검색할 수 있다는 단점이 있습니다.[8]

전체 사이트 맵을 보완하기 위해 델타 업데이트(최신 콘텐츠만 포함)로 신디케이션 피드를 갖는 것이 유용할 수 있습니다.

검색엔진제출

사이트 맵을 검색 엔진에 직접 제출하면(ping) 상태 정보와 처리 오류가 반환됩니다.제출과 관련된 세부 사항은 검색 엔진에 따라 달라집니다.사이트 맵의 위치도 포함할 수 있습니다.robots.txt다음 행을 추가하여 파일을 만듭니다.

Sitemap: <sitemap_location>

<sitemap_location>다음과 같은 사이트 맵의 전체 URL이어야 합니다.

https://www.example.org/sitemap.xml

이 지시어는 사용자-에이전트 줄과 독립적이므로 파일의 위치에 상관이 없습니다.웹 사이트에 여러 개의 사이트 맵이 있는 경우 여러 개의 "사이트 맵:" 레코드가 포함될 수 있습니다.robots.txt, 또는 URL이 단순히 메인 사이트 맵 인덱스 파일을 가리킬 수 있습니다.

다음 표에는 몇 가지 주요 검색 엔진의 사이트 맵 제출 URL이 나와 있습니다.

검색엔진 제출URL 도움말 페이지 시장.
바이두 https://zhanzhang.baidu.com/dashboard/index 바이두 웹마스터 대시보드 중국,싱가포르
(그리고 야후!) https://www.bing.com/webmaster/ping.aspx?siteMap= Bing 웹마스터 도구 세계적인
구글 https://www.google.com/ping?sitemap= 사이트 맵 작성 및 제출 세계적인
얀덱스 https://webmaster.yandex.com/site/map.xml 사이트맵 파일 러시아, 벨라루스, 카자흐스탄, 터키

사이트 맵 제출 URL을 사용하여 제출된 사이트 맵 URL은 URL로 인코딩해야 합니다. 예: 바꾸기:(colon) 와 함께%3A,교체하다/(slash) 와 함께%2F.[8]

검색 엔진 색인에 대한 제한 사항

사이트 맵은 검색 엔진이 URL을 검색할 때 이미 사용하는 기존의 크롤 기반 메커니즘을 대체하지 않으며 보완합니다.이 프로토콜을 사용한다고 해서 웹 페이지가 검색 색인에 포함되는 것이 보장되는 것은 아니며, 페이지가 검색 결과에 순위가 매겨지는 방식에도 영향을 미치지 않습니다.구체적인 예는 아래에 나와 있습니다.

  • Google - Webmaster Support on Sitemaps: "Google 프로세스는 크롤링 일정을 잡기 위해 복잡한 알고리즘에 의존하기 때문에 사이트 맵을 사용한다고 해서 사이트 맵의 모든 항목이 크롤링되고 색인화되는 것이 보장되지는 않습니다.그러나 대부분의 경우 사이트에 사이트 맵이 있으면 이점을 얻을 수 있으며 사이트 맵이 있으면 불이익을 받지 않습니다."[10]
  • 빙빙은 표준 sitemaps.org 프로토콜을 사용하며 아래에 언급된 것과 매우 유사합니다.
  • 야후 - 야후간 검색 거래 시작 후!주식회사와 마이크로소프트, 야후!Site Explorer가 Bing Webmaster Tools와 병합되었습니다.

사이트맵 제한

사이트 맵 파일의 URL 수는 50,000개, 사이트 맵당 50MiB(52,428,800바이트)로 제한됩니다.사이트 맵은 gzip을 사용하여 압축할 수 있으므로 대역폭 소모를 줄일 수 있습니다.사이트 맵 인덱스 파일이 엔트리 포인트 역할을 하는 여러 개의 사이트 맵 파일이 지원됩니다.사이트 맵 인덱스 파일은 50,000개 이상의 사이트 맵을 나열할 수 없으며 50MiB보다 크지 않아야 하며 압축할 수 있습니다.사이트맵 인덱스 파일을 둘 이상 가질 수 있습니다.[8]

모든 XML 파일과 마찬가지로 모든 데이터 값(URL 포함)은 문자 앰퍼샌드(&), 단일 따옴표('), 이중 따옴표('), (<) 미만, (>)보다 큰 개체 이스케이프 코드를 사용해야 합니다.

검색 엔진 탐색 기능을 위해 사이트 맵 인덱스를 최적화하는 가장 좋은 방법은 인덱스가 다른 사이트 맵 인덱스와 달리 사이트 맵만 참조하도록 하는 것입니다.Google에서 사이트 맵 인덱스 내에 사이트 맵 인덱스를 중첩하는 것은 올바르지 않습니다.[11]

추가 사이트 맵 유형

Google은 사이트 맵 프로토콜 범위를 벗어난 수많은 추가 XML 사이트 맵 유형을 지원하여 웹 마스터가 웹 사이트의 내용에 대한 추가 데이터를 제공할 수 있도록 합니다.비디오 및 이미지 사이트 맵은 이미지 및 비디오 검색에서 순위를 매길 수 있는 웹 사이트의 기능을 향상시키기 위한 것입니다.[12][13]

동영상 사이트 맵

비디오 사이트 맵은 임베딩 및 자동 재생과 관련된 데이터, 검색 결과에 표시할 선호 썸네일, 게시 날짜, 비디오 기간 및 기타 메타데이터를 나타냅니다.[13]비디오 사이트 맵은 검색 엔진이 웹 사이트에 내장되어 있지만 VimeoYouTube와 같은 외부에서 호스팅되는 비디오를 인덱싱하는 데도 사용됩니다.

이미지 사이트 맵

이미지 사이트 맵은 라이센스 정보, 지리적 위치 및 이미지 캡션과 같은 이미지 메타데이터를 표시하는 데 사용됩니다.[12]

구글 뉴스 사이트맵

Google은 시간에 민감한 뉴스 주제를 빠르게 색인화할 수 있도록 Google 뉴스 사이트 맵 유형을 지원합니다.[14][15]

다국어 및 다국적 사이트 맵

2011년 12월, 구글은 여러 언어, 선택적으로 국가의 사용자를 대상으로 하는 사이트에 대한 주석을 발표했습니다.몇 달 후 Google은 공식 블로그를 통해 사이트맵에 rel= "alternate" 및 hreflang 주석을 지정할 수 있도록 지원을 추가한다고 발표했습니다.HTML 링크 요소 대신에 사이트 맵 옵션은 페이지 크기가 더 작고 일부 웹 사이트에 더 쉽게 배포할 수 있는 많은 이점을 제공했습니다.

다국어 사이트 맵의 예는 다음과 같습니다.

예를 들면 우리는 영어 사용자들을 대상으로 하는 사이트를 가지고 있습니다.https://www.example.com/en그리고 그리스어 사용자들은.https://www.example.com/gr, 그때까지 유일한 옵션은 hreflang 주석을 http 헤더에 추가하거나 이와 같이 두 URL 모두에 HTML 요소로 추가하는 것이었습니다.

<링크 rel=alternate hreflang=en href=https://www.example.com/en /> <링크 rel=alternate hreflang="gr" href=https://www.example.com/gr /> 

그러나 이제 사이트맵에서 다음과 같은 동등한 마크업을 사용할 수 있습니다.

 <url>  <loc> https://www.example.com/en </loc>     <xhtml: 링크       rel=alternate       hreflang="gr"       href=https://www.example.com/gr />     <xhtml: 링크       rel=alternate       hreflang=en       href=https://www.example.com/en />  </url>  <url>  <loc> https://www.example.com/gr </loc>     <xhtml: 링크       rel=alternate       hreflang="gr"       href=https://www.example.com/gr />     <xhtml: 링크       rel=alternate       hreflang=en       href=https://www.example.com/en />  </url> 

참고 항목

참고문헌

  1. ^ Shivakumar, Shiva (2005-06-02). "Google Blog: Webmaster-friendly". Archived from the original on 2005-06-08. Retrieved 2021-12-31.
  2. ^ "Major Search Engines Unite to Support a Common Mechanism for Website Submission". News from Google. November 16, 2006. Retrieved 2021-12-31.
  3. ^ Pathak, Vivek (2007-05-11). "The Ask.com Blog: Sitemaps Autodiscovery". Ask's Official Blog. Archived from the original on 2007-05-18. Retrieved 2021-12-31.
  4. ^ "Information for Public Sector Organizations". Archived from the original on 2007-04-30.
  5. ^ M.L. Nelson; J.A. Smith; del Campo; H. Van de Sompel; X. Liu (2006). "Efficient, Automated Web Resource Harvesting" (PDF). WIDM'06.
  6. ^ O. Brandman, J. Cho, Hector Garcia-Molina, and Narayanan Shivakumar (2000). "Crawler-friendly web servers". Proceedings of ACM SIGMETRICS Performance Evaluation Review, Volume 28, Issue 2. doi:10.1145/362883.362894.{{cite conference}}: CS1 유지 : 여러 이름 : 저자 목록 (링크)
  7. ^ a b c d "Learn about sitemaps Search Central". Google Developers. Retrieved 2021-06-01.
  8. ^ a b c d e f "Sitemaps XML format". Sitemaps.org. 2016-11-21. Retrieved 2016-12-01.
  9. ^ "Build and submit a sitemap - Search Console Help". Support.google.com. Retrieved 30 November 2020.
  10. ^ "About Google Sitemaps". 2016-12-01. Retrieved 2016-12-01.
  11. ^ "Sitemaps report - Search Console Help". support.google.com. Retrieved 2020-04-15.
  12. ^ a b "Image Sitemaps". Google Search Console. Retrieved 28 December 2018.
  13. ^ a b "Video Sitemaps". Google Search Console. Retrieved 28 December 2018.
  14. ^ Bigby, Garenne. "Why You should be using a Google News Sitemap". Dyno Mapper. Retrieved 28 December 2018.
  15. ^ "Google News Sitemaps". Google Search Console. Retrieved 28 December 2018.
  16. ^ "Multilingual and multinational site annotations in Sitemaps". Google Webmaster Central Blog. Pierre Far. May 24, 2012.

외부 링크