아름다운 수프(HTML 파서)

Beautiful Soup (HTML parser)
아름다운 수프
원본 작성자레너드 리처드슨
초기 릴리즈2004 (2004)
안정적 해제
4.10.0[1] / 2021년 9월 7일; 6개월 전(2021년 9월 7일)
리포지토리
기록 위치파이톤
플랫폼파이톤
유형HTML 구문 분석기 라이브러리, 웹 스크래핑
면허증Python Software Foundation 라이센스(Beautiful Soup 3 - 이전 버전) MIT 라이센스 4+[2]
웹사이트www.crummy.com/software/BeautifulSoup/

Beautiful SupHTMLXML 문서를 구문 분석하는 Python 패키지(예: 태그 스프의 이름을 따서 이름이 붙여진 비닫힘 태그 포함)이다.웹 스크래핑에 유용한 HTML에서 데이터를 추출하는 데 사용할 수 있는 구문 분석 페이지용 파스 트리를 만든다.[3][2]

뷰티풀 수프는 이 프로젝트에 계속 기여하고 있는 레오나드 리처드슨이 시작했으며,[4] 오픈소스 유지 보수 유료 구독인 티델리프트가 추가 지원한다.[5]

파이썬 2.7과 파이썬 3에서 이용할 수 있다.

#!/usr/bin/env python3 # bs4 가져오기 Bs4에서 beautifulSoup urllib.property https://en.wikipedia.org/wiki/Main_Page')으로 urlopen: suff = BeautifulSoup(반응, 'parser').find_all('a'):인쇄(anchor print.get('href', '/')

파서들의 장단점

이 표는 각 파서 라이브러리의[2] 장단점을 요약한 것이다.

파서 일반적인 사용법 이점 단점들
파이썬의 html.parser BeautifulSoup(markup, "html.parser")
  • 적당히 빠른
  • 관대함(Python 2.7.3 및 3.2 기준)
  • lxml만큼 빠르지 않고, html5lib보다 덜 관대하다.
lxml의 HTML 파서 BeautifulSoup(마크업, "lxml")
  • 매우 빠르다
  • 관대한
  • 외부 C 종속성
lxml의 XML 구문 분석기

BeautifulSoup(마크업, "lxml-xml")
BeautifulSoup(마크업, "xml")

  • 매우 빠르다
  • 현재 지원되는 유일한 XML 구문 분석기
  • 외부 C 종속성
html5lib BeautifulSoup(마크업, "html5lib")
  • 극도로 관대함
  • 웹 브라우저와 동일한 방식으로 페이지 구문 분석
  • 유효한 HTML5 만들기
  • 매우 느리다
  • 외부 Python 종속성

해제

Beautiful Soup 3는 2006년 5월부터 2012년 3월까지 Beautiful Soup의 공식 출시 라인이었다.현재 출시된 제품은 아름다운 수프 4.x 입니다. 아름다운 수프 4는pip install beautifulsoup4.

참고 항목

참조

  1. ^ https://bazaar.launchpad.net/%7Eleonardr/beautifulsoup/bs4/view/head:/ChangeLOG; 검색: 2021년 12월 16일.
  2. ^ a b c "Beautiful Soup website". Retrieved 18 April 2012. Beautiful Soup is licensed under the same terms as Python itself
  3. ^ Hajba, Gábor László (2018), Hajba, Gábor László (ed.), "Using Beautiful Soup", Website Scraping with Python: Using BeautifulSoup and Scrapy, Apress, pp. 41–96, doi:10.1007/978-1-4842-3925-4_3, ISBN 978-1-4842-3925-4
  4. ^ "Code : Leonard Richardson". Launchpad. Retrieved 2020-09-19.
  5. ^ Tidelift. "beautifulsoup4 pypi via the Tidelift Subscription". tidelift.com. Retrieved 2020-09-19.