아름다운 수프(HTML 파서)
Beautiful Soup (HTML parser)| 원본 작성자 | 레너드 리처드슨 |
|---|---|
| 초기 릴리즈 | 2004 |
| 안정적 해제 | 4.10.0[1] / 2021년 9월 7일; |
| 리포지토리 | |
| 기록 위치 | 파이톤 |
| 플랫폼 | 파이톤 |
| 유형 | HTML 구문 분석기 라이브러리, 웹 스크래핑 |
| 면허증 | Python Software Foundation 라이센스(Beautiful Soup 3 - 이전 버전) MIT 라이센스 4+[2] |
| 웹사이트 | www |
Beautiful Sup은 HTML 및 XML 문서를 구문 분석하는 Python 패키지(예: 태그 스프의 이름을 따서 이름이 붙여진 비닫힘 태그 포함)이다.웹 스크래핑에 유용한 HTML에서 데이터를 추출하는 데 사용할 수 있는 구문 분석 페이지용 파스 트리를 만든다.[3][2]
뷰티풀 수프는 이 프로젝트에 계속 기여하고 있는 레오나드 리처드슨이 시작했으며,[4] 오픈소스 유지 보수 유료 구독인 티델리프트가 추가 지원한다.[5]
파이썬 2.7과 파이썬 3에서 이용할 수 있다.
#!/usr/bin/env python3 # bs4 가져오기 Bs4에서 beautifulSoup urllib.property https://en.wikipedia.org/wiki/Main_Page')으로 urlopen: suff = BeautifulSoup(반응, 'parser').find_all('a'):인쇄(anchor print.get('href', '/')
파서들의 장단점
이 표는 각 파서 라이브러리의[2] 장단점을 요약한 것이다.
| 파서 | 일반적인 사용법 | 이점 | 단점들 |
|---|---|---|---|
| 파이썬의 html.parser | BeautifulSoup(markup, "html.parser") |
|
|
| lxml의 HTML 파서 | BeautifulSoup(마크업, "lxml") |
|
|
| lxml의 XML 구문 분석기 | BeautifulSoup(마크업, "lxml-xml") |
|
|
| html5lib | BeautifulSoup(마크업, "html5lib") |
|
|
해제
Beautiful Soup 3는 2006년 5월부터 2012년 3월까지 Beautiful Soup의 공식 출시 라인이었다.현재 출시된 제품은 아름다운 수프 4.x 입니다. 아름다운 수프 4는pip install beautifulsoup4.
참고 항목
참조
- ^ https://bazaar.launchpad.net/%7Eleonardr/beautifulsoup/bs4/view/head:/ChangeLOG; 검색: 2021년 12월 16일.
- ^ a b c "Beautiful Soup website". Retrieved 18 April 2012.
Beautiful Soup is licensed under the same terms as Python itself
- ^ Hajba, Gábor László (2018), Hajba, Gábor László (ed.), "Using Beautiful Soup", Website Scraping with Python: Using BeautifulSoup and Scrapy, Apress, pp. 41–96, doi:10.1007/978-1-4842-3925-4_3, ISBN 978-1-4842-3925-4
- ^ "Code : Leonard Richardson". Launchpad. Retrieved 2020-09-19.
- ^ Tidelift. "beautifulsoup4 pypi via the Tidelift Subscription". tidelift.com. Retrieved 2020-09-19.