이노베이션캠프/웹개발종합반

[Python] 크롤링(Crawling)

개린이다 2023. 5. 31. 20:10

1. 크롤링(Crawling)이란?

- 개인 혹은 단체에서 필요한 데이터가 있는 웹(Web)페이지의 구조를 분석하고 파악하여 긁어오는 것

 

2. 관련 수업자료

// 노션에 따로 정리

 

3. 추가 배운 점(Beutiful soup 관련)

1) bs4 selecter 관련

- td 태그 중 class명이 info인 걸 가리키고 싶을 때

td.info

2) bs4(Beutiful soup 4) 에서 class 명에 공백이 있을 때

- . 을 사용하면 된다

- 예를 들어 < tr class="my name">을 가리키고 싶다면

soup.select_one('tr.my.name')

라고 하기

https://studyforus.com/tipnknowhow/789053

 

[Python] BeautifulSoup에서 class명에 공백이 있을 때 검색 방법 - Study For Us

엄밀한 의미에서 HTML의 class명에 공백이 있는 것이 아니라 multiple classes라고 보는 것이 정확하지만, 편의상 '공백'이라고 설명하겠습니다 ^^ 가장 간단한 방법은 CSS 셀렉터를 사용하는 것입니다.

studyforus.com

 

 

* Beutiful soup 관련 공부

https://wikidocs.net/85739

 

2.6 사이트 정보 추출하기 - beautifulsoup 사용법 (1)

# BeautifulSoup가 필요한 이유 request.text를 이용해 가져온 데이터는 **텍스트형태의 html **입니다. 텍스트형태의 데이터에서 원하는 html 태그…

wikidocs.net