크롤링 Crawling - 웹의 콘텐츠를 순회하고 정보를 수집한다
HTML 내부의 속성을 추출하고 특정 패턴을 가진 URL에 반복적으로 접근한다
스크래핑 Scraping - 수집한 데이터에서 필요한 정보를 추출하고 가공하는 것
웹 페이지의 데이터 중에서 원하는 값만 추출한다
크롤링 & 스크래핑에는 두가지 과정이 있다.
- HTML 파일을 웹에서 다운로드 하는 과정
- 다운로드 한 HTML 에서 원하는 데이터를 파싱하는 과정
파이썬 BeautifulSoup 모듈을 사용하여 원하는 데이터를 파싱할 수 있다
2) 웹 페이지 크롤링
이번 절에서는 웹 페이지의 데이터 중에서 원하는 값만 가져오는 스크레이핑에 대해 간략하게 알아보 겠습니다. 스크레이핑은 웹에서 HTML 파일을 다운로드하는 과정과 다운로드한 HT…
wikidocs.net
[특강] 웹크롤링(Web Crowling) 기초 개념과 코드 구현(with Python)
이번 강의에서는 최대한 핵심만 간단하게 웹크롤링이 무엇인지 기초 개념을 말씀드리고 코드를 어떻게 구현하는지만 집중적으로 강의하도록 하겠습니다. 오직 프로그래머 알바의 시각에서만
auto-trading.tistory.com
https://modulabs.co.kr/blog/crawling-tips/
크롤링을 하기 전 알아보면 좋은 점
웹 스크래핑과 웹 크롤링에 대해 읽어보고 크롤링을 법적으로 어디까지 허용될 수 있는지를 알아봅시다. 또한 정적크롤링과 동적크롤링의 차이를 통해 어떤 방식으로 크롤링을 해볼 수 있을지
modulabs.co.kr
'호기심' 카테고리의 다른 글
Copilot과 에너지 체인에 대한 잡담 (0) | 2024.07.07 |
---|---|
Copilot과 초끈이론에 대한 잡담 (0) | 2024.06.09 |
Copilot과 시간여행에 대한 잡담2 (0) | 2024.06.04 |
Copilot과 시간 여행이 가능할까? 에 대한 아이디어 (5) | 2024.05.25 |
마이크로소프트 Copilot 사용기 Ai chatbot 자연어처리 NLP (1) | 2024.02.26 |