Chapter 9. 웹 크롤러 설계 | Notion

<aside> 💡

웹 크롤러는 검색 엔진에서 널리 쓰는 기술로, 웹에 새로 올라오거나 갱신된 콘텐츠를 찾아내는 것이 주된 목적이다!

</aside>

콘텐츠 : 웹 페이지, 이미지, 비디오, PDF 파일 등
- 웹 크롤러는 몇 개 웹 페이지에서 시작해서 링크를 따라나가면서 새로운 콘텐츠를 수집한다.

Untitled

웹 크롤러의 다양한 역할들

검색 엔진 인덱싱
- 크롤러의 가장 보편적인 용례
- 웹 페이지를 모아 검색 엔진을 위한 로컬 인덱스를 만든다.
- ex) Googlebot
웹 아카이빙
- 나중에 사용할 목적으로 장기보관하기 위해 웹에서 정보를 모으는 절차
- 국립 도서관들이 크롤러를 돌려 웹 사이트를 아카이빙 한다.
웹 마이닝
- 웹 마이닝을 통해 인터넷에서 유용한 지식을 도출해 낼 수 있다.
웹 모니터링
- 인터넷에서 저작권이나 상표권이 침해되는 사례를 모니터링할 수 있다.

→ 웹 크롤러의 복잡도는 웹 크롤러가 처리해야 하는 데이터의 규모에 따라 달라진다!

따라서, 우선 설계할 웹 크롤러가 감당해야 할 데이터의 규모와 기능들을 알아야 한다.

1단계: 문제 이해 및 설계 범위 확정