WEB | Notion

데이터 수집 시, 웹 사이트에서 크롤러의 접근을 제어하기 위한 표준으로, 사이트의 루트 디렉토리에 위치하는 robots.txt을 확인해야 한다.
robots.txt
- User-agent: 적용 대상 크롤러 지정 (*는 모든 크롤러)
- Disallow: 크롤링을 금지할 경로 지정
- Allow: 크롤링을 허용할 경로 지정

# robots.txt 다운로드
<https://www.naver.com/robots.txt>

# robots.txt
User-agent: *
Disallow: /
Allow : /$
Allow : /.well-known/privacy-sandbox-attestations.json

=> 해석 
 - 모든 크롤러는 사이트의 모든 페이지 접근 금지.
 - 단, **홈페이지(/)**와 특정 JSON 파일은 접근 가능.

라이브러리

Requests

BeautifulSoup

Selenium

라이브러리 차이점

구분	BeautifulSoup	Selenium
역할	HTML 파싱	브라우저 자동화(렌더링+상호작용)
JS 렌더링	지원 X (정적 HTML만)	지원 O (동적 콘텐츠 수집 가능)
속도/리소스	빠르고 가벼움	느리고 무거움(브라우저 구동)
상호작용(클릭/스크롤/입력)	불가	가능
사용 난이도	쉬움	상대적으로 높음
안티봇 우회	약함	상대적으로 유리하지만 여전히 탐지될 수 있음
주 사용 시나리오	뉴스/블로그 등 정적 페이지 대량 수집	로그인 필요, 무한스크롤, 버튼 로드, SPA 등 동적 페이지