robots.txt을 확인해야 한다.User-agent: 적용 대상 크롤러 지정 (*는 모든 크롤러)Disallow: 크롤링을 금지할 경로 지정Allow: 크롤링을 허용할 경로 지정# robots.txt 다운로드
<https://www.naver.com/robots.txt>
# robots.txt
User-agent: *
Disallow: /
Allow : /$
Allow : /.well-known/privacy-sandbox-attestations.json
=> 해석
- 모든 크롤러는 사이트의 모든 페이지 접근 금지.
- 단, **홈페이지(/)**와 특정 JSON 파일은 접근 가능.
| 구분 | BeautifulSoup | Selenium |
|---|---|---|
| 역할 | HTML 파싱 | 브라우저 자동화(렌더링+상호작용) |
| JS 렌더링 | 지원 X (정적 HTML만) | 지원 O (동적 콘텐츠 수집 가능) |
| 속도/리소스 | 빠르고 가벼움 | 느리고 무거움(브라우저 구동) |
| 상호작용(클릭/스크롤/입력) | 불가 | 가능 |
| 사용 난이도 | 쉬움 | 상대적으로 높음 |
| 안티봇 우회 | 약함 | 상대적으로 유리하지만 여전히 탐지될 수 있음 |
| 주 사용 시나리오 | 뉴스/블로그 등 정적 페이지 대량 수집 | 로그인 필요, 무한스크롤, 버튼 로드, SPA 등 동적 페이지 |