Web Crawling | Notion

**크롤링(Crawling)**은 웹 페이지나 API로부터 원하는 정보를 자동으로 수집하는 기술로, 웹 스크래핑(Web Scraping)이라고도 불린다.

크롤러(Crawler) 또는 스파이더(Spider)라고 불리는 프로그램이 인터넷 상의 웹 사이트를 링크를 따라가며 웹 전체 또는 특정 사이트를 자동으로 탐색하며 데이터를 추출한다.

크롤링은 대량의 데이터를 효율적으로 수집하여 데이터 분석, 머신러닝 모델 학습, 시장 조사 등 다양한 분야에서 활용된다.

웹 스크래핑

특정 웹 페이지에서 HTML을 분석하여 원하는 데이터를 추출하는 과정

⚠️ 주의 사항

모든 웹사이트가 크롤링을 허용하는 것은 아니며, robots.txt 정책이나 서비스 약관을 반드시 확인해야 한다.
요청 URL, 파라미터, api key 확보 중요🌟

데이터 저장 방식 종류

파일 시스템 : CSV, JSON, XML, Excel 등 파일 형식으로 저장한다.
관계형 데이터베이스(RDBMS) : MySQL, PostgreSQL 등 스키마 기반의 테이블에 저장한다.
NoSQL 데이터베이스 : MongoDB, Cassandra 등 유연한 스키마를 가진 데이터베이스에 저장한다.
데이터 웨어하우스 및 빅데이터 저장소 : Hadoop HDFS, Amazon S3 등 대용량 데이터 저장에 사용한다.
클라우드 스토리지 : Firebase, AWS DynamoDB 등 클라우드 기반 서비스를 활용한다.