Today's

길을 나서지 않으면 그 길에서 만날 수 있는 사람을 만날 수 없다

파이썬 스크립트

python web scraping ... 퍼옴

Billcorea 2024. 4. 27. 15:26
반응형

파이썬 및 데이터 계약으로 웹 스크래핑 파이프라인 구축

스크래핑


• 이 기사에서는 데이터 계약을 통합한 실용적인 종단 간 데이터 파이프라인 시연을 제시한다. 목표는 2023/24 시즌 프리미어리그 테이블 순위를 긁어내고 여러 단계를 거쳐 AWS S3 버킷에 데이터를 업로드하는 것이다.

• 파이프라인은 웹 스크래핑이 허용되는지 확인하고 스크래핑 봇을 사용하여 데이터를 추출하고 데이터를 변환하여 AWS S3에 로드하는 것을 포함한다. 데이터 계약은 데이터가 데이터 소비자의 기대에 부합하도록 하기 위해 활용된다.

• 데이터 출처는 프리미어리그 홈페이지이며, 셀레늄을 사용하여 데이터를 스크래핑한다. 데이터 계약은 추출 및 변환된 데이터에 대한 예상 스키마 및 데이터 품질 검사를 정의하는 데 사용된다.

• 파이프라인은 파이썬과 소다, 보토3, 판다, 요청 등 다양한 라이브러리를 사용하여 구현된다. 코드는 모듈로 구성되며 명확한 구조를 따릅니다.

• 결과는 데이터가 성공적으로 스크래핑, 변환 및 AWS S3에 로드됨을 보여준다. 파이프라인은 데이터 거버넌스를 개선하고 데이터 품질을 보장하는 데 데이터 계약을 사용하는 이점을 보여준다.

• 이 기사는 또한 웹사이트의 서비스 조건을 존중하는 것의 중요성과 추가 도구와 고려 사항이 있는 생산 환경에서 데이터 계약을 사용할 수 있는 가능성에 대해 논의한다.

https://levelup.gitconnected.com/create-a-web-scraping-pipeline-with-python-using-data-contracts-281a30440442

Create a web scraping pipeline with Python using data contracts

Add data quality to each source layer for quality in, quality out

levelup.gitconnected.com

반응형