파이썬 및 데이터 계약으로 웹 스크래핑 파이프라인 구축
• 이 기사에서는 데이터 계약을 통합한 실용적인 종단 간 데이터 파이프라인 시연을 제시한다. 목표는 2023/24 시즌 프리미어리그 테이블 순위를 긁어내고 여러 단계를 거쳐 AWS S3 버킷에 데이터를 업로드하는 것이다.
• 파이프라인은 웹 스크래핑이 허용되는지 확인하고 스크래핑 봇을 사용하여 데이터를 추출하고 데이터를 변환하여 AWS S3에 로드하는 것을 포함한다. 데이터 계약은 데이터가 데이터 소비자의 기대에 부합하도록 하기 위해 활용된다.
• 데이터 출처는 프리미어리그 홈페이지이며, 셀레늄을 사용하여 데이터를 스크래핑한다. 데이터 계약은 추출 및 변환된 데이터에 대한 예상 스키마 및 데이터 품질 검사를 정의하는 데 사용된다.
• 파이프라인은 파이썬과 소다, 보토3, 판다, 요청 등 다양한 라이브러리를 사용하여 구현된다. 코드는 모듈로 구성되며 명확한 구조를 따릅니다.
• 결과는 데이터가 성공적으로 스크래핑, 변환 및 AWS S3에 로드됨을 보여준다. 파이프라인은 데이터 거버넌스를 개선하고 데이터 품질을 보장하는 데 데이터 계약을 사용하는 이점을 보여준다.
• 이 기사는 또한 웹사이트의 서비스 조건을 존중하는 것의 중요성과 추가 도구와 고려 사항이 있는 생산 환경에서 데이터 계약을 사용할 수 있는 가능성에 대해 논의한다.
https://levelup.gitconnected.com/create-a-web-scraping-pipeline-with-python-using-data-contracts-281a30440442
'파이썬 스크립트' 카테고리의 다른 글
웹 스크래핑 기법... 인터넷 펌 (35) | 2024.05.11 |
---|---|
안드로이드 앱 만들기 : 한국말 하는 앱 만들기 (gemini api 호출해 보기) (41) | 2024.05.06 |
웹 스크래핑에도 GEMINI AI 을 도입해 보기 (31) | 2024.03.14 |
Easy Python Installer for Raspberry Pi & Ubuntu 한 줄로 ? (70) | 2024.02.21 |
파이썬 스크립트 (feat GEMINI API) 번역기로 사용해 볼까요? (69) | 2024.02.14 |