팀원과 함께 클라우드상에서 데이터 파이프라인 프로젝트를 진행하면서 발생한 문제에 대해 정리를 해볼려고 함해당 그림은 아키텍처의 일부임 해당 아키텍처에 대해 먼저 알아보면, 공공데이터에 있는 데이터를 가져와야 할거임공공데이터는 실시간으로 업데이트 되는 것이 아니라 가끔식 업데이트를 진행하기에 Cron job을 수행하는 EventBridge를 통해 배치 작업을 수행하도록 설계를 하였음 S3를 스토리지로 사용하면, Raw 영역과, Glue를 통해 필터링을 수행한 영역으로 구분하였음Glue를 통해 필터링을 수행하였을때 오류가 발생하거나 잘못 처리한 데이터들이 저장되었을때 이를 복구하기 위해서 Raw 데이터 영역이 필요하게 됨 RAW 버킷에는 API에서 가져온 원본(예: 복잡한 JSON, XML)이 그대로 저장되..