2025/11 4

데이터 처리 파이프라인 프로젝트(1)

팀원과 함께 클라우드상에서 데이터 파이프라인 프로젝트를 진행하면서 발생한 문제에 대해 정리를 해볼려고 함해당 그림은 아키텍처의 일부임 해당 아키텍처에 대해 먼저 알아보면, 공공데이터에 있는 데이터를 가져와야 할거임공공데이터는 실시간으로 업데이트 되는 것이 아니라 가끔식 업데이트를 진행하기에 Cron job을 수행하는 EventBridge를 통해 배치 작업을 수행하도록 설계를 하였음 S3를 스토리지로 사용하면, Raw 영역과, Glue를 통해 필터링을 수행한 영역으로 구분하였음Glue를 통해 필터링을 수행하였을때 오류가 발생하거나 잘못 처리한 데이터들이 저장되었을때 이를 복구하기 위해서 Raw 데이터 영역이 필요하게 됨 RAW 버킷에는 API에서 가져온 원본(예: 복잡한 JSON, XML)이 그대로 저장되..

데이터/복기 2025.11.10

메타데이터 계층 아키텍처(2)

메타데이터 계층 구현 옵션메타데이터를 어떻게 구현하는지 알아보자메타데이터 계층으로 도입할 표준 오픈 소스나, 제품은 없다고 함가장 간단한 구조, 조금 복잡한 구조, 아주 복잡한 구조 차례대로 메타 계층 구조를 알아보자 설정 파일의 모음인 메타데이터 계층메타데이터는 파이프라인 설정을 위한 데이터와, 파이프라인에서 실행되는 처리 내역 정보를 수집하는 처리 내역도 포함함설정 파일 방식을 활용해서 메타데이터를 구현하는 것이 가장 간단한 방법임즉, 네임스페이스, 파이프라인, 데이터 소스, 목적지, 데이터 품질 검사 정보를 별도의 설정 파일로 관리하도록 함 (스키마 레지스트리는 뒤에서 구현 방법을 배움)이런 구현은 json, yaml을 사용하거나, 각 기업에 맞는 포맷을 사용하면 됨 설정 파일을 클라우드 로그 집..

메타데이터 계층 아키텍처(1)

메타데이터 의미다른 데이터에 대한 정보를 제공하고 설명하는 데이터의 집합데이터 플랫폼에는 두 가지 유형의 메타데이터가 있음비즈니스 메타데이터데이터 플랫폼 내부 메타데이터(=파이프라인 메타데이터)비즈니스 메타데이터말 그대로 비즈니스 메타데이터데이터의 발생 조직(sales,HR...), 데이터의 소유자, 생성 일자 및 시간, 파일 크기... 등을 설명하는 정보 또는 태그(tag)메타데이터는 데이터 자체에는 존재하지 않는 데이터이기에 파일 병합을 수행할 때 중요하게 고려해야 함 즉, 비즈니스 메타데이터의 주요 역할은 최종 사용자에게 데이터 검색을 용이하게 하는 것임 이런 솔루션들을 제공하는 툴들로 aws glue, alation 등이 있음... 파이프라인 메타데이터(데이터 플랫폼 내부 메타데이터)각 파이프라인..

공통 데이터 처리 단계

파일 포맷 변환, 데이터 중복 제거, 데이터 품질 검사에 대해 알아볼거임데이터의 포맷은 JSON, CSV, XML, 사용자 정의 바이너리 포맷 등..으로 다양함 데이터 레이크의 핵심은 데잍터를 다양한 포맷으로 저장하고 액세스할 수 있기에,전통적인 데이터 레이크는 스토리 계층에 포맷 변경 없이 데이터를 그대로 저장함하지만, 이런 방식은 데이터 변환 작업이나, 처리를 수행하는 파이프라인의 업무를 증가시킴 그렇기에 현대 데이터 플랫폼 설계는 더 조직적이고, 구조화된 방식을 제안하고 있음데이터를 원본 포맷으로 유지하고, 아카이브 영역에 저장하는 것은 같지만,수신 데이터에 수행하는 첫 번째 변환 중 하나로 데이터를 단일 통합 파일 포맷으로 변환함여기에서는 두 가지 다른 파일 포맷을 사용함1. 스테이징 영역에서는 ..