mini_cloud

  • 홈
  • 태그
  • 방명록

2025/11/10 1

데이터 처리 파이프라인 프로젝트(1)

팀원과 함께 클라우드상에서 데이터 파이프라인 프로젝트를 진행하면서 발생한 문제에 대해 정리를 해볼려고 함해당 그림은 아키텍처의 일부임 해당 아키텍처에 대해 먼저 알아보면, 공공데이터에 있는 데이터를 가져와야 할거임공공데이터는 실시간으로 업데이트 되는 것이 아니라 가끔식 업데이트를 진행하기에 Cron job을 수행하는 EventBridge를 통해 배치 작업을 수행하도록 설계를 하였음 S3를 스토리지로 사용하면, Raw 영역과, Glue를 통해 필터링을 수행한 영역으로 구분하였음Glue를 통해 필터링을 수행하였을때 오류가 발생하거나 잘못 처리한 데이터들이 저장되었을때 이를 복구하기 위해서 Raw 데이터 영역이 필요하게 됨 RAW 버킷에는 API에서 가져온 원본(예: 복잡한 JSON, XML)이 그대로 저장되..

데이터/복기 2025.11.10
이전
1
다음
더보기
프로필사진

mini_cloud

  • 분류 전체보기 (39)
    • 데이터 (16)
      • 아키텍처 (7)
      • RDBMS (0)
      • Airflow (5)
      • 복기 (4)
    • 클라우드 (20)
      • AWS (1)
      • OpenStack (13)
      • Docker & Kubernetes (6)
    • Distributed System (2)
    • 기타 백엔드 공부 (0)
    • Git (0)
    • 자료구조,알고리즘 (0)
      • leetcode (0)
      • 백준 알고리즘 (0)
      • 자료구조 정리 (0)
    • 기타 공부 (1)
      • 자바 (0)
      • 파이썬 (1)

Tag

e,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/11   »
일 월 화 수 목 금 토
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30

방문자수Total

  • Today :
  • Yesterday :

Copyright © AXZ Corp. All rights reserved.

티스토리툴바