mini_cloud

  • 홈
  • 태그
  • 방명록

2025/11/02 1

공통 데이터 처리 단계

파일 포맷 변환, 데이터 중복 제거, 데이터 품질 검사에 대해 알아볼거임데이터의 포맷은 JSON, CSV, XML, 사용자 정의 바이너리 포맷 등..으로 다양함 데이터 레이크의 핵심은 데잍터를 다양한 포맷으로 저장하고 액세스할 수 있기에,전통적인 데이터 레이크는 스토리 계층에 포맷 변경 없이 데이터를 그대로 저장함하지만, 이런 방식은 데이터 변환 작업이나, 처리를 수행하는 파이프라인의 업무를 증가시킴 그렇기에 현대 데이터 플랫폼 설계는 더 조직적이고, 구조화된 방식을 제안하고 있음데이터를 원본 포맷으로 유지하고, 아카이브 영역에 저장하는 것은 같지만,수신 데이터에 수행하는 첫 번째 변환 중 하나로 데이터를 단일 통합 파일 포맷으로 변환함여기에서는 두 가지 다른 파일 포맷을 사용함1. 스테이징 영역에서는 ..

데이터/아키텍처 2025.11.02
이전
1
다음
더보기
프로필사진

mini_cloud

  • 분류 전체보기 (39)
    • 데이터 (16)
      • 아키텍처 (7)
      • RDBMS (0)
      • Airflow (5)
      • 복기 (4)
    • 클라우드 (20)
      • AWS (1)
      • OpenStack (13)
      • Docker & Kubernetes (6)
    • Distributed System (2)
    • 기타 백엔드 공부 (0)
    • Git (0)
    • 자료구조,알고리즘 (0)
      • leetcode (0)
      • 백준 알고리즘 (0)
      • 자료구조 정리 (0)
    • 기타 공부 (1)
      • 자바 (0)
      • 파이썬 (1)

Tag

e,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/11   »
일 월 화 수 목 금 토
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30

방문자수Total

  • Today :
  • Yesterday :

Copyright © AXZ Corp. All rights reserved.

티스토리툴바