2025/06 3

Introduction to Openstack

Openstack은 데이터센터 전체에서 대규모 컴퓨팅 스토리지 및 네트워킹 리소스 풀을 제어하는 서비스형 인프라 플랫폼임모든 리소스는 대시보드를 통해 관리자가 제어하며, 동시에 사용자가 웹 인터페이스를 통해 리소스를 프로비저닝 할 수 있도록 권한을 부여함즉, 관리자와 사용자는 대시보드를 통해 오픈스택의 작업을 수행할 수 있음오픈스택은 public / private cloud를 위한 오픈소스 클라우드 컴퓨팅 플랫폼을 생산하도록 함확장성이 뛰어나고, 기능이 풍부함오픈스택은 데이터센터 내에 또는 여러 데이터센터에 걸친 hypervisor, storage 및 network device set을 모두 리소스 풀로 전환함즉, 여러 자원들을 하나로 묶어서 하나의 큰 resource pool 처럼 관리할 수 있게 해주..

Airflow 소개 & 환경구축

파이썬을 이용해 워크플로우를 만들고 관리할 수 있는 오픈소스 기반 워크플로우 관리 도구파이썬으로 구현하고 사용해야함하나의 워크플로우는 DAG (Directed Acyclic Graph)이라 부르며, DAG안에는 1개이상의 Task가 존재함DAG간 선후행 관계(순서)는 있고 방향성은 있지만 순환성은 없음Cron 기반의 스케줄링모니터링 및 실패 작업에 대한 재실행 기능이 간편특징 일단 도커를 실행 해볼거임Docker Demon을 가동 시켜줘야하는데Docker Demon은 Docker의 핵심 백그라운드 프로세스로, Docker에서 일어나는 모든 작업의 실질적인 관리자 역할을 수행함sudo docker run hello-world이 명령어를 통해 실행되고 있는 것을 확인할 수 있음 이제 Airflow를 설치해보..

데이터/Airflow 2025.06.28

Neo4j 그래프 DB 속도 향상

Neo4j 그래프 구축을 하는데 프로젝트를 진행했었다AWS에 구축된 Neo4j DB에 한번 업로드시 60만개 이상의 노드와 관계를 올려야 한다. 당연히 시간이 엄청 오래 걸린다...한번 업로드할때 4시간이가 5시간.. 걸렸던걸로 기억한다 (올리고 자고 다음날 확인하고..)이 업로드는 결국은 다했지만, 나중에 5월에 다녀온 AWS studnet Community day에서 Neo4j 관련 강연이 있었다내가 했던 일이라 당연히 관심이 생겨서 듣게 되었다... 강연자분은 그래프 전문가였다.. 다른거 안하고 오직 그래프만 연구하신던 분이었다.. 강연자분은 AWS S3에서 대용량 데이터를 가져와 Neo4j 그래프 DB를 구축할 때 처리한 경험을 소개해주었다강연의 주요 부분 중 하나를 정리해보았다.S3에 저장을 할..

데이터/복기 2025.06.27