Phase 2: Advancement

📈 데이터 파이프라인 최적화 및 분석 구축

MVP 이후, Parquet 변환 및 Amazon Athena를 활용한 빅데이터 분석 아키텍처 명세서

데이터 분석 파이프라인 흐름도 (ETL & Query)

Phase 1 Data
Raw Data (S3)
inhatc-team2-5-raw-data
JSON 포맷 (비정형)
ETL / Automation
AWS Glue (or Lambda)
JSON → Parquet 변환
압축 및 정제 자동화
Optimized Storage
Parquet Data (S3)
inhatc-team2-4-parquet-data
Amazon Athena
표준 SQL 쿼리 분석
Data Analysis (Phase 2)

👩‍💻 박근령 (inhatc-team2-4)

데이터 레이크 구축 및 BI(Business Intelligence) 기반 마련

할당된 주요 리소스

정제된 데이터 저장소 (S3 Bucket)
inhatc-team2-4-parquet-data

활용할 AWS 서비스

Amazon S3 AWS Glue AWS Lambda (선택) Amazon Athena

실무 수행 리스트 (To-Do)

  • 1
    타겟 S3 버킷 생성 압축 효율과 쿼리 성능이 높은 Parquet 데이터를 저장하기 위해 본인의 식별자가 포함된 inhatc-team2-4-parquet-data 버킷을 생성합니다.
  • 2
    Parquet 변환 파이프라인 구축 AWS Glue (또는 S3 Event Trigger 기반 Lambda)를 사용하여 team2-5-raw-data(JSON)에 데이터가 들어오면 이를 컬럼형 포맷인 Parquet으로 변환하여 새 버킷에 적재하도록 자동화합니다.
  • 3
    데이터 카탈로그화 (Glue Crawler) 저장된 Parquet 데이터의 스키마(테이블 구조)를 자동으로 추론하고 인식하기 위해 AWS Glue Crawler를 구성하고 실행하여 Athena에서 읽을 수 있는 Data Catalog를 생성합니다.
  • 4
    Athena 기반 분석 쿼리 작성 Amazon Athena에서 표준 SQL 쿼리를 작성하여 날씨 변화 추이, 대기질 악화 빈도 등 인사이트를 도출하고 쿼리 실행 속도 및 스캔 용량(비용)이 JSON 대비 얼마나 절감되었는지 검증합니다.
문서 포털로 돌아가기