Phase 2: Advancement

📈 데이터 파이프라인 최적화 및 분석 구축

MVP 이후, Parquet 변환 및 Amazon Athena를 활용한 빅데이터 분석 아키텍처 명세서

데이터 분석 파이프라인 흐름도 (ETL & Query)

Phase 1 Data

Raw Data (S3)

inhatc-team2-5-raw-data

JSON 포맷 (비정형)

ETL / Automation

AWS Glue (or Lambda)

JSON → Parquet 변환

압축 및 정제 자동화

Optimized Storage

Parquet Data (S3)

inhatc-team2-4-parquet-data

Amazon Athena

표준 SQL 쿼리 분석

Data Analysis (Phase 2)

데이터 레이크 구축 및 BI(Business Intelligence) 기반 마련

정제된 데이터 저장소 (S3 Bucket)

inhatc-team2-4-parquet-data

Amazon S3 AWS Glue AWS Lambda (선택) Amazon Athena

1

타겟 S3 버킷 생성 압축 효율과 쿼리 성능이 높은 Parquet 데이터를 저장하기 위해 본인의 식별자가 포함된 inhatc-team2-4-parquet-data 버킷을 생성합니다.
2

Parquet 변환 파이프라인 구축 AWS Glue (또는 S3 Event Trigger 기반 Lambda)를 사용하여 team2-5-raw-data(JSON)에 데이터가 들어오면 이를 컬럼형 포맷인 Parquet으로 변환하여 새 버킷에 적재하도록 자동화합니다.
3

데이터 카탈로그화 (Glue Crawler) 저장된 Parquet 데이터의 스키마(테이블 구조)를 자동으로 추론하고 인식하기 위해 AWS Glue Crawler를 구성하고 실행하여 Athena에서 읽을 수 있는 Data Catalog를 생성합니다.
4

Athena 기반 분석 쿼리 작성 Amazon Athena에서 표준 SQL 쿼리를 작성하여 날씨 변화 추이, 대기질 악화 빈도 등 인사이트를 도출하고 쿼리 실행 속도 및 스캔 용량(비용)이 JSON 대비 얼마나 절감되었는지 검증합니다.