본문 바로가기

Infrastructure/Certificate

[DOP] Other Services

Other Services

  • 이번 장에서는 DevOps Engineer Professional (DOP) 을 준비하며 "기타 AWS 서비스들"에 대해서 알아보도록 한다.

AWS Tag Editor

  • 여러 리소스의 태그를 한 번에 관리할 수 있다.
  • 태그 추가/업데이트/삭제가 가능하다.
  • 모든 AWS 리전에서 태그를 지정하거나 태그가 지정되지 않은 리소스를 검색할 수 있다.


Amazon QuickSight

  • 대화형 대시보드를 만들기 위한 서버리스 머신러닝 기반의 BI(Business Intelligence) 서비스다.
  • 세션별 가격 정책을 통해 빠르고 자동으로 확장 가능하며 내장 가능하다.
  • 비즈니스 분석, 빌딩 시각화, 임시 분석 수행, 데이터를 사용하여 BI 확보 등에 사용된다.
  • RDS, Aurora, Athena, Redshift, S3 등과 통합된다.
  • QuickSight로 데이터를 가져오는 경우 SPICE 엔진을 사용한 인메모리 계산을 제공한다.
  • 엔터프라이즈 에디션의 경우 CLS (Column-Level Security)를 설정할 수 있다.

Integration

  • QuickSight는 수많은 데이터 소스와 통합될 수 있다.
  • AWS Service
    • RDS, Aurora, Redshift, Athena, S3, OpenSearch, Timestream
  • SaaS
    • salesforce, Jira
  • 3rd Party
    • teradata
  • 기타
    • 온프레미스 데이터베이스(JDBC), XLSX, CSV, JSON, .TSV, TLF, CLF

Dashboard & Analysis

  • 사용자(표준 버전) 및 그룹(엔터프라이즈 버전) 정의
    • 이러한 사용자 및 그룹은 QuickSight 내에만 존재하며 IAM과는 다르다.
  • Dashboard
    • 공유할 수 있는 분석물의 읽기 전용 스냅샷이다.
    • 분석물의 구성(filtering, 파라미터, 컨트롤, 정렬)을 보존한다.
  • 분석 또는 대시보드를 사용자 또는 그룹과 공유할 수 있다.
  • 대시보드를 공유하려면 먼저 게시해야 한다.
  • 대시보드를 보는 사용자도 기본 데이터를 볼 수 있다.

AWS Glue

  • 추출(Extract), 변형(Transform), 적재(Load) 즉, ETL을 담당하는 서비스다.
  • 분석을 위한 데이터 준비 및 변환에 유용하게 사용된다.
  • 완전한 서버리스 서비스다.

  • S3 버킷이나 RDS에서 Glue를 사용하여 데이터를 추출할 수 있다.
  • Glue에서 데이터를 변환하여 목적지인 Redshift에 적재하도록 구축할 수 있다.
  • 아래의 이미지와 같이 CSV 형식의 데이터를 Parquet 형식의 데이터로 변환하여 "Amazon Athena"를 사용하여 분석할 수 있다.
    • Parquet 형식은 열 기반 데이터 형식이기 때문에 Athena와 같은 서비스와 사용하기 좋다.
    • 예를 들어, S3 버킷에 삽입 작업을 하고 있고, 파일의 형식들은 CSV 형식이다.
    • Glue ELT 서비스를 사용해 CSV를 임포트하고 Glue 서비스 내에서 이것을 Parquet 형식으로 변환할 수 있다.
    • S3 버킷에 파일을 삽입할 때마다 람다 함수에 이벤트 알림을 전송해 Glue ETL 작업을 트리거할 수 있다.
    • 람다 함수를 EventBridge로 대체할 수 있다.

  • 아래의 이미지와 같이 "AWS Glue Data Crawler"를 활용하여 메타데이터를 생성하고 Dataset의 카탈로그로 사용할 수 있다.
    • S3, RDS, DynamoDB나 온프레미스에서 실행되는 JDBC 호환가능한 데이터베이스와 호환된다.
    • Glue Data Crawler가 데이터베이스를 크롤링하면서 테이블, 열, 데이터 유형 등에 관한 모든 메타데이터를 Glue Data Catalog에 저장한다.
    • 전체 데이터베이스와 테이블 메타데이터를 확보하고 나면 Glue Jobs가 이를 활용해 ETL을 수행한다.
    • 뒷단에서 데이터 디스커버리와 스키마 디스커버리를 위해 Amazon Athena를 사용할 경우 Athena도 Glue Data Catalog를 활용한다.
    • Redshift Spectrum, EMR도 동일하게 작동한다.

High-level

  • Glue Job Bookmarks: 오래된 데이터를 다시 처리하지 못하도록 한다.
  • Glue Elastic Views:
    • SQL을 사용하여 여러 데이터 저장소에 걸쳐 데이터 결합 및 복제를 한다.
    • Custom 코드가 없고, Glue가 소스 데이터의 변경 사항을 모니터링 하며, 서버리스로 작동한다.
    • "가상 테이블"을 활용한다. (구체화된 보기)
  • Glue DataBrew: 사전 구축된 변환을 사용하여 데이터를 정리하고 정규화할 수 있다.
  • Glue Studio: Glue에서 ETL 작업을 생성, 실행 및 모니터링할 수 있는 GUI 서비스다.
  • Glue Streaming ETL (Apache Spark Structured Streaming 기반): "Kinesis Data Stream", "Kafka", "MSK(관리형 Kafka)"와 호환된다.

참고한 강의

'Infrastructure > Certificate' 카테고리의 다른 글

[SAP] 오답노트 1주차  (0) 2024.02.18
[DOP] 목차  (0) 2024.02.05
[DOP] Security & Compliance  (0) 2024.02.04
[DOP] Incident Event Response  (0) 2024.02.01
[DOP] Monitoring & Logging  (0) 2024.02.01