(Cloud) AWS > AWS 기반 데이터 분석 환경 - "Amazon Redshift" review

Amazon Redshift

AWS 의 가장 빠르고 가장 널리 사용되는 "클라우드 데이터 웨어하우스에서 모든 데이터 분석" 을 주제로, 잠시 시간이 되어 AWS 기반 데이터 분석에 대한 강의를 들을 기회가 있었습니다.


AWS 는 자신들의 여러 비지니스 모델 중 하나로, 각 기업의 온프레미스 데이터 웨어하우스를 Amazon Redshift 로 마이그레이션 하는 것을 목표로 하는 것으로 보입니다.


문득, 개인 적으로 드는 생각은 어느 정도의 범위 또는 수준 까지 가능 할지 가 궁금해집니다.

각 기업들이 보유한 데이터 중 데이터 분석 효과가 크고 중요한 즉 보안 유지가 필요한 데이터를 "Cloud 데이터 웨어하우스" 로 구축 하고 일상화 하는데 얼마 만큼의 시간이 걸릴게 될지..  (아마도 의사 결정을 누군가는 내려야겠지만.. 누가? risk 를 감내할 만큼 효과가 있을 까요? 쉽지 않은 결정이라 생각 합니다.)


이러한 의구심을 뒤로 하고, 혹시 모를 미래를 준비하기 위해 강의 내용을 정리 해 보고자 합니다.


  • 목 표 : AWS 기반 데이터 분석     
  • 목 차
    • 분석 Trend
    • 예시
    • 어려움
    • 완전 관리 형
    • 서버 리스 형
    • 분석 용 데이터 저장
    • 초기 분석 아키텍처 
  • 내 용 (주요 사항)
    • 분석 Trend
      • 증가하는 데이터 량
      • 복잡해진 데이터 요구 사항
      • 발전하는 데이터 분석 기술의 발전
        • Hadoop, Elasticsearch, Presto, Spark
        • 최근에는 ML 관련 플랫폼도 많이 이용되는 추세

    • 데이터 분석 예시
      • insight 도출 , business 의사 결정  : 신규 사업 분석, 보안 분석 등

    • 어려움
      • 제약 사항 : 인원, 시간, 비용, 배움의 어려움
      • 학습,설치, Poc, 운영 모두가 비용
      • 적절한 서비스 선택과 아키텍처
      • 데이터를 하나로 모으는 게 어려움
      • 제약 사항을 극복하기 위해: 비용 효율, 더 빠르게, 핵심 비지니스에 접근, 낮은 위험에서 더 자주 실험 

    • 완전 관리 형 서비스 (AWS Managed Service)
      • 설치 구축 운영 성능 튜닝은 기본으로 제공
      • 직접 서버에 설치해서 운영하지 않아도 되는 완전 관리 형 분석 서비스 들
        • Amazon EMR : AWS 에서 Spark ,Hadoop, Hive, Presto, HBase 및 기타 빅 데이터 앱을 쉽게 실행
        • Amazon Redshift : 최초이자 가장 인기 있는 클라우드 데이터 웨어 하우스
          • 데이터 레이트 & AWS 통합
          • 무제하나 동시 액세스를 충족하기 위해 온-디맨드 무제한 컴퓨팅 용량 초과
        • Apache Kafka :안전한 완전 관리 형 고가용성  서비스
          • 실시간 스트리밍 처리
        • 운영 분석
          • 안전한 완전 관리 형 고가용성  Elasticsearch 서비스

    • 서버 리스 형
      • 관리 자동화를 넘어 SQL 이나 분석 스크립트만 돌림
      • 빠르게 가성비 최고의 분석 솔루션 구축 가능, 작게 시작
      • 인프라 구축 및 운영이 필요 없음
      • 기본 구성
        • Glue 
          • 다양한 방식으로 동일 데이터 분석
          • 크롤러를 사용하여 데이터 스키마를 분석
          • 식별자를 통하여 테이블 정의를 glue 데이터 카탈로그에 작성
          • 실제 데이터 저장소에 연결
          • 스키마 추론
          • 로딩 작업 생성
          • 작업을 실행 변환/전송 처리
          • 모니터링
        • S3 : 확장 가능한 저장소
        • Kinesis : 실시간 데이터 및 비디오 스크림을 쉽게 수집, 
        • Anthena : 서버 운영 없이 데이터 카탈로그 기반으로 기본 SQL과 같은 경험
          • DDL을 사용한 Create External Table
        • Amazon QuickSight

    • 분석 용 데이터 저장
      • 쉽게 저장되고 안전하며 통합 되어 관리 되기 위해 S3에 모을 필요가 있다.
        • 무한 확장 가능, 오브젝트 기반 소트로지, 전송중/암호화 지원
      • 예로, 각각의 매출, 장바구니 사용자 별로 데이터를 모아 분석하는 방식에서 한 곳으로 모아 놓은 후 분석
      • 일반적인 데이터 레이크 아키텍처
        • 확장 가능한 데이터 레이ㅣ크
        • 목적에 맞게 구축 된 데이터 서비스
        • 원활한 데이터 이동
        • 통합 거버넌스
        • 성능과 비용 효율성 



    • 초기 분석 아키텍처 
      • AUQA - Advanced Query Accelerator 
        • S3 기반의 새로운 분산형 하드웨어 가속 처리 Layer , 여러 노드에서 병렬로 데이터 처리 가능
      • Redshift Data Sharing
        • 실시간으로 일관된 데이터를 공유하는 간단하고 직접적인 방법
        • 개별 클러스터 구성을 설정 하여 성능, 비용을 최적화
      • Redshift Machine Learning (ML)
      • EMR on Amazon EKS
        • EKS 에서 Apache spark job 실행



ref : 














Comments

Popular posts from this blog

[MaritimeCyberTrend] Relationship and prospects between U.S. Chinese maritime operations and maritime cybersecurity

인공지능 서비스 - 챗봇, 사전에 충분한 지식을 전달하고 함께 학습 하기!

[Curriculum] Sungkyunkwan University - Department of Information Security - Course Sequence by Areas of Interest