NCE 자격증 이론정리 61편- Analytics 분야 - Cloud Hadoop의 핵심요약
작성자 정보
- 관리자 작성
- 작성일
컨텐츠 정보
- 1,307 조회
- 0 추천
- 목록
본문
Cloud Hadoop의 핵심요약
-빅데이터를 쉽고 빠르게 처리할
수 있는 오픈소스 기반의 분석서비스
-Cloud Hadoop도 완전
관리형 서비스
-분석에 필요한 성능만큼 컴퓨팅
노드확장/축소 가능
-용량 걱정없이 저장할 수 있는
Object Storage 사용
-다양한 프래임워크 지원 : Core Hadoop, Hbase, Spark등의 오픈소스 프레임워크 제공
-Hbase : 분산되고
확장 가능한 대용량 데이터 저장소
-Spark : 대규모
데이터 처리를 위한 통합 분석 엔진
-Hive : 데이터웨어하우스
소프트웨어는 SQL을 사용하여 분산스토리지에 있는 대규모 데이터 세트의 읽기, 쓰기 및 관리를 용이하게한다.
-Presto : 빅데이터
용 분산 SQL 쿼리엔진
*설치되는 프로그램들 시험출제 잘됨
-대규모 데이터를 효율적으로 분석하기
위해서는 데이터 분산관리저장소, 파일시스템, 데이터베이스, 네트워크, 데이터분석 및 시각화도구등 다양한 기술들이 필요
-아파치재단에서 관리하는 빅데이터
분산처리를 위한 대표오픈소스 프레임워크
-여러대의 컴퓨터를 하나로 묶어
대용량 데이터를 처리하는 기술
-분산저장(HDFS) : 빅데이터 파일을 여러대의 서버에 분산 저장하기 위한 파일시스템
-분산처리(MapReduce) : 각 서버에서 데이터를 분산 처리하는 분산병렬 처리를 위한 분석시스템
-HDFS와 MapReduce 프레임워크로 시작->데이터수집,저장,실행엔진,프로그래밍
및 데이터처리와 같은 다양한 서브프로젝트들이 점차 추가되면서 하둡 생태게(Hadoop Ecosystem)전반을
포함하는 의미로 확장, 발전
-따라서 그대로 사용하거나, 하둡전문 상용화 업체나 클라우드 업체를 통해서 사용가능
-Hadoop의 특징
. 오픈소스, 분산저장, 유연한 확장성, 내결함성
관련자료
-
이전
-
다음