자격증 분류
NCE 자격증 이론정리 69편- Analytics 분야 -Spark Dataframe 핵심요약
작성자 정보
- 관리자 작성
- 작성일
컨텐츠 정보
- 1,254 조회
- 0 추천
- 목록
본문
Spark Dataframe 핵심요약
-RDD의 4가지 한계를 극복하기 위해 Dataframe 탄생
첫째, RDD는 메모리나 디스크에 저장 공간이 충분치 않으면 제대로 동작하지 않음
둘째, RDD는 스키마(데이터베이스 구조) 개념이 별도로 없음
셋째, 구조화된 데이터와 비구조화 데이터를 함께 저장하여 효율성이 떨어짐
넷째, RDD는 기본적으로 직렬화(데이터를 배포하거나 디스크에 데이터를 기록할 때마다 JAVA 직렬화 사용)와 Garbage Collection(사용하지 않는 객체를 자동으로 메모리에서 해제)을 사용하는데, 이 때 메모리 오버헤드가 증가함
-변경불가능(immutable) 객체
-구조화된 (structured) 데이터 구조 : 행과 열로 구조화되어 있는 데이터로 스키마를 표현할 수 있는 RDD의 확장 구조체
-GC(Gabage Collection)오버헤드 감소 : RDD는 데이터를 메모리에 저장하지만, Dataframe은 데이터를 오프-힙(gc의 영향을 받지않는, 디스크가 아닌 RAM영역)영역에 저장함. Gabage Collection의 오버헤드를 감소
-Hive 등장하기 시작하면서 대용량데이터를 SQL로 처리가 상대적으로 쉬워짐
-RDD에서 Dataframe으로 넘어오면서 SQL로 넘어가는 추세
-andas의 dataframe보다 SQL과 유사한 Dataframe
"무단배포금지: 클라우드포털(www.linux.co.kr)의 모든 강좌는 저작권에 의해 보호되는 콘텐츠입니다. 무단으로 복제하여 배포하는 행위는 금지되어 있습니다."
관련자료
-
이전
-
다음
댓글 0
등록된 댓글이 없습니다.