본문 바로가기

스파크

Spark 2.2.0 Programming Guide Overview 모든 스파크 어플리케이션은 유저의 main function 실행하는것과 클러스터상에서 다양한 병렬처리를하는 driver program으로 구성되어 있다. Spark에서 제공하는 main abstraction은 resilient distributed dataset(RDD)인데, RDD는 클러스터의 노드에서 파티션된 인자(element)의 콜렉션인데, 이것들은 병렬 처리가 가능하다. RDDs는 Hadoop file system(또는 하둡이 지원하는 다른 파일 시스템)또는 현재 diver program에서 Scala collection 과 함께 생성되고 변형시킨다. 유저들은 메모리에서 RDD가 유지하도록 요청하여, 병렬작업에서 효율적으로 재사용된다. 끝으로 RDDs는 노드에서 실패(node f.. 더보기
Spark 2.2.0 Quick Start Quick Start 이 튜토리얼은 빠르게 스파크를 사용하는 방법을 제공한다. 먼저 스파크 대화형(interactive) 쉘(파이썬 또는 스칼라로)을 통해 API를 소개하고, 어플리케이션을 어떻게 Java, Scala, Python으로 쓰는지를 보여줄 것이다. 이 가이드를 따라하려면, 먼저 Spark website 에서 스파크가 패키징되어있는것을 다운받아라. 여기서는 HDFS를 사용하지않겠지만, 릴리즈된 하둡 버전을 다운받을 수 있다. Spark 2.0 이전에는 스파크의 메인프로그래밍 인터페이스(main programming interface)가 RDD(Resilient Distributed Dataset)였다. 스파크 2.0 이후에는, RDDs는 강력하게 형상화된 데이터셋으로 변경되었지만, 후드 아래에.. 더보기
Spark 실행옵션 옵션 설명 --master MASTER_URL 클러스터 실행 모드에서의 마스터 정보. 'spark://host:port', 'mesos://host:port', 'yarn', 또는 'local' 중 한 형태로 설정 --deploy-mode DEPLOY_MODE드라이버 프로그램을 로컬 컴퓨터(메인 클래스를 실행한 컴퓨터를 의미하며, 일반적으로 클러스터에 포함되지 않음)에서 실행(클라이언트 방식)할 것인지 클러스터 내 서버중 한 대에서 실행(클러스터 방식)할 것인지에 대한 설정(기본값은 클라이언트 방식) --class CLASS_NAME애플리케이션 메인 클래스(예:자바 및 스칼라) --jars JARS드라이버와 익스큐터(executor)의 클래스패스에 등록될 jar 파일 목록. 여러 개일 경우 콤마(,)로 .. 더보기
[Spark] Spark Streaming - A QUICK Example 에서 에러 Spark Streaming 문서를 읽어보던 도중 초반부에 있는 quick example에서 에러가 발생하였다. 삽입한 코드는 아래의 내용과 같다. import org.apache.spark._ import org.apache.spark.streaming._ import org.apache.spark.streaming.StreamingContext._ // not necessary since Spark 1.3 // Create a local StreamingContext with two working thread and batch interval of 1 second. // The master requires 2 cores to prevent from a starvation scenario. val co.. 더보기