Spark 썸네일형 리스트형 Spark 2.2.0 Programming Guide Overview 모든 스파크 어플리케이션은 유저의 main function 실행하는것과 클러스터상에서 다양한 병렬처리를하는 driver program으로 구성되어 있다. Spark에서 제공하는 main abstraction은 resilient distributed dataset(RDD)인데, RDD는 클러스터의 노드에서 파티션된 인자(element)의 콜렉션인데, 이것들은 병렬 처리가 가능하다. RDDs는 Hadoop file system(또는 하둡이 지원하는 다른 파일 시스템)또는 현재 diver program에서 Scala collection 과 함께 생성되고 변형시킨다. 유저들은 메모리에서 RDD가 유지하도록 요청하여, 병렬작업에서 효율적으로 재사용된다. 끝으로 RDDs는 노드에서 실패(node f.. 더보기 Spark 실행옵션 옵션 설명 --master MASTER_URL 클러스터 실행 모드에서의 마스터 정보. 'spark://host:port', 'mesos://host:port', 'yarn', 또는 'local' 중 한 형태로 설정 --deploy-mode DEPLOY_MODE드라이버 프로그램을 로컬 컴퓨터(메인 클래스를 실행한 컴퓨터를 의미하며, 일반적으로 클러스터에 포함되지 않음)에서 실행(클라이언트 방식)할 것인지 클러스터 내 서버중 한 대에서 실행(클러스터 방식)할 것인지에 대한 설정(기본값은 클라이언트 방식) --class CLASS_NAME애플리케이션 메인 클래스(예:자바 및 스칼라) --jars JARS드라이버와 익스큐터(executor)의 클래스패스에 등록될 jar 파일 목록. 여러 개일 경우 콤마(,)로 .. 더보기 [Spark] Spark Streaming - A QUICK Example 에서 에러 Spark Streaming 문서를 읽어보던 도중 초반부에 있는 quick example에서 에러가 발생하였다. 삽입한 코드는 아래의 내용과 같다. import org.apache.spark._ import org.apache.spark.streaming._ import org.apache.spark.streaming.StreamingContext._ // not necessary since Spark 1.3 // Create a local StreamingContext with two working thread and batch interval of 1 second. // The master requires 2 cores to prevent from a starvation scenario. val co.. 더보기 이전 1 다음