spark programming guide 썸네일형 리스트형 Spark 2.2.0 Programming Guide Overview 모든 스파크 어플리케이션은 유저의 main function 실행하는것과 클러스터상에서 다양한 병렬처리를하는 driver program으로 구성되어 있다. Spark에서 제공하는 main abstraction은 resilient distributed dataset(RDD)인데, RDD는 클러스터의 노드에서 파티션된 인자(element)의 콜렉션인데, 이것들은 병렬 처리가 가능하다. RDDs는 Hadoop file system(또는 하둡이 지원하는 다른 파일 시스템)또는 현재 diver program에서 Scala collection 과 함께 생성되고 변형시킨다. 유저들은 메모리에서 RDD가 유지하도록 요청하여, 병렬작업에서 효율적으로 재사용된다. 끝으로 RDDs는 노드에서 실패(node f.. 더보기 이전 1 다음