Apache Spark 설치하기

2014. 12. 20. 14:05 from Cloud/Hadoop

apache spark


1. Introduction

Apache Spark™ is a fast and general engine for large-scale data processing.

2. Install

2.1. 다운로드

# Master development branch
git clone git://github.com/apache/spark.git

# 1.1 maintenance branch with stability fixes on top of Spark 1.2.0
git clone git://github.com/apache/spark.git -b branch-1.2

2.2. Spark 빌드

$ export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
$ mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.5.1 -DskipTests clean package
-Phadoop 옵션을2.4로 하는 이유는, 해당 옵션을 2.5.1로 설정하여 빌드하면, 
  Spark에서 Hadopo 2.5.1에 해당하는 Profile이 없다는 다음과 같은 메시지를 출력한다.

[WARNING] The requested profile "hadoop-2.5" could not be activated because it does not exist.

3. Hadoop과의 연결

3.1. Spark 설정

${SPARK_HOME}/conf/spark-env.sh.template 을 복사하여 같은 경로에 spark-env.sh 파일을 생성합니다.
파일을 열고, 다음 변수를 추가합니다.

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

3.2. yarn-client와 연결

다음 명령어가 정상적으로 수행되는지 확인합니다.
단, 수행하기 이전에 Hadoop 2.5.1 과 Yarn이 정상적으로 수행되고 있어야합니다.

$ ${SPARK_HOME}/bin/spark-shell --master yarn-client

scala>

참고 :

- Building Spark

- Spark 1.1.0 설치, Hadoop 2.5.1과의 연동


'Cloud > Hadoop' 카테고리의 다른 글

Apache Spark 설치하기  (2) 2014.12.20
Apache Sqoop - Introduction  (0) 2014.12.20
Apache Oozie Installation on Hadoop 2  (0) 2014.11.25
Apache Kafka Introduction  (0) 2014.01.03
Apache HBase 설치하기  (0) 2013.12.18
Apache Hive 설치하기  (0) 2013.12.18
Posted by 신공표 트랙백 0 : 댓글 2

댓글을 달아 주세요

  1. addr | edit/del | reply Wurzeln 2016.01.14 22:44 신고

    안녕하세요. 구글링으로 검색해서 들어오게 됬네요..^^ 혹시 Spark 설치하고, build 할 때 profile 이 없다는 오류가 저도 발생하는데, 구체적으로 어떻게 해결하셨나요? 글에 적어주신대로 하니까 바로 build 가 되었나요? 따로 hadoop path 같은건 설정 해 주신 것이 없는지 궁금합니다.

  2. addr | edit/del | reply 신공표 2016.01.30 08:39 신고

    관리를 잘 안하다 보니 질문이 있는지 몰랐습니다.

    하둡과 버전 호환성때문에 나는 오류로 파악하고 있습니다.
    위 방법으로 빌드가 되었습니다.
    다른 버전과의 조합에 대해서는 확실한 답을 드리지 못하겠습니다.

    경로에 대한 부분은 위 설명중에도 언급이 되어 있습니다.