web-dev-qa-db-fra.com

À quoi définir `SPARK_HOME`?

Apache-maven-3.3.3 installé, scala 2.11.6, puis exécuté:

$ git clone git://github.com/Apache/spark.git -b branch-1.4
$ cd spark
$ build/mvn -DskipTests clean package

Finalement:

$ git clone https://github.com/Apache/incubator-zeppelin
$ cd incubator-zeppelin/
$ mvn install -DskipTests

Puis a exécuté le serveur:

$ bin/zeppelin-daemon.sh start

Exécution d'un simple bloc-notes commençant par %pyspark, J'ai une erreur à propos de py4j introuvable. Juste fait pip install py4j ( ref ).

Maintenant, je reçois cette erreur:

pyspark is not responding Traceback (most recent call last):
  File "/tmp/zeppelin_pyspark.py", line 22, in <module>
    from pyspark.conf import SparkConf
ImportError: No module named pyspark.conf

J'ai essayé de régler mon SPARK_HOME à: /spark/python:/spark/python/lib. Pas de changement.

21
A T

Deux variables d'environnement sont requises:

SPARK_HOME=/spark
PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-VERSION-src.Zip:$PYTHONPATH
29
ChromeHearts