Installer Apache Spark sur Ubuntu 14.04

Question

Au début, j'ai un VM auquel j'accède via Ubuntu, et ce VM est également Ubuntu 14.04. J'ai besoin d'installer Apache Spark dès que possible, mais je ne trouve rien qui puisse m'aider ou me donner des références qui expliquent le mieux. J'ai essayé une fois de l'installer sur ma machine locale Ubuntu 14.04 mais cela a échoué, mais le fait est que je ne veux pas l'installer sur un cluster.

karthik manchala · Accepted Answer

Vous pouvez installer et commencer à utiliser spark en trois étapes faciles:

Téléchargez la dernière version de Spark depuis ici.
Accédez au dossier téléchargé à partir du terminal et exécutez la commande suivante:
```
tar -xvf spark-x.x.x.tgz //replace x's with your version 
```

Accédez au dossier extrait et exécutez l'une des commandes suivantes:

./bin/spark-Shell // for interactive scala Shell ./bin/pyspark // for interactive python Shell

Vous êtes maintenant prêt à jouer avec spark.

prabeesh · Answer

Le processus à suivre est principalement le suivant:

Assurez-vous que la version 7 ou 8 de Java Development Kit est installée.

Dans l'étape suivante, installez Scala.

Et puis ajoutez ce qui suit à la fin du fichier ~/.bashrc

export SCALA_HOME=<path to Scala home> export PATH=$SCALA_HOME/bin:$PATH

redémarrer bashrc.

$ . .bashrc

Dans l'étape suivante, installez git. La construction d'étincelles dépend de git.

Sudo apt-get install git

Enfin, téléchargez la distribution d’étincelles de ici

$ wget http://d3kbcqa49mib13.cloudfront.net/spark-1.4.0.tgz $ tar xvf spark-1.4.0.tgz

Bâtiment

SBT (Simple Build Tool) est utilisé pour construire Spark, qui est fourni avec. Compiler le code

$ cd spark-1.4.0 $ build/sbt Assembly

Construire prend du temps.

Référez-vous à ce billet de blog , ici vous pouvez trouver des étapes plus détaillées pour installer Apache Spark sur Ubuntu-14.04

Abir J. · Answer

Ce message explique les étapes détaillées pour configurer Apache Spark-2.0 sur une machine Ubuntu/Linux. Pour exécuter Spark sur une machine Ubuntu, Java et Scala doivent être installés. Spark peut être installé avec ou sans Hadoop. Dans cet article, nous ne traiterons que de l’installation de Spark 2.0 Standalone. L'installation de Spark-2.0 sur Hadoop est expliquée dans un autre article. Nous verrons également comment installer des blocs-notes Jupyter pour exécuter des applications Spark avec Python avec le module pyspark . Commençons par vérifier et installer Java et scala.

$ scala -version $ Java –version

Ces commandes devraient vous imprimer les versions si scala et Java sont déjà installés, sinon vous pouvez les installer à l’aide des commandes suivantes.

$ Sudo apt-get update $ Sudo apt-get install Oracle-Java8-installer $ wget http://www.scala-lang.org/files/archive/scala-2.10.4.tgz $ Sudo mkdir /usr/local/src/scala $ Sudo tar xvf scala-2.10.4.tgz -C /usr/local/scala/

Vous pouvez à nouveau vérifier, à l'aide des commandes –version, si Java et scala sont installés correctement et afficheront – Scala code runner version 2.10.4 - Copyright 2002-2013, LAMP/EPFL et pour Java, il convient de l'afficher Java version "1.8.0_101" Environnement d'exécution Java SE (version 1.8.0_101-b13) Serveur 64 bits Java HotSpot (TM) VM (version 25.101-b14, mode mixte) Et mettez à jour le fichier .bashrc en ajoutant ces lignes à la fin.

export SCALA_HOME=/usr/local/scala/scala-2.10.4 export PATH=$SCALA_HOME/bin:$PATH

Et redémarrez bashrc en utilisant cette commande

$ . .bashrc

Installation de Spark Commencez par télécharger Spark à partir de https://spark.Apache.org/downloads.html en utilisant ces options Spark Realease: 2.0.0 Type de package: préconfiguré avec Hadoop 2.7 et Direct Télécharger.

Maintenant, allez à $ HOME/Downloads et utilisez la commande suivante pour extraire le fichier spark et le déplacer vers l’emplacement donné.

$ `tar xvf spark-1.3.1-bin-hadoop2.6.tgz` $ `cd $HOME/Downloads/` $ mv spark-2.0.0-bin-hadoop2.7 /usr/local/spark

Ajoutez la ligne suivante au fichier ~/.bashrc. Cela signifie qu’il faut ajouter l’emplacement où se trouvent les fichiers du logiciel spark à la variable PATH.

export SPARK_HOME=/usr/local/spark export PATH =$SPARK_HOME/bin:$PATH

Relancez à nouveau l’environnement .bashrc en utilisant ces commandes source ~/.bashrc ou

. .bashrc

Maintenant, vous pouvez démarrer spark-Shell en utilisant ces commandes

$spark-Shell for starting scala API $ pyspark for starting Python API

JPerk · Answer

Je l'ai fait fonctionner en créant un projet Maven, puis j'ai inséré la dépendance de spark dans le fichier pom.xml. C’est ainsi que cela a fonctionné pour moi, car je devais programmer avec Java et non avec Scala.

Holden · Answer

Vous pouvez commencer par aller à http://spark.Apache.org/downloads.html pour télécharger Apache Spark. Si vous n'avez pas de cluster/d'installation Hadoop existant que vous devez exécuter, vous pouvez sélectionner l'une des options. Cela vous donnera un fichier .tgz que vous pouvez extraire avec tar -xvf [filename]. À partir de là, vous pouvez lancer spark Shell et démarrer en mode local. Vous trouverez plus d'informations dans le guide de démarrage à l'adresse http://spark.Apache.org/docs/latest/ .