Kako namestiti in nastaviti Apache Spark na Ubuntu/Debian


Apache Spark je odprtokodni porazdeljeni računski okvir, ki je ustvarjen za hitrejše računske rezultate. Je računalniški mehanizem v pomnilniku, kar pomeni, da se bodo podatki obdelovali v pomnilniku.

Spark podpira različne API-je za pretakanje, obdelavo grafov, SQL, MLLib. Podpira tudi Java, Python, Scala in R kot prednostne jezike. Spark je večinoma nameščen v gručah Hadoop, lahko pa tudi namestite in konfigurirate iskro v samostojnem načinu.

V tem članku bomo videli, kako namestiti Apache Spark v distribucije, ki temeljijo na Debianu in Ubuntuju.

Namestite Java in Scala v Ubuntu

Če želite namestiti Apache Spark v Ubuntu, morate imeti v računalniku nameščeno Javo in Scalo. Večina sodobnih distribucij ima privzeto nameščeno Javo, ki jo lahko preverite z naslednjim ukazom.

$ java -version

Če ni rezultatov, lahko Javo namestite z našim člankom o namestitvi Jave v Ubuntu ali preprosto zaženete naslednje ukaze za namestitev Jave v distribucijah, ki temeljijo na Ubuntuju in Debianu.

$ sudo apt update
$ sudo apt install default-jre
$ java -version

Nato lahko Scalo namestite iz skladišča apt, tako da zaženete naslednje ukaze za iskanje Scale in njeno namestitev.

$ sudo apt search scala  ⇒ Search for the package
$ sudo apt install scala ⇒ Install the package

Če želite preveriti namestitev Scale, zaženite naslednji ukaz.

$ scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

Namestite Apache Spark v Ubuntu

Zdaj pojdite na uradni ukaz wget, da prenesete datoteko neposredno v terminal.

$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Zdaj odprite terminal in preklopite na mesto, kjer je nameščena prenesena datoteka, in zaženite naslednji ukaz, da izvlečete tar datoteko Apache Spark.

$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

Končno premaknite izvlečeni imenik Spark v/opt imenik.

$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Konfigurirajte okoljske spremenljivke za Spark

Zdaj morate v datoteki .profile nastaviti nekaj okoljskih spremenljivk, preden zaženete iskro.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Če želite zagotoviti, da so te nove spremenljivke okolja dosegljive znotraj lupine in na voljo Apache Spark, je obvezen tudi zagon naslednjega ukaza, da začnejo veljati nedavne spremembe.

$ source ~/.profile

Vse binarne datoteke, povezane z iskricami, za zagon in zaustavitev storitev so v mapi sbin.

$ ls -l /opt/spark

Zaženite Apache Spark v Ubuntuju

Zaženite naslednji ukaz, da zaženete glavno in podrejeno storitev Spark.

$ start-master.sh
$ start-workers.sh spark://localhost:7077

Ko se storitev zažene, pojdite v brskalnik in vnesite naslednjo iskalno stran za dostop do URL-ja. Na tej strani lahko vidite, da se je moj glavni in podrejeni servis začel.

http://localhost:8080/
OR
http://127.0.0.1:8080

Lahko tudi preverite, ali iskra-lupina deluje dobro, tako da zaženete ukaz iskra-lupine.

$ spark-shell

To je to za ta članek. Zelo kmalu vas bomo ujeli z drugim zanimivim člankom.