Kako namestiti in nastaviti Apache Spark na Ubuntu/Debian
Apache Spark je odprtokodni porazdeljeni računski okvir, ki je ustvarjen za hitrejše računske rezultate. Je računalniški mehanizem v pomnilniku, kar pomeni, da se bodo podatki obdelovali v pomnilniku.
Spark podpira različne API-je za pretakanje, obdelavo grafov, SQL, MLLib. Podpira tudi Java, Python, Scala in R kot prednostne jezike. Spark je večinoma nameščen v gručah Hadoop, lahko pa tudi namestite in konfigurirate iskro v samostojnem načinu.
V tem članku bomo videli, kako namestiti Apache Spark v distribucije, ki temeljijo na Debianu in Ubuntuju.
Namestite Java in Scala v Ubuntu
Če želite namestiti Apache Spark v Ubuntu, morate imeti v računalniku nameščeno Javo in Scalo. Večina sodobnih distribucij ima privzeto nameščeno Javo, ki jo lahko preverite z naslednjim ukazom.
$ java -version
Če ni rezultatov, lahko Javo namestite z našim člankom o namestitvi Jave v Ubuntu ali preprosto zaženete naslednje ukaze za namestitev Jave v distribucijah, ki temeljijo na Ubuntuju in Debianu.
$ sudo apt update $ sudo apt install default-jre $ java -version
Nato lahko Scalo namestite iz skladišča apt, tako da zaženete naslednje ukaze za iskanje Scale in njeno namestitev.
$ sudo apt search scala ⇒ Search for the package $ sudo apt install scala ⇒ Install the package
Če želite preveriti namestitev Scale, zaženite naslednji ukaz.
$ scala -version Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL
Namestite Apache Spark v Ubuntu
Zdaj pojdite na uradni ukaz wget, da prenesete datoteko neposredno v terminal.
$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
Zdaj odprite terminal in preklopite na mesto, kjer je nameščena prenesena datoteka, in zaženite naslednji ukaz, da izvlečete tar datoteko Apache Spark.
$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz
Končno premaknite izvlečeni imenik Spark v/opt imenik.
$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark
Konfigurirajte okoljske spremenljivke za Spark
Zdaj morate v datoteki .profile nastaviti nekaj okoljskih spremenljivk, preden zaženete iskro.
$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile $ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile $ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile
Če želite zagotoviti, da so te nove spremenljivke okolja dosegljive znotraj lupine in na voljo Apache Spark, je obvezen tudi zagon naslednjega ukaza, da začnejo veljati nedavne spremembe.
$ source ~/.profile
Vse binarne datoteke, povezane z iskricami, za zagon in zaustavitev storitev so v mapi sbin.
$ ls -l /opt/spark
Zaženite Apache Spark v Ubuntuju
Zaženite naslednji ukaz, da zaženete glavno in podrejeno storitev Spark.
$ start-master.sh $ start-workers.sh spark://localhost:7077
Ko se storitev zažene, pojdite v brskalnik in vnesite naslednjo iskalno stran za dostop do URL-ja. Na tej strani lahko vidite, da se je moj glavni in podrejeni servis začel.
http://localhost:8080/ OR http://127.0.0.1:8080
Lahko tudi preverite, ali iskra-lupina deluje dobro, tako da zaženete ukaz iskra-lupine.
$ spark-shell
To je to za ta članek. Zelo kmalu vas bomo ujeli z drugim zanimivim člankom.