Kako namestiti in konfigurirati Apache Hadoop na enem vozlišču v CentOS 7
Apache Hadoop je odprtokodna gradnja ogrodja za porazdeljeno shranjevanje in obdelavo velikih podatkov v računalniških grozdih. Projekt temelji na naslednjih komponentah:
- Hadoop Common - vsebuje knjižnice in pripomočke Java, potrebne za druge module Hadoop.
- HDFS - Hadoop porazdeljeni datotečni sistem - razširljiv datotečni sistem, ki temelji na Javi in je razdeljen na več vozlišč.
- MapReduce - ogrodje YARN za vzporedno obdelavo velikih podatkov.
- Hadoop YARN: Okvir za upravljanje virov grozda.
Ta članek vas bo vodil po tem, kako lahko namestite Apache Hadoop na eno vozlišče v CentOS 7 (deluje tudi za različici RHEL 7 in Fedora 23+). Ta vrsta konfiguracije je navedena tudi kot psevdo-porazdeljeni način Hadoop.
1. korak: Namestite Javo na CentOS 7
1. Preden nadaljujete z namestitvijo Jave, se najprej prijavite s korenskim uporabnikom ali uporabnikom s korenskimi pravicami z naslednjim ukazom nastavite ime gostitelja računalnika.
# hostnamectl set-hostname master
Prav tako dodajte nov zapis v datoteko gostitelja z lastnim FQDN-jem naprave, da kaže na sistemski naslov IP.
# vi /etc/hosts
Dodajte spodnjo vrstico:
192.168.1.41 master.hadoop.lan
Zgornje ime gostitelja in zapise FQDN zamenjajte z lastnimi nastavitvami.
2. Nato pojdite na stran za prenos Oracle Java in v svojem sistemu s pomočjo ukaza curl zgrabite najnovejšo različico Java SE Development Kit 8:
# curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”
3. Ko se binarni prenos Java konča, namestite paket tako, da izdate spodnji ukaz:
# rpm -Uvh jdk-8u92-linux-x64.rpm
2. korak: Namestite Hadoop Framework v CentOS 7
4. Nato v sistemu ustvarite nov uporabniški račun brez korenskih pooblastil, ki ga bomo uporabili za namestitveno pot Hadoop in delovno okolje. Domači imenik novega računa bo v imeniku /opt/hadoop
.
# useradd -d /opt/hadoop hadoop # passwd hadoop
5. V naslednjem koraku obiščite stran Apache Hadoop, da dobite povezavo do najnovejše stabilne različice in prenesete arhiv v svoj sistem.
# curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz
6. Izvlecite arhiv, kopirajte vsebino imenika na domačo pot računa hadoop. Prepričajte se tudi, da ste ustrezno spremenili dovoljenja za kopirane datoteke.
# tar xfz hadoop-2.7.2.tar.gz # cp -rf hadoop-2.7.2/* /opt/hadoop/ # chown -R hadoop:hadoop /opt/hadoop/
7. Nato se prijavite z uporabnikom hadoop in v sistemu konfigurirajte spremenljivke okolja Hadoop in Java z urejanjem datoteke .bash_profile
.
# su - hadoop $ vi .bash_profile
Na koncu datoteke dodajte naslednje vrstice:
## JAVA env variables export JAVA_HOME=/usr/java/default export PATH=$PATH:$JAVA_HOME/bin export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar ## HADOOP env variables export HADOOP_HOME=/opt/hadoop export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_YARN_HOME=$HADOOP_HOME export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native" export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
8. Zdaj inicializirajte spremenljivke okolja in preverite njihovo stanje z izdajo spodnjih ukazov:
$ source .bash_profile $ echo $HADOOP_HOME $ echo $JAVA_HOME
9. Končno konfigurirajte preverjanje pristnosti na podlagi ključa ssh za račun hadoop, tako da zaženete spodnje ukaze (ustrezno spremenite ime gostitelja ali FQDN proti ukazu ssh-copy-id
).
Prav tako pustite geslo vneseno prazno, da se samodejno prijavite prek ssh.
$ ssh-keygen -t rsa $ ssh-copy-id master.hadoop.lan