Kako namestiti in konfigurirati Apache Hadoop na enem vozlišču v CentOS 7


Apache Hadoop je odprtokodna gradnja ogrodja za porazdeljeno shranjevanje in obdelavo velikih podatkov v računalniških grozdih. Projekt temelji na naslednjih komponentah:

  1. Hadoop Common - vsebuje knjižnice in pripomočke Java, potrebne za druge module Hadoop.
  2. HDFS - Hadoop porazdeljeni datotečni sistem - razširljiv datotečni sistem, ki temelji na Javi in je razdeljen na več vozlišč.
  3. MapReduce - ogrodje YARN za vzporedno obdelavo velikih podatkov.
  4. Hadoop YARN: Okvir za upravljanje virov grozda.

Ta članek vas bo vodil po tem, kako lahko namestite Apache Hadoop na eno vozlišče v CentOS 7 (deluje tudi za različici RHEL 7 in Fedora 23+). Ta vrsta konfiguracije je navedena tudi kot psevdo-porazdeljeni način Hadoop.

1. korak: Namestite Javo na CentOS 7

1. Preden nadaljujete z namestitvijo Jave, se najprej prijavite s korenskim uporabnikom ali uporabnikom s korenskimi pravicami z naslednjim ukazom nastavite ime gostitelja računalnika.

# hostnamectl set-hostname master

Prav tako dodajte nov zapis v datoteko gostitelja z lastnim FQDN-jem naprave, da kaže na sistemski naslov IP.

# vi /etc/hosts

Dodajte spodnjo vrstico:

192.168.1.41 master.hadoop.lan

Zgornje ime gostitelja in zapise FQDN zamenjajte z lastnimi nastavitvami.

2. Nato pojdite na stran za prenos Oracle Java in v svojem sistemu s pomočjo ukaza curl zgrabite najnovejšo različico Java SE Development Kit 8:

# curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. Ko se binarni prenos Java konča, namestite paket tako, da izdate spodnji ukaz:

# rpm -Uvh jdk-8u92-linux-x64.rpm

2. korak: Namestite Hadoop Framework v CentOS 7

4. Nato v sistemu ustvarite nov uporabniški račun brez korenskih pooblastil, ki ga bomo uporabili za namestitveno pot Hadoop in delovno okolje. Domači imenik novega računa bo v imeniku /opt/hadoop .

# useradd -d /opt/hadoop hadoop
# passwd hadoop

5. V naslednjem koraku obiščite stran Apache Hadoop, da dobite povezavo do najnovejše stabilne različice in prenesete arhiv v svoj sistem.

# curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz 

6. Izvlecite arhiv, kopirajte vsebino imenika na domačo pot računa hadoop. Prepričajte se tudi, da ste ustrezno spremenili dovoljenja za kopirane datoteke.

#  tar xfz hadoop-2.7.2.tar.gz
# cp -rf hadoop-2.7.2/* /opt/hadoop/
# chown -R hadoop:hadoop /opt/hadoop/

7. Nato se prijavite z uporabnikom hadoop in v sistemu konfigurirajte spremenljivke okolja Hadoop in Java z urejanjem datoteke .bash_profile .

# su - hadoop
$ vi .bash_profile

Na koncu datoteke dodajte naslednje vrstice:

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. Zdaj inicializirajte spremenljivke okolja in preverite njihovo stanje z izdajo spodnjih ukazov:

$ source .bash_profile
$ echo $HADOOP_HOME
$ echo $JAVA_HOME

9. Končno konfigurirajte preverjanje pristnosti na podlagi ključa ssh za račun hadoop, tako da zaženete spodnje ukaze (ustrezno spremenite ime gostitelja ali FQDN proti ukazu ssh-copy-id ).

Prav tako pustite geslo vneseno prazno, da se samodejno prijavite prek ssh.

$ ssh-keygen -t rsa
$ ssh-copy-id master.hadoop.lan