Kako nastaviti visoko razpoložljivost za Namenode - 5. del


Hadoop ima dve osnovni komponenti, ki sta HDFS in YARN. HDFS je namenjen shranjevanju podatkov, YARN pa obdelavi podatkov. HDFS je distribuirani datotečni sistem Hadoop, ima Namenode kot glavno storitev in Datanode kot podrejeno storitev.

Namenode je ključna komponenta Hadoopa, ki hrani metapodatke podatkov, shranjenih v HDFS. Če Namenode pade, celotna grozd ne bo dostopna, je edina točka okvare (SPOF). Torej bo proizvodno okolje imelo visoko razpoložljivost Namenode, da se izognemo izpadu proizvodnje, če se ena Namenode izkaže iz različnih razlogov, kot so zrušitve stroja, načrtovane vzdrževalne dejavnosti itd.

Hadoop 2.x zagotavlja izvedljivost, kjer imamo lahko dve Namenodi, ena bo aktivna Namenode, druga pa v pripravljenosti.

  • Aktivno namenode - upravlja vse odjemalske operacije.
  • Namenode v stanju pripravljenosti - odveč je od aktivne namenode. Če Active NN pade, bo NN v stanju pripravljenosti prevzel vso odgovornost za Active NN.

Če želite omogočiti visoko razpoložljivost Namenode, je potreben Zookeeper, ki je obvezen za samodejno preusmeritev. ZKFC (Zookeeper Failover Controller) je odjemalec Zookeeper, ki se uporablja za vzdrževanje stanja Namenode.

  • Najboljše prakse za razmestitev strežnika Hadoop na CentOS/RHEL 7 - 1. del
  • Nastavitev predpogojev za Hadoop in varnostno utrjevanje - 2. del
  • Kako namestiti in konfigurirati Cloudera Manager na CentOS/RHEL 7 - 3. del
  • Kako namestiti CDH in konfigurirati umestitve storitev na CentOS/RHEL 7 - 4. del

V tem članku bomo omogočili visoko razpoložljivost Namenode v programu Cloudera Manager.

1. korak: Namestitev Zookeeperja

1. Prijavite se v Cloudera Manager.

http://Your-IP:7180/cmf/home

2. V pozivu za dejanje grozda (tecmint) izberite\"Dodaj storitev".

3. Izberite storitev\"Zookeeper".

4. Izberite strežnike, na katere bomo namestili Zookeeper.

5. Za ustanovitev kvoruma Zookeeper bomo imeli 3 čuvarje živalskega vrta. Izberite strežnike, kot je navedeno spodaj.

6. Konfigurirajte lastnosti Zookeeper, tu imamo privzete. Za shranjevanje podatkov Zookeeperja morate v realnem času imeti ločene mape/točke za vpetje. V 1. delu smo razložili konfiguracijo pomnilnika za vsako storitev. Za nadaljevanje kliknite 'nadaljevanje'.

7. Namestitev se bo začela, ko bo nameščen Zookeeper zagnan. Operacije v ozadju si lahko ogledate tukaj.

8. Po uspešnem zaključku zgornjega koraka bo stanje "Končano".

9. Zookeeper je zdaj uspešno nameščen in konfiguriran. Kliknite »Dokončaj«.

10. Storitev Zookeeper si lahko ogledate na nadzorni plošči Cloudera Manager.

2. korak: Omogočanje visoke razpoložljivosti Namenode

11. Pojdite v Cloudera Manager -> HDFS -> Action -> Enable High Availability.

12. Vnesite Nameservice Name kot\"nameservice1" - To je pogost imenski prostor tako za aktivno kot v pripravljenosti Namenode.

13. Izberite drugo namenodo, kjer bomo imeli pripravljenost.

14. Tu izberemo master2.linux-console.net za pripravljenost Namenode.

15. Izberite vozlišča Journal, to so obvezne storitve za sinhronizacijo aktivnega in stanja pripravljenosti Namenode.

16. Quorum Journal ustvarjamo tako, da vozlišče Journal postavimo v tri strežnike, kot je navedeno spodaj. Izberite 3 strežnike in kliknite »V redu«.

17. Za nadaljevanje kliknite »Nadaljuj«.

18. Vnesite pot do imenika Journal Node. Omeniti moramo le pot, medtem ko bo namestitev tega imenika storitev samodejno ustvarila sama. Omenjamo kot ‘/ jn’ . Za nadaljevanje kliknite »Nadaljuj«.

19. Začel bo omogočati visoko razpoložljivost.

20. Ko končamo vse postopke v ozadju, bomo dobili status »Končano«.

21. Končno bomo prejeli obvestilo „Uspešno omogočena visoka razpoložljivost“. Kliknite »Končaj«.

22. Preverite aktivno ime in stanje pripravljenosti Namenode, tako da odprete Cloudera Manager -> HDFS -> Instance.

23. Tu lahko uporabite dve Namenodi, ena bo v stanju "Active", druga pa v stanju "Standby".

V tem članku smo opravili postopek po korakih, da omogočimo visoko razpoložljivost Namenode. Zelo priporočljivo je imeti Namenode High Availability v vseh grozdih v realnem času. Pošljite svoje dvome, če se pri tem postopku srečate z napako. V naslednjem članku bomo videli visoko razpoložljivost Resource Managerja.