Pregled Hadoop 2.0 Federacije klaster arhitekture

Apache Hadoop 2.x sastoji se od značajnih poboljšanja u odnosu na Hadoop 1.x. Ovaj blog govori o Hadoop 2.0 Klaster Architecture Federation i njegovim komponentama.

Federacija klasterske arhitekture Hadoop 2.0

Uvod:

Na ovom blogu duboko ću zaroniti u Hadoop 2.0 Federaciju klasterske arhitekture. Apache Hadoop je puno evoluirao od izlaska Apache Hadoop 1.x. Kao što znate iz mog prethodnog bloga da slijedi glavna / podređena topologija gdje NameNode djeluje kao glavni demon i odgovoran je za upravljanje ostalim podređenim čvorovima koji se nazivaju DataNodes. U ovom ekosustavu, ovaj glavni Daemon ili NameNode postaje usko grlo i, naprotiv, tvrtke moraju imati NameNode koji je vrlo dostupan. Upravo je taj razlog postao temelj HDFS federacije arhitekture i HA (visoka dostupnost) arhitektura .



Teme koje sam obrađivao na ovom blogu su sljedeće:



  • Trenutna HDFS arhitektura
  • Ograničenja trenutne HDFS arhitekture
  • Arhitektura HDFS federacije

Pregled trenutne HDFS arhitekture:

HDFS arhitektura pojedinačnog prostora imena - Pregled federacije arhitekture klastera Hadoop 2.0 - Edureka

Kao što možete vidjeti na gornjoj slici, trenutni HDFS ima dva sloja:



  • HDFS prostor imena (NS): Ovaj je sloj odgovoran za upravljanje direktorijima, datotekama i blokovima. Pruža sve operacije datotečnog sustava povezane s prostorom imena, poput stvaranja, brisanja ili izmjene datoteka ili direktorija datoteka.
  • Sloj za pohranu: Sadrži dvije osnovne komponente.
    1. Upravljanje blokovima : Izvodi sljedeće operacije:
      • Povremeno provjerava otkucaje srca DataNodes-a i upravlja članstvom DataNode-a u klasteru.
      • Upravlja izvješćima o blokovima i održava lokaciju bloka.
      • Podržava blokovske operacije poput stvaranja, izmjene, brisanja i dodjele lokacije bloka.
      • Održava faktor replikacije dosljedan u cijelom klasteru.

2. Fizičko spremište : Njime upravljaju DataNodes koji su odgovorni za pohranu podataka i na taj način omogućuje pristup čitanju / pisanju podataka pohranjenih u HDFS-u.

što je programer blokova

Dakle, trenutna HDFS arhitektura omogućuje vam da imate jedinstveni prostor imena za klaster. U ovoj je arhitekturi jedan NameNode odgovoran za upravljanje prostorom imena. Ova je arhitektura vrlo prikladna i jednostavna za implementaciju. Također, pruža dovoljnu sposobnost da zadovolji potrebe malog proizvodnog klastera.

Ograničenja trenutnog HDFS-a:

Kao što je ranije spomenuto, trenutni HDFS bio je dovoljan za potrebe i slučajeve upotrebe malog proizvodnog klastera. Ali, velike organizacije poput Yahooa, Facebook su pronašle neka ograničenja kako je HDFS klaster eksponencijalno rastao. Kratko ćemo pogledati neka ograničenja:



  1. Prostor imena je nije skalabilno poput DataNodes. Dakle, u klasteru možemo imati samo onaj broj DataNodes-a koji jedan NameNode može obraditi.
  2. Dva sloja, tj. Sloj prostora imena i sloj za pohranu jesu čvrsto povezani što čini alternativnu implementaciju NameNode vrlo teškom.
  3. Učinak cijelog Hadoop sustava ovisi o propusnost čvora Name. Stoga cjelokupna izvedba svih HDFS operacija ovisi o tome koliko zadataka NameNode može obraditi u određeno vrijeme.
  4. NameNode sprema cijeli prostor imena u RAM za brzi pristup. To dovodi do ograničenja u smislu veličina memorije tj. Broj objekata prostora imena (datoteka i blokova) s kojima se jedan poslužitelj prostora imena može nositi.
  5. Mnoge organizacije (dobavljači) koje imaju HDFS implementaciju, omogućava više organizacija (stanara) da koriste svoj prostor imena klastera. Dakle, ne postoji odvajanje prostora imena, a time i postoji bez izolacije među stanarskim organizacijama koje koriste klaster.

Arhitektura HDFS federacije:

  • U HDFS Federation Architecture imamo horizontalnu skalabilnost usluge imena. Stoga imamo više NameNodes koji su federalni, tj. Neovisni jedni od drugih.
  • Čvorovi podataka prisutni su na dnu, tj. Temeljni sloj za pohranu.
  • Svaki DataNode registrira se sa svim NameNodes u klasteru.
  • DataNodes prenose periodične otkucaje srca, blokiraju izvješća i obrađuju naredbe s NameNodes.

Slikoviti prikaz HDFS federacije arhitekture dat je u nastavku:

java kod za završetak programa

Prije nego što krenem dalje, dopustite mi da ukratko razgovaram o gornjoj arhitektonskoj slici:

  • Postoji više prostora imena (NS1, NS2,…, NSn) i svakim od njih upravlja odgovarajući NameNode.
  • Svaki prostor imena ima svoje spremište blokova (NS1 ima Pool 1, NSk ima Pool k i tako dalje).
  • Kao što je prikazano na slici, blokovi iz spremišta 1 (nebesko plavi) pohranjeni su na DataNode 1, DataNode 2 i tako dalje. Slično tome, svi blokovi iz svakog spremišta blokova nalazit će se na svim DataNodes-ima.

Ajmo sada pobliže razumjeti sastavnice HDFS Federation Architecture:

Blok bazen:

Blok blokova nije ništa drugo nego skup blokova koji pripadaju određenom Prostoru imena. Dakle, imamo kolekciju spremišta blokova gdje se svakim spremištem blokova upravlja neovisno od drugog. Ova neovisnost gdje se svakim blokom blokova upravlja neovisno omogućuje imenskom prostoru stvaranje ID-ova blokova za nove blokove bez koordinacije s drugim prostorima imena. Blokovi podataka prisutni u cijelom spremištu blokova pohranjeni su u svim DataNodes-ima. U osnovi, spremište blokova pruža apstrakciju tako da se blokovi podataka koji se nalaze u DataNodes-ima (kao u arhitekturi jedinstvenog prostora imena) mogu grupirati u skladu s određenim prostorom imena.

Volumen prostora imena:

Volumen prostora imena nije ništa drugo nego prostor imena zajedno sa svojim blokom spremišta. Stoga u HDFS Federaciji imamo više volumena prostora imena. To je samostalna jedinica upravljanja, tj. Svaki volumen prostora imena može funkcionirati neovisno. Ako se briše NameNode ili imenski prostor, brisat će se i pripadajući spremište blokova koji se nalazi na DataNodes-u.

Demo na Hadoop 2.0 Federacija klaster arhitekture | Edureka

Sad pretpostavljam da imate prilično dobru ideju o HDFS Federation Architecture. To je više teoretski koncept i ljudi ga općenito ne koriste u praktičnom proizvodnom sustavu. Postoje neki problemi s implementacijom HDFS Federacije što otežava implementaciju. Stoga je HA (visoka dostupnost) arhitektura poželjno je riješiti problem Jedinstvene točke neuspjeha. Pokrila sam HDFS HA ​​arhitektura u mom sljedećem blogu.

Sad kad ste razumjeli Hadoop HDFS Federation Architecture, pogledajte Edureka, pouzdane tvrtke za internetsko učenje s mrežom od više od 250 000 zadovoljnih učenika raširenih širom svijeta. Edureka tečaj obuke za certificiranje velikih podataka Hadoop pomaže učenicima da postanu stručnjaci za HDFS, pređu, MapReduce, svinju, košnicu, HBase, Oozie, Flume i Sqoop koristeći slučajeve upotrebe u stvarnom vremenu na maloprodaji, društvenim mrežama, zrakoplovstvu, turizmu i financijama.

duljina javascripta niza

Imate pitanje za nas? Molimo spomenite to u odjeljku za komentare i javit ćemo vam se.