Vodič za HDFS: Uvod u HDFS i njegove značajke

Ovaj blog s vodičima za HDFS pomoći će vam da razumijete HDFS ili Hadoop distribuirani datotečni sustav i njegove značajke. Također ćete ukratko istražiti njegove ključne komponente.

Vodič za HDFS

Prije nego što krenemo dalje u ovom blogu s vodičima za HDFS, dopustiću vam da vas provedem kroz neke sulude statistike povezane s HDFS-om:



  • U 2010, Facebook tvrdio da ima jedan od najvećih HDFS klastera koji pohranjuje 21 petabajt podataka.
  • U 2012. godini, Facebook izjavili da imaju najveći pojedinačni HDFS klaster s više od 100 PB podataka .
  • I Yahoo ! ima više od 100.000 CPU u preko 40 000 poslužitelja trči Hadoop, s najvećim klasterom Hadoop 4.500 čvorova . Sve rečeno, Yahoo! trgovinama 455 petabajta podataka u HDFS-u.
  • Zapravo, do 2013. većina je velikih imena iz Fortune 50 počela koristiti Hadoop.

Preteško za probavu? Pravo. Kao što je raspravljeno u , Hadoop ima dvije temeljne jedinice - S torage i Obrada . Kad kažem dio skladišnog dijela Hadoopa, mislim na HDFS što stoji Distribuirani sustav datoteka Hadoop . Dakle, na ovom blogu ću vas upoznati s HDFS .



Ovdje ću govoriti o:

c ++ goto oznaka
  • Što je HDFS?
  • Prednosti HDFS-a
  • Značajke HDFS-a

Prije razgovora o HDFS-u, dopustite mi da vam kažem, što je distribuirani datotečni sustav?



DFS ili distribuirani datotečni sustav:

Distribuirani datotečni sustav govori o upravljanje podaci , tj. datoteke ili mape na više računala ili poslužitelja. Drugim riječima, DFS je datotečni sustav koji nam omogućuje pohranu podataka na više čvorova ili strojeva u klasteru i omogućava više korisnika da pristupe podacima. Dakle, u osnovi služi istoj namjeni kao i datotečni sustav koji je dostupan u vašem stroju, na primjer za Windows s NTFS-om (New Technology File System) ili za Mac s HFS-om (hijerarhijski datotečni sustav). Jedina je razlika u tome što u slučaju Distribuiranog datotečnog sustava podatke pohranjujete na više računala, a ne na jednom računalu. Iako su datoteke pohranjene širom mreže, DFS organizira i prikazuje podatke na takav način da će se korisnik koji sjedi na stroju osjećati kao da su svi podaci pohranjeni upravo na tom stroju.

Što je HDFS?

Hadoop distribuirani datotečni sustav ili HDFS je distribuirani datotečni sustav zasnovan na Javi koji vam omogućuje pohranu velikih podataka na više čvorova u Hadoop klasteru. Dakle, ako instalirate Hadoop, dobit ćete HDFS kao temeljni sustav za pohranu za pohranu podataka u distribuiranom okruženju.

Uzmimo primjer da ga razumijemo. Zamislite da na svakom računalu imate deset računala ili deset računala s tvrdim diskom od 1 TB. Sada HDFS kaže da ćete, ako instalirate Hadoop kao platformu povrh ovih deset računala, dobiti HDFS kao uslugu pohrane. Distribuirani sustav datoteka Hadoop distribuira se na takav način da svaki stroj doprinosi vlastitom pohranom za pohranu bilo koje vrste podataka.



Vodič za HDFS: Prednosti HDFS-a

1. Distribuirana pohrana:

Distribuirana pohrana - Vodič za HDFS - Edureka

Kada pristupite Hadoop Distribuiranom sustavu datoteka s bilo kojeg od deset strojeva u Hadoop klasteru, imat ćete osjećaj kao da ste se prijavili u jedan veliki stroj koji ima kapacitet skladištenja od 10 TB (ukupna pohrana preko deset strojeva). Što to znači? To znači da možete pohraniti jednu veliku datoteku od 10 TB koja će se distribuirati na deset strojeva (po 1 TB).Tako je ne ograničavajući se na fizičke granice svakog pojedinog stroja.

2. Distribuirano i paralelno računanje:

Budući da su podaci podijeljeni između strojeva, to nam omogućuje da to iskoristimo Distribuirano i paralelno računanje . Shvatimo ovaj koncept na gornjem primjeru. Pretpostavimo da je potrebno 43 minute za obradu datoteke od 1 TB na jednom stroju. Dakle, sad mi recite, koliko će vremena trebati za obradu iste datoteke od 1 TB kada imate 10 strojeva u Hadoop klasteru sa sličnom konfiguracijom - 43 minute ili 4,3 minute? 4,3 minute, točno! Što se ovdje dogodilo? Svaki od čvorova paralelno radi s dijelom datoteke od 1 TB. Stoga se posao koji je trajao prije 43 minute, završava za samo 4,3 minute, jer se posao podijelio na deset strojeva.

3. Horizontalna skalabilnost:

php kako ispisati niz

Posljednje, ali ne najmanje važno, razgovarajmo o vodoravno skaliranje ili skaliranje u Hadoopu. Postoje dvije vrste skaliranja: vertikalna i vodoravno . Vertikalnim skaliranjem (povećavanjem) povećavate hardverski kapacitet vašeg sustava. Drugim riječima, nabavljate više RAM-a ili CPU-a i dodajete ga u svoj postojeći sustav kako biste ga učinili robusnijim i moćnijim. Ali postoje izazovi povezani s vertikalnim skaliranjem ili povećavanjem:

  • Uvijek postoji ograničenje do kojeg možete povećati svoj hardverski kapacitet. Dakle, ne možete stalno povećavati RAM ili CPU stroja.
  • U vertikalnom skaliranju prvo zaustavite svoj stroj. Zatim povećavate RAM ili CPU kako biste ga učinili robusnijim hardverskim stogom. Nakon što povećate svoj hardverski kapacitet, ponovno pokrenite stroj. Ovo vrijeme zaustavljanja vašeg sustava postaje izazov.

U slučaju vodoravno skaliranje (umanjivanje) , dodate više čvorova postojećem klasteru umjesto da povećate hardverski kapacitet pojedinih strojeva. I što je najvažnije, možete dodajte još strojeva u pokretu tj. Bez zaustavljanja sustava . Stoga, dok se skaliramo, nemamo vremena zastoja ili zelene zone, ništa takvo. Na kraju, imat ćete više strojeva koji paralelno rade kako bi udovoljili vašim zahtjevima.

Video s vodičem za HDFS:

Možete pogledati donji video u kojem su detaljno razmotreni svi koncepti povezani s HDFS-om:

Vodič za HDFS: Značajke HDFS-a

Te ćemo značajke detaljno razumjeti kada istražimo HDFS arhitekturu u našem sljedećem blogu s vodičima za HDFS. Ali, za sada, imajmo pregled značajki HDFS-a:

kako napraviti rječnik u javi
  • Trošak: HDFS je općenito postavljen na robnom hardveru poput vašeg stolnog računala / prijenosnog računala koji svakodnevno koristite. Dakle, vrlo je ekonomičan u smislu troškova vlasništva nad projektom. Budući da koristimo jeftini robni hardver, ne trebate potrošiti ogromnu količinu novca za uklanjanje klastera Hadoop. Drugim riječima, dodavanje više čvorova u vaš HDFS isplativo je.
  • Raznolikost i obujam podataka: Kada govorimo o HDFS-u, onda govorimo o pohrani ogromnih podataka, tj. Terabajta i petabajta podataka i različitih vrsta podataka. Dakle, u HDFS možete pohraniti bilo koju vrstu podataka, bili oni strukturirani, nestrukturirani ili polustrukturirani.
  • Pouzdanost i tolerancija na greške: Kada pohranjujete podatke na HDFS, on interno dijeli dane podatke u podatkovne blokove i pohranjuje ih na distribuirani način kroz vaš Hadoop klaster. Podaci o tome koji se blok podataka nalazi na kojem od čvorova podataka bilježe se u metapodacima. NameNode upravlja meta podacima i Čvorovi podataka odgovorni su za pohranu podataka.
    Čvor imena također replicira podatke, tj. Održava više kopija podataka. Ova replikacija podataka čini HDFS vrlo pouzdanim i otpornim na kvarove. Dakle, čak i ako bilo koji od čvorova ne uspije, možemo dohvatiti podatke iz replika koje se nalaze na drugim čvorovima podataka. Prema zadanim postavkama faktor replikacije je 3. Stoga, ako pohranite 1 GB datoteke u HDFS, konačno će zauzeti 3 GB prostora. Čvor imena povremeno ažurira metapodatke i održava faktor replikacije dosljednim.
  • Integritet podataka: Integritet podataka govori o tome jesu li podaci pohranjeni u mom HDFS-u točni ili ne. HDFS neprestano provjerava integritet podataka pohranjenih u odnosu na svoju kontrolnu sumu. Ako pronađe bilo kakvu grešku, o tome izvještava čvor imena. Zatim čvor imena stvara dodatne nove replike i stoga briše oštećene kopije.
  • Visoka propusnost: Propusnost je količina posla obavljenog u jedinici vremena. Govori o tome koliko brzo možete pristupiti podacima iz datotečnog sustava. U osnovi, daje vam uvid u performanse sustava. Kao što ste vidjeli u gornjem primjeru, gdje smo zajednički koristili deset strojeva kako bismo poboljšali računanje. Tamo smo uspjeli smanjiti vrijeme obrade od 43 minute do pukog 4,3 minute jer su svi strojevi radili paralelno. Stoga smo paralelnom obradom podataka izuzetno smanjili vrijeme obrade i tako postigli veliku propusnost.
  • Mjesto podataka: Lokalitet podataka govori o premještanju procesne jedinice na podatke, a ne na podatkovnu jedinicu. U našem tradicionalnom sustavu donijeli smo podatke na aplikacijski sloj, a zatim ih obrađivali. Ali sada, zbog arhitekture i ogromnog volumena podataka, donošenje podataka na aplikacijski sloj hoćesmanjiti mrežne performanse u primjetnoj mjeri.Dakle, u HDFS-u računski dio dovodimo do podatkovnih čvorova u kojima se podaci nalaze. Dakle, ne premještate podatke, već donosite program ili postupaking. dio podataka.

Dakle, sada imate kratku ideju o HDFS-u i njegovim značajkama. Ali vjerujte mi, momci, ovo je samo vrh sante leda. U mom sljedećem , Duboko ću zaroniti u HDFS arhitektura i otkrit ću tajne uspjeha HDFS-a. Zajedno ćemo odgovoriti na sva ona pitanja koja se razmišljaju u vašoj glavi, kao što su:

  • Što se događa iza kulisa kada čitate ili pišete podatke u distribuiranom datotečnom sustavu Hadoop?
  • Koji su algoritmi poput svijesti o stalku zbog kojeg je HDFS toliko otporan na kvarove?
  • Kako Hadoop distribuirani datotečni sustav upravlja i stvara replike?
  • Što su blok operacije?

Sad kad ste shvatili HDFS i njegove značajke, pogledajte Edureka, pouzdane tvrtke za internetsko učenje s mrežom od više od 250 000 zadovoljnih učenika raširenih širom svijeta. Edureka tečaj obuke za certificiranje velikih podataka Hadoop pomaže učenicima da postanu stručnjaci za HDFS, pređu, MapReduce, svinju, košnicu, HBase, Oozie, Flume i Sqoop koristeći slučajeve upotrebe u stvarnom vremenu na maloprodaji, društvenim mrežama, zrakoplovstvu, turizmu i financijama.

Imate pitanje za nas? Molimo spomenite to u odjeljku za komentare i javit ćemo vam se.