Uvod u Apache Hive

Apache Hive paket je za skladištenje podataka izgrađen na vrhu Hadoopa i koristi se za analizu podataka. Hive je usmjeren na korisnike koji se osjećaju ugodno sa SQL-om.



Apache Hive paket je za skladištenje podataka izgrađen na vrhu Hadoopa i koristi se za analizu podataka. Hive je usmjeren na korisnike koji se osjećaju ugodno sa SQL-om. Sličan je SQL-u i naziva se HiveQL, koristi se za upravljanje i ispitivanje strukturiranih podataka. Apache Hive koristi se za apstrahiranje složenosti Hadoopa. Ovaj jezik također omogućava tradicionalnim programerima za mapiranje / reduciranje da uključuju svoje prilagođene mape i reduktore. Popularna značajka Hivea je da nema potrebe za učenjem Jave.



Hive, otvoreni izvor peta-bajtnog okvira za skladištenje podataka na skali baziranih na Hadoopu, razvio je tim za infrastrukturu podataka na Facebooku. Košnica je također jedna od tehnologija koja se koristi za rješavanje zahtjeva na Facebooku. Hive je vrlo popularan kod svih internih korisnika na Facebooku i koristi se za pokretanje tisuća poslova na klasteru sa stotinama korisnika, za široku paletu aplikacija. Klaster Hive-Hadoop na Facebooku pohranjuje više od 2PB sirovih podataka i redovito svakodnevno učitava 15 TB podataka.

system.exit (0) java

Pogledajmo neke od njegovih značajki zbog kojih je popularan i prilagođen korisnicima:



  • Programerima omogućuje priključivanje prilagođenih Mapera i Reduktora.
  • Ima infrastrukturu skladišta podataka.
  • Pruža alate za omogućavanje jednostavnih podataka ETL.
  • Definira jezik upita sličan SQL-u nazvan QL.

Slučaj upotrebe Apache Hive - Facebook:

Slučaj korištenja košnica - Facebook

Prije nego što je implementirao Hive, Facebook se suočio s puno izazova jer se veličina podataka koji se generiraju povećavala ili eksplodirala, što je doista otežavalo rukovanje njima. Tradicionalni RDBMS nije mogao podnijeti pritisak i kao rezultat toga Facebook je tražio bolje mogućnosti. Da bi riješio ovaj predstojeći problem, Facebook je u početku pokušao koristiti Hadoop MapReduce, ali s poteškoćama u programiranju i obveznim znanjem u SQL-u, učinio je to nepraktičnim rješenjem. Košnica im je omogućila da prevladaju izazove s kojima su se suočavali.

S Hive-om sada mogu izvoditi sljedeće:



  • Stolovi se mogu dijeliti i stavljati u pakete
  • Fleksibilnost i evolucija sheme
  • Dostupni su JDBC / ODBC upravljački programi
  • Tablice košnica mogu se definirati izravno u HDFS-u
  • Proširivo - vrste, formati, funkcije i skripte

Slučaj upotrebe košnice u zdravstvu:

Gdje koristiti košnicu?

Apache Hive se može koristiti na sljedećim mjestima:

  • Data mining
  • Obrada dnevnika
  • Indeksiranje dokumenata
  • Suočavanje kupaca s poslovnom inteligencijom
  • Prediktivno modeliranje
  • Testiranje hipoteze

Arhitektura košnica:

Košnica se sastoji od sljedećih glavnih komponenata:

  • Metastore - za pohranu metapodataka.
  • JDBC / ODBC - Sastavljač upita i izvršni mehanizam za pretvaranje SQL upita u slijed MapReduce.
  • SerDe i ObjectInspectors - za formate i tipove podataka.
  • UDF / UDAF - za korisnički definirane funkcije.
  • Klijenti - Slično MySQL naredbenom retku i web korisničkom sučelju.

Komponente košnice:

Metastore:

Metastore pohranjuje informacije o tablicama, particijama, stupcima unutar tablica. Postoje 3 načina spremanja u Metastore: ugrađena metastora, lokalna metastora i udaljena metastora. Uglavnom će se Remote Metastore koristiti u proizvodnom načinu.

Ograničenja košnice:

Košnica ima sljedeća ograničenja i ne može se koristiti u takvim okolnostima:

  • Nije dizajniran za internetsku obradu transakcija.
  • Pruža prihvatljivo kašnjenje za interaktivno pregledavanje podataka.
  • Ne nudi upite u stvarnom vremenu i ažuriranja na razini redaka.
  • Latencija za upite o košnici općenito je vrlo velika.

Imate pitanje za nas? Spomenite ih u odjeljku za komentare i javit ćemo vam se.

sortiranje nizova c ++

Vezane objave:

Naredbe košnice