Cloudera Hadoop: Početak rada s distribucijom CDH-a



Ovaj Edureka blog na Cloudera Hadoop Tutorial pružit će vam cjelovit uvid u različite komponente Cloudere kao što su Cloudera Manager, Parcels, Hue itd.

Sa sve većom potražnjom za velikim podacima, Apache Hadoop jenasrce revolucije, promijenilo je način na koji organiziramo i izračunavamo podatke. Potreba za organizacijama da usklade Hadoop sa svojim poslovnim potrebama potaknula je pojavu komercijalnih distribucija. Komercijalne distribucije Hadoop-a obično su opremljene značajkama dizajniranim da pojednostave primjenu Hadoopa. Cloudera Hadoop Distribution nudi prilagodljivu, fleksibilnu, integriranu platformu koja olakšava upravljanje brzorastućim količinama i vrstama podataka u vašem poduzeću.

U ovom blogu o Cloudera Hadoop Distribution pokrivat ćemo sljedeće teme:





Cloudera Hadoop: Uvod u Hadoop

Hadoop je Apacheov okvir otvorenog koda koji pohranjuje i obrađuje velike podatke u distribuiranom okruženjuprekoklaster koristeći jednostavne modele programiranja. Hadoop pruža paralelno računanje povrh distribuirane pohrane.Da biste detaljnije saznali više o Hadoopu možete se pozvati na ovo

Nakon ovog kratkog uvoda u Hadoop, dopustite mi da sada objasnim različite vrste distribucije Hadoop-a.



Cloudera Hadoop: Hadoop distribucije

Budući da je Apache Hadoop otvoreni izvor, mnoge su tvrtke razvile distribucije koje nadilaze izvorni izvorni kod. Ovo je vrlo slično Linux distribucijama kao što su RedHat, Fedora i Ubuntu. Svaka od Linux distribucija podržava vlastite funkcionalnosti i značajke poput user-friendly GUI u Ubuntuu. Slično tome, crveni šešir je popularan u poduzećima jer nudi podršku i također nudi ideologiju za promjenu bilo kojeg dijela sustava po volji. Red Hat vas oslobađa problema s kompatibilnošću softvera. To je obično velik problem za korisnikekoji prelaze iz Windowsa.

Isto tako, postoje 3 glavne vrste Hadoop distribucija koje imaju vlastiti skup funkcionalnosti i značajki i izgrađene su pod osnovnim HDFS-om.

Cloudera vs MapR vs Hortonworks

Fig: MapR vs Hortonworks vs Cloudera

Fig: MapR vs Hortonworks vs Cloudera



Distribucija Cloudera Hadoop

Cloudera je tržišni trend u prostoru Hadoop-a i prva je koja je pustila komercijalnu distribuciju Hadoop-a. Nudi savjetodavne usluge kako bi se premostila razlika između - 'onoga što nudi Apache Hadoop' i 'onoga što organizacije trebaju'.

Distribucija Cloudera je:

  • Brzo za posao : Od analitike do znanosti o podacima i svega između toga, Cloudera pruža performanse koje su vam potrebne da biste otključali potencijal neograničenih podataka.
  • Čini Hadoop jednostavnim za upravljanje : Uz Cloudera Manager, automatizirani čarobnjaci omogućuju vam brzu implementaciju klastera, bez obzira na mjerilo ili okruženje za implementaciju.
  • Sigurno bez kompromisa: Udovoljava strogim potrebama za sigurnošću podataka i usklađenošću podataka, bez žrtvovanja poslovne okretnosti. Cloudera pruža integrirani pristup sigurnosti i upravljanju podacima.

Horton-Works Distribucija

Horton-Works Data Platform (HDP) u potpunosti je platforma otvorenog koda dizajnirana za upravljanje podacima iz mnogih izvora i formata. Platforma uključuje razne Hadoop alate kao što su Hadoop Distributed File System (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive i dodatne komponente.

Također podržava značajke poput:

  • HDP pravi košnicu brže kroz svoj novi projekt Stinger.
  • HDP izbjegava zaključavanje dobavljača zalaganjem za račvastu verziju Hadoopa.
  • HDP je usredotočen na poboljšanje upotrebljivosti platforme Hadoop.

Distribucija MapR-a

MapR je pružatelj Hadoop rješenja usmjerenih na platformu, baš kao i HortonWorks i Cloudera. MapR integrira vlastiti sustav baza podataka, poznat kao MapR-DB, dok nudi distribucijske usluge Hadoop. Za MapR-DB se tvrdi da je četiri do sedam puta brži od osnovne Hadoop baze podataka, tj. HBase, koja se izvršava u drugim distribucijama.

Ima svoje intrigantne značajke poput:

  • To je jedina distribucija Hadoopa koja uključuje Pig, Hive i Sqoop bez ikakvih Java ovisnosti - budući da se oslanja na MapR-File System.
  • MapR je najproduktivnija Hadoop distribucija s brojnim poboljšanjima koja je čine jednostavnijom za upotrebu, bržom i pouzdanom.

Sada ćemo detaljno razgovarati o distribuciji Cloudera Hadoop.

Pretplatite se na naš YouTube kanal da biste dobivali nova ažuriranja ...

Cloudera Hadoop: Distribucija Cloudere

Cloudera je najpoznatiji igrač u prostoru Hadoop koji je objavio prvu komercijalnu distribuciju Hadoop-a.

Fig: Cloudera Hadoop Distribution

Cloudera Hadoop Distribution podržava sljedeći skup značajki:

  1. Clouderin CDH obuhvaća sve komponente otvorenog koda, cilja implementacije u poslovnoj klasi i jedna je od najpopularnijih komercijalnih distribucija Hadoop-a.
  2. Poznata po svojim inovacijama, Cloudera je prva ponudila SQL-za-Hadoop sa svojim Impala upitni mehanizam.
  3. Upravljačka konzola - Cloudera Manager , jednostavan je za upotrebu i implementaciju s bogatim korisničkim sučeljem koji prikazuje sve informacije o klasteru na organiziran i čist način.
  4. U CDH možete dodavati usluge početnom klasteru bez ikakvih smetnji.
  5. Ostali dodaci Cloudere uključuju sigurnost, korisničko sučelje i sučelja za integraciju s aplikacijama trećih strana.
  6. CDH pruža Predlošci čvora tj. omogućuje stvaranje grupe čvorova u Hadoop klasteru s različitom konfiguracijom. Iskorenjuje upotrebu iste konfiguracije kroz Hadoop klaster.
  7. Također podržava:
    • Pouzdanost
      Dobavljači Hadoop-a odmah reagiraju kad god se otkrije bug. S namjerom da komercijalna rješenja učine stabilnijima, zakrpe i popravci se odmah raspoređuju.
    • Podrška
      Dobavljači Cloudera Hadoop pružaju tehničke smjernice i pomoć koja kupcima olakšava usvajanje Hadoopa za poslovne zadatke i kritične aplikacije.

    • Potpunost
      Dobavljači Hadoopa povezuju svoje distribucije s raznim drugim dodacima, koji pomažu kupcima da prilagode Hadoop aplikaciju kako bi se bavili njihovim specifičnim zadacima.

Distribucija Cloudera donosi 2 različite vrste izdanja.

  1. Izdanje Cloudera Express
  2. Cloudera Enterprise Edition

Pogledajmo sada razlike među njima.

Značajke Cloudera-Express Cloudera-Enterprise
Upravljanje klasterima
1. Upravljanje više klasteraDaDa
2. Upravljanje resursimaDaDa
Raspoređivanje
1. Podrška za CDH 4 i 5DaDa
2. Pokretna nadogradnja CDH-aNeDa
Upravljanje uslugama i konfiguracijama
1. Upravljanje uslugama HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark i AccumuloDaDa
2. Pokretanje ponovnog pokretanja uslugaNeDa
Sigurnost
1. LDAP provjera autentičnostiNeDa
2. SAML autentifikacijaNeDa
Nadzor i dijagnostika
1. Zdravstvena povijestDaDa
Upravljanje upozorenjima
1. Upozorenje putem e-pošteDaDa
2. Upozorenje putem SNMP-aNeDa
Napredne značajke upravljanja
1. Automatizirano sigurnosno kopiranje i oporavakNeDa
2. Pregledavanje i pretraživanje datotekaNeDa
3. MapReduce, Impala, HBase, izvješća o korištenju pređeNeDa

Cloudera Hadoop: Voditeljica Cloudere

Prema Clouderi, Cloudera Manager je najbolji način za to instalirati , konfigurirati , upravljati , i monitor stog Hadoop.

Sadrži:

  1. Automatizirano postavljanje i konfiguracija
  2. Prilagodljivo praćenje i izvještavanje
  3. Robusno rješavanje problema bez napora
  4. Nula - održavanje zastoja

Steknite detaljno znanje o Cloudera Hadoop i raznim alatima

Demonstracija upravitelja Cloudere

Istražimo Cloudera Manager.

1. Ispod slike prikazan je broj usluga koje su trenutno pokrenute u Cloudera Manageru. Također možete pregledati grafikone o korištenju CPU klastera, upotrebi diska IO itd.

Fig: Početna stranica Cloudera Manager

2. Ispod slike prikazan je klaster HBase. Daje vam grafikone i grafikone o zdravstvenom stanju trenutno pokrenutog HBase REST poslužitelja.

Slika: Zdravstveni uvjeti HBase poslužitelja

3. Sada, pogledajmo karticu Primjerci klastera HBase gdje možete provjeriti status i IP konfiguraciju.

Slika: Status i IP adresa Host poslužitelja klastera HBase

4. Dalje, imate karticu Konfiguracija. Ovdje možete vidjeti sve konfiguracijske parametre i promijeniti njihove vrijednosti.

Slika: Konfiguracija klastera HBase

Ajmo sada razumjeti što su to Parcele u Clouderi.

Cloudera Hadoop: Paketi

Paket je binarni format distribucije koji sadrži programske datoteke, zajedno s dodatnim metapodacima koje koristi Cloudera Manager.

Paketi su samostalni i instalirani u verzijski direktorij, što znači da se više verzija dane usluge može instalirati jedna pored druge.

Ispod su prednosti korištenja parcele:

  • Pruža distribuciju CDH-a kao jedinstvenog objekta, tj. Umjesto da imaju zasebni paket za svaki dio CDH-a, paketi samo trebaju instalirati jedan objekt.

  • Nudi internu dosljednost (budući da se kompletni CDH distribuira kao jedan paket, sve se komponente CDH podudaraju i neće postojati rizik da različiti dijelovi dolaze iz različitih verzija CDH-a).

  • Pakete možete instalirati, nadograditi, vratiti na stariju verziju, distribuirati i aktivirati u CDH pomoću nekoliko klikova.

Sada, da vidimo kako instalirati i aktivirati uslugu Kafka u CDH pomoću parcela.

  1. Idite na početnu stranicu upravitelja Cloudere >> Domaćini >> Parcele kao što je prikazano dolje

    Sl: Odabir paketa od domaćina

2. Ako na popisu paketa ne vidite Kafku, paket možete dodati na popis.

  1. Pronađite paket verzije Kafke koji želite koristiti. Ako ga ne vidite, možete dodati spremište paketa na popis.
  2. Pronađite paket za verziju Kafke koju želite instalirati - Cloudera Distribucija verzija Apache Kafka .
    Ispod prikazuje slika koja pokazuje isto.

Slika: Staza spremišta za paket.

3. Kopirajte vezu kao što je prikazano na gornjoj slici i dodajte je u Spremište udaljenih parcela kao što je prikazano dolje.

Slika: Dodavanje Kafkine staze iz spremišta

Četiri.Nakon dodavanja puta, Kafka će biti spreman za preuzimanje. Možete samo kliknuti na gumb za preuzimanje i preuzeti Kafku.

Fig: Preuzimanje Kafke

5. Jednom kada se Kafka preuzme, sve što trebate je distribuirati i aktivirati.

Slika: Aktiviranje Kafke

Nakon što se aktivira, možete nastaviti i pregledavati Kafku na kartici usluga u Cloudera manageru.

Fig: Kafka usluga

Cloudera Hadoop: Stvaranje Oozie tijeka rada

Stvaranje tijeka rada ručnim pisanjem XML koda i njegovim izvršenjem složeno je. Možete ovo uputiti Zakazivanje Oozie posla blog, kako biste znali o tradicionalnom pristupu.

Možete vidjeti sliku ispod, gdje smo napisali XML datoteku za stvaranje jednostavnog Oozie tijeka rada. Slika: Stvaranje Oozie tijeka rada tradicionalnim pristupom

Kao što vidite, čak i za stvaranje jednostavnog Oozie planera morali smo napisati ogroman XML kôd koji oduzima vrijeme, a otklanjanje pogrešaka u svakom retku postaje glomazno. Kako bi to prevladao, Cloudera Manager predstavio je novu značajku pod nazivom Hue koji pruža GUI i jednostavne značajke povlačenja i ispuštanja za stvaranje i izvršavanje Oozie tijekova rada.

Sada da vidimo kako Hue pojednostavljeno izvodi isti zadatak.

Prije stvaranja tijeka rada, prvo stvorimo ulazne datoteke, tj. Clickstream.txt i user.txt.
U datoteci user.txt imamo korisnički ID, ime, dob, državu, spol kao što je prikazano u nastavku. Ova nam je korisnička datoteka potrebna da bismo znali kako korisnici broje i klikaju na URL (spomenut u datoteci clickstream) na temelju korisničkog identiteta.

Slika: Stvaranje tekstualne datoteke

Kako bismo znali broj klikova korisnika na svaki URL, imamo stream klikova koji sadrži User ID i URL.

Slika: Datoteka Clickstream

Zapišimo upite u datoteku skripte.

Slika: Datoteka skripte

Nakon što kreiramo korisničku datoteku, datoteku klika i datoteku skripte, možemo nastaviti i stvoriti Oozie tijek rada.

1. Možete jednostavno povući i ispustiti Oozie tijek rada kao što je prikazano na slici.

Slika: Značajka povlačenja i ispuštanja stvaranja Oozie tijeka rada

2. Ubrzo nakon ispuštanja akcije, morate odrediti staze do datoteke skripte i dodati parametre spomenute u datoteci skripte. Ovdje morate dodati parametre OUTPUT, CLICKSTREAM i USER i odrediti put do svakog od parametara.

Slika: Dodavanje datoteke skripte i potrebnih parametara za izvršavanje radnje

3. Nakon što odredite staze i dodate parametre, sada jednostavno spremite i pošaljite tijek rada kako je prikazano na donjoj slici.

Slika: Spremanje i predavanje Oozie akcije

4. Nakon što predate zadatak, vaš je posao dovršen. Za izvršenje i ostale korake brine Hue.

Slika: Status izvršenja Oozie posla

5.Sad kad smo izvršili posao Oozie, pogledajmo karticu radnje. Sadrži korisnički ID i status tijeka rada. Također prikazuje kodove pogrešaka, ako postoje, vrijeme početka i završetka stavke radnje.

Slika: Elementi prisutni na kartici radnje Oozie tijeka rada

6. Pored kartice radnja nalazi se kartica pojedinosti. U tome možemo vidjeti vrijeme početka i posljednje izmijenjeno vrijeme posla.

Slika: Pojedinosti o Oozie tijeku rada.

7. Pored kartice Pojedinosti imamo karticu Konfiguracija tijeka rada.

Slika: Postavke konfiguracije Oozie tijeka rada

preopterećenje i nadjačavanje u javi

7. Tijekom izvođenja stavke radnje, ako postoje greške, ona će biti navedena na kartici Dnevnik. Možete se pozvati na izjave o pogreškama i u skladu s tim ispraviti ih.

Slika: Dnevnik koji sadrži kodove pogrešaka i izjave o pogreškama

8. Ovdje je XML kôd tijeka posla koji automatski generira Hue.

Slika: XML kôd Oozie tijeka rada

9.1. Kao što ste već naveli put za izlazni direktorij u koraku 2, ovdje imate izlazni direktorij u pregledniku HDFS kao što je prikazano dolje.

Slika: Izlazni direktorij preglednika HDFS

9.2 Jednom kada kliknete na izlazni direktorij, pronaći ćete tekstualnu datoteku nazvanu output.txt i ona sadrži stvarni izlaz kao što je prikazano na donjoj slici.

Slika: Konačni izlazni tekst

Na ovaj način Hue olakšava naš rad pružajući opcije povlačenja i ispuštanja za stvaranje Oozie tijeka rada.

Nadam se da je ovaj blog bio koristan za razumijevanje distribucije Cloudera i različitih komponenti Cloudera.

Želite li sudjelovati u revoluciji velikih podataka?

Sad kad ste shvatili Cloudera Hadoop Distribution, pogledajte Edureka, pouzdane tvrtke za internetsko učenje s mrežom od više od 250 000 zadovoljnih učenika raširenih širom svijeta. Edureka tečaj obuke za certificiranje velikih podataka Hadoop pomaže učenicima da postanu stručnjaci za HDFS, pređu, MapReduce, svinju, košnicu, HBase, Oozie, Flume i Sqoop koristeći slučajeve upotrebe u stvarnom vremenu na maloprodaji, društvenim mrežama, zrakoplovstvu, turizmu i financijama.

Imate pitanje za nas? Molimo spomenite to u odjeljku za komentare i javit ćemo vam se.