Osnovni Hadoop alati za drobljenje velikih podataka

Hadoop je današnja vijest u IT svijetu, a ovaj članak opisuje ključne Hadoop alate koji kvare velike podatke.

Danas je najpopularniji izraz u IT svijetu ‘Hadoop’. U kratkom vremenskom rasponu, Hadoop je masovno narastao i pokazao se korisnim za veliku kolekciju različitih projekata. Zajednica Hadoop brzo se razvija i ima istaknutu ulogu u svom ekosustavu.



Evo pregleda osnovnih Hadoop alata koji se koriste za rukovanje velikim podacima.

možete li proširiti i implementirati u javi

ambari

Ambari je Apache projekt koji podržava Hortonworks. Nudi internetski GUI (grafičko korisničko sučelje) s čarobnjačkim skriptama za postavljanje klastera s većinom standardnih komponenata. Ambari osigurava, upravlja i nadgleda sve klastere Hadoop poslova.

hdfs-logo

The HDFS , distribuiran pod licencom Apache nudi osnovni okvir za razdvajanje zbirki podataka između više čvorova. U HDFS-u su velike datoteke razbijene u blokove, gdje nekoliko čvorova drži sve blokove iz datoteke. Datotečni sustav dizajniran je na način da kombinira toleranciju kvarova s ​​velikom propusnošću. Blokovi HDFS-a učitavaju se radi održavanja stabilnog strujanja. Obično se ne čuvaju u predmemoriji kako bi se latencija svela na najmanju moguću mjeru.

hbaselogo

HBase je sustav upravljanja bazama podataka orijentiran na stupce koji radi na vrhu HDFS-a. Aplikacije HBase napisane su na Javi, slično kao i aplikacija MapReduce. Sadrži skup tablica, gdje svaka tablica sadrži retke i stupce poput tradicionalne baze podataka. Kad podaci padnu u veliku tablicu, HBase će ih pohraniti, pretražiti i automatski podijeliti tablicu na više čvorova kako bi je MapReduce poslovi mogli pokretati lokalno. HBase nudi ograničeno jamstvo za neke lokalne promjene. Promjene koje se događaju u jednom redu mogu istodobno uspjeti ili propasti.

hive

Ako već dobro govorite sa SQL-om, tada možete iskoristiti Hadoop koristeći Košnica . Hive su razvili neki ljudi na Facebooku. Apache Hive regulira postupak izdvajanja bitova iz svih datoteka u HBaseu. Podržava analizu velikih skupova podataka pohranjenih u Hadoopovom HDFS-u i kompatibilnim sustavima datoteka. Također pruža SQL jezik poput HSQL (HiveSQL) koji ulazi u datoteke i izdvaja potrebne isječke za kôd.

sqoop

Apache Sqoop je posebno dizajniran za učinkovit prijenos skupnih podataka iz tradicionalnih baza podataka u košnicu ili HBase. Također se može koristiti za izdvajanje podataka iz Hadoopa i izvoz u vanjske strukturirane pohrane podataka poput relacijskih baza podataka i skladišta podataka poduzeća. Sqoop je alat naredbenog retka, mapiranje između tablica i sloja za pohranu podataka, prevođenje tablica u konfigurabilnu kombinaciju HDFS-a, HBase-a ili Hive-a.

Pig1

Kada su pohranjeni podaci vidljivi Hadoopu, Apache Svinja zaranja u podatke i pokreće kôd koji je napisan na njegovom vlastitom jeziku, nazvanom Pig Latin. Svinjska latinica ispunjena je apstrakcijama za rukovanje podacima. Svinja dolazi sa standardnim funkcijama za uobičajene zadatke poput prosjeka podataka, rada s datumima ili za pronalaženje razlika između žica. Svinja također omogućava korisniku da samostalno piše jezike, koji se nazivaju UDF (User Defined Function), kada standardne funkcije propadnu.

zookeper

Čuvar zoo vrta je centralizirana usluga koja održava, konfigurira informacije, daje ime i omogućuje distribuiranu sinkronizaciju kroz klaster. Klasteru nameće hijerarhiju sličnu datotečnom sustavu i pohranjuje sve metapodatke za strojeve, tako da možemo sinkronizirati rad različitih strojeva.

NoSQL

Neki se klasteri Hadoop integriraju s NoSQL pohrane podataka koje dolaze sa svojim vlastitim mehanizmima za pohranu podataka kroz klaster čvorova. To im omogućuje pohranu i dohvat podataka sa svim značajkama baze podataka NoSQL, nakon čega se Hadoop može koristiti za planiranje poslova analize podataka na istom klasteru.

mahoutlogo

Čuvar slonova u Indiji je dizajniran za implementaciju velikog broja algoritama, klasifikacija i filtriranja analize podataka u Hadoop klaster. Mnogi standardni algoritmi poput K-znači, Dirichelet, paralelni uzorak i Bayesova klasifikacija spremni su pokrenuti podatke s mapom Hadoop stila i smanjiti ih.

Lucene, napisan na Javi i lako integriran s Hadoop-om, prirodni je pratitelj Hadoopa. To je alat namijenjen indeksiranju velikih blokova nestrukturiranog teksta. Lucene obrađuje indeksiranje, dok Hadoop rješava distribuirane upite po klasteru. Značajke Lucene-Hadoop-a brzo se razvijaju kako se razvijaju novi projekti.

Avro

Euro je sustav za serializaciju koji objedinjuje podatke zajedno sa shemom za njihovo razumijevanje. Svaki paket dolazi s JSON podatkovnom strukturom. JSON objašnjava kako se podaci mogu raščlaniti. Zaglavlje JSON-a navodi strukturu podataka, pri čemu se može izbjeći potreba za upisivanjem dodatnih oznaka u podatke za označavanje polja. Izlaz je znatno kompaktniji od tradicionalnih formata poput XML-a.

Posao se može pojednostaviti rastavljanjem u korake. O razbijanju projekta na više poslova Hadoopa, Oozie počinje ih obrađivati ​​u pravom slijedu. Upravlja tijekom rada kako je određeno DAG-om (Directed Acyclic Graph) i nema potrebe za pravodobnim nadzorom.

GIS alati

Rad s geografskim kartama velik je posao za klastere koji pokreću Hadoop. GIS ( Geografski informacijski sustav ) alati za Hadoop projekte prilagodili su najbolje alate temeljene na Javi za razumijevanje zemljopisnih podataka za pokretanje s Hadoop-om. Baze podataka sada mogu obrađivati ​​geografske upite pomoću koordinata, a kodovi mogu primijeniti GIS alate.

Prikupljanje svih podataka jednako je njihovom spremanju i analizi. Apache Flume otprema 'posebne agente' za prikupljanje podataka koji će biti pohranjeni u HDFS-u. Prikupljene informacije mogu biti datoteke dnevnika, Twitter API ili bilješke web stranica. Ti se podaci mogu povezati lancima i podvrgnuti analizi.

Spark

Iskra je sljedeća generacija koja u velikoj mjeri radi poput Hadoopa koja obrađuje podatke spremljene u memoriju. Cilj mu je omogućiti brzu analizu podataka za pokretanje i pisanje pomoću općeg modela izvršenja. To može optimizirati proizvoljne grafikone operatora i podržati računarstvo u memoriji, što mu omogućuje brže pretraživanje podataka od diskovnih motora poput Hadoopa.

SQL na Hadoopu

Kad je potrebno pokrenuti brzi ad-hoc upit svih podataka u klasteru, može se napisati novi Hadoop posao, ali to traje neko vrijeme. Kad su programeri to počeli raditi češće, smislili su alate napisane jednostavnim jezikom SQL. Ovi alati nude brz pristup rezultatima.

Apache bušilica

Apache Drill pruža ad hoc upite s malim kašnjenjem brojnim i raznolikim izvorima podataka, uključujući ugniježđene podatke. Drill, nadahnut Googleovim Dremelom, dizajniran je za skaliranje do 10.000 poslužitelja i u roku od nekoliko sekundi traži petabajte podataka.

Ovo su osnovni Hadoop alati za drobljenje velikih podataka!

Imate pitanje za nas? Molimo vas da ih spominjete u odjeljku za komentare i javit ćemo vam se.

Vezane objave:

Praktični razlozi za učenje Hadoop-a 2.0