Hadoop 2.0 - najčešća pitanja



Zanimanje za Hadoop poraslo je u više navrata u posljednjih nekoliko godina. Ovaj post odgovara na vaše upite i uklanja mnoge sumnje u vezi s Hadoop 2.0 i njegovom uporabom.

Ovo je naknadni post s odgovorom na često postavljana pitanja tijekom javnog webinara Edureke! na .

Često postavljana pitanja o Hadoopu

Deepak:





Što je Hadoop?
Apache Hadoop je softverski okvir otvorenog koda za pohranu i veliku obradu skupova podataka na klasterima robnog hardvera. Riječ je o softverskom okviru za upravljanje podacima otvorenog koda s proširenom pohranom i distribuiranom obradom. Izgrađuje ga i koristi globalna zajednica suradnika i korisnika.

Pročitajte više na našem blogu Hadoop i .



Traži:

Koji su slučajevi korištenja velikih podataka u putovanjima, prijevozu i zrakoplovnoj industriji?

Sunčano:



Možete li nam uputiti neki stvarni uzorak implementacije Hadoop-a koji možemo proučiti?
Mi smo liviodu eri sve veće gužve u vršnom vremenu. Prijevoznici neprestano nastoje pronaći isplative načine za pružanje svojih usluga, a istovremeno održavaju svoju prijevoznu flotu u dobrim uvjetima. Korištenje analitike velikih podataka na ovoj domeni može pomoći organizaciji u:

  • Optimizacija rute
  • Geoprostorna analitika
  • Obrasci prometa i zagušenja
  • Održavanje imovine
  • Upravljanje prihodom (tj. Zrakoplovna tvrtka)
  • Upravljanje zalihama
  • Očuvanje goriva
  • Ciljani marketing
  • Vjernost kupca
  • Predviđanje kapaciteta
  • Mrežne performanse i optimizacija

Nekoliko slučajeva stvarne upotrebe su:
do) Utvrđivanje troškova leta
b) Modeliranje predviđanja za logistiku zaliha
c) Orbitz širom svijeta - obrasci kupca
d) Šest implementacija Hadoop-a super razmjera
je) Hadoop - više nego što dodaje
f) Hadoop u Enterpriseu

Više o implementacijama Hadoop-a u stvarnom svijetu možete saznati na:

Hirdesh:

Je li Hadoop sve o rukovanju i obradi podataka? Kako ići na izvješćivanje i vizualnu analitiku. Može li se Qlikview, Tableau koristiti na vrhu Hadoopa?
Osnovne komponente Hadoop-a HDFS i MapReduce odnose se na pohranu i obradu podataka. HDFS za pohranu i MapReduce za obradu. Ali komponente Hadoop jezgre poput Pig i Hive koriste se za analitiku. Za tablicu vizualnih izvješća, QlikView se može povezati s Hadoop-om za vizualno izvještavanje.

Amit:

Hadoop vs. mongoDB
MongoDB se koristi kao 'operativna' trgovina podataka u stvarnom vremenu, dok se Hadoop koristi za izvanmrežnu skupnu obradu i analizu podataka.
mongoDB je spremište podataka bez sheme, orijentirano na dokumente, a koje možete koristiti u web aplikaciji kao pozadinu umjesto RDBMS-a poput MySQL-a, dok se Hadoop uglavnom koristi kao proširiva pohrana i distribuirana obrada velike količine podataka.

Pročitajte više na našem post na blogu mongoDB i Hadoop .

Ovdje:

Je li Apache Spark dio Hadoopa ?
Apache Spark je brz i općenit mehanizam za veliku obradu podataka. Spark je brži i podržava obradu u memoriji. Stroj za izvršavanje iskre proširuje vrstu računalnih radnih opterećenja koja Hadoop može podnijeti i može se pokretati na Hadoop 2.0 YARN klasteru. To je okvirni sustav za obradu koji omogućuje pohranu In-Memory objekata (RDD), zajedno s mogućnošću obrade tih objekata pomoću zatvarača Scala. Podržava Graph, Warehouse, Machine Learning i Stream obradu.

Ako imate klaster Hadoop 2, možete pokrenuti Spark bez ikakve potrebne instalacije. Inače, Spark je lako pokretati samostalno ili na EC2 ili Mesos. Može čitati s HDFS-a, HBase-a, Cassandre i bilo kojeg izvora podataka Hadoop-a.

Pročitajte više na Spark ovdje .

Prasad:

Što je Apache Flume?
Apache Flume distribuiran je, pouzdan i dostupan sustav za učinkovito prikupljanje, agregiranje i premještanje velike količine podataka dnevnika iz mnogih različitih izvora u centralizirani izvor podataka.

Amit:

SQL vs NO-SQL baze podataka
NoSQL baze podataka su baze podataka sljedeće generacije i uglavnom se bave nekim točkama

  • nerelacijski
  • raspodijeljeni
  • otvoreni izvor
  • vodoravno skalabilno

Često se primjenjuju više karakteristika, kao što su bez sheme, jednostavna podrška za replikaciju, jednostavan API, na kraju konzistentan / BASE (ne ACID), ogromna količina podataka i još mnogo toga. Na primjer, malo je diferencijatora:

  • NoSQL baze podataka povećavaju se vodoravno, dodajući više poslužitelja za rješavanje većih opterećenja. S druge strane, SQL baze podataka obično se povećavaju vertikalno, dodajući sve više resursa na jedan poslužitelj kako se promet povećava.
  • SQL baze podataka zahtijevale su da definirate svoje sheme prije dodavanja bilo kakvih podataka i podataka, ali NoSQL baze podataka su bez shema i ne trebaju unaprijed definirati shemu.
  • SQL baze podataka temelje se na tablicama s redovima i stupcima slijedeći RDBMS principe, dok su NoSQL baze podataka parovi ključ / vrijednost, spremišta grafikona ili širokih stupaca.
  • SQL baze podataka koriste SQL (jezik strukturiranih upita) za definiranje i manipulaciju podacima. U NoSQL bazi podataka upiti se razlikuju od baze podataka do baze podataka.

Popularne baze podataka SQL: MySQL, Oracle, Postgres i MS-SQL
Popularan NoSQL baze podataka: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j i CouchDB

Pregledajte naše blogove na Hadoop i NoSQL baze podataka i prednosti jedne takve baze podataka:

Koteswararao:

Ima li Hadoop ugrađenu tehnologiju klastera?
Klaster Hadoop koristi arhitekturu Master-Slave. Sastoji se od jednog glavnog (NameNode) i klastera podređenih (DataNodes) za pohranu i obradu podataka. Hadoop je dizajniran za rad na velikom broju strojeva koji ne dijele memoriju ili diskove. Ovi čvorovi podataka konfigurirani su kao klaster . Hadoop koristi koncept replikacije kako bi osigurao da barem jedna kopija podataka bude stalno dostupna u klasteru. Budući da postoji više kopija podataka, podaci pohranjeni na poslužitelju koji je izvan mreže ili umire mogu se automatski replicirati iz poznate dobre kopije.

Dinesh:

Što je posao u Hadoopu? Što se sve može postići poslom?
U Hadoopu, posao je program MapReduce za obradu / analizu podataka. Pojam MapReduce zapravo se odnosi na dva odvojena i različita zadatka koja Hadoop programi izvode. Prvi je zadatak Map, koji uzima skup podataka i pretvara ih u drugi skup posrednih podataka, gdje se pojedinačni elementi raščlanjuju u parove ključ / vrijednost. Drugi dio zadatka MapReduce, zadatak Smanji, uzima izlaz s karte kao ulaz i kombinira parove ključ / vrijednost u manji skup agregiranog para ključ / vrijednost. Kao što slijed imena MapReduce implicira, zadatak Smanji se uvijek izvodi nakon završetka zadataka Mape. Pročitajte više na MapReduce Job .

Sukruth:

Ono što je posebno kod NameNode ?
NameNode je srce HDFS datotečnog sustava. Čuva metapodatke kao što je stablo direktorija svih datoteka u datotečnom sustavu i prati gdje se na klasteru čuvaju podaci o datotekama. Stvarni podaci pohranjuju se na DataNodes kao HDFS blokovi.
Klijentske aplikacije razgovaraju s NameNodeom kad god žele pronaći datoteku ili kad god žele dodati / kopirati / premjestiti / izbrisati datoteku. NameNode odgovara na uspješne zahtjeve vraćajući popis relevantnih DataNodes poslužitelja na kojima podaci žive. Pročitajte više o HDFS arhitekturi .

Dinesh:

Kada je Hadoop 2.0 predstavljen na tržištu?
Apache Software Foundation (ASF), grupa otvorenog koda koja upravlja razvojem Hadoop-a, na svom je blogu 15. listopada 2013. objavila da je Hadoop 2.0 općenito dostupan (GA). Ova najava znači da su nakon dugog čekanja Apache Hadoop 2.0 i YARN sada spremni za implementaciju u proizvodnji. Više na Blog.

Dinesh:

Koji su nekoliko primjera aplikacije Big Data koja nije MapReduce?
MapReduce je sjajan za mnoge aplikacije za rješavanje problema s velikim podacima, ali ne i za sve druge modele programiranja koji bolje odgovaraju zahtjevima kao što su obrada grafova (npr. Google Pregel / Apache Giraph) i iterativno modeliranje sa sučeljem za prosljeđivanje poruka (MPI).

Marish:

Kako se podaci slažu i indeksiraju u HDFS-u?
Podaci se dijele na blokove od 64 MB (mogu se konfigurirati parametrom) i pohranjuju u HDFS. NameNode pohranjuje podatke o pohrani tih blokova kao ID bloka u svojoj RAM memoriji (metapodaci NameNode). MapReduce poslovi mogu pristupiti tim blokovima pomoću metapodataka pohranjenih u NameNode RAM-u.

Shashwat:

Možemo li koristiti MapReduce (MRv1) i MRv2 (s YARN) na istom klasteru?
Hadoop 2.0 predstavio je novi okvir YARN za pisanje i izvršavanje različitih aplikacija na Hadoopu. Dakle, YARN i MapReduce dva su različita koncepta u Hadoop-u 2.0 i ne smiju se međusobno miješati i koristiti naizmjenično. Pravo pitanje je 'Je li moguće pokrenuti i MRv1 i MRv2 na klasteru Hadoop 2.0 s omogućenom pređom?' Odgovor na ovo pitanje je 'Ne' kao što se i Hadoop klaster može konfigurirati za pokretanje i MRv1 i MRv2, ali može pokretati samo jedan set demona u bilo kojem trenutku. Oba ova okvira na kraju koriste iste konfiguracijske datoteke ( pređa-site.xml i mapred-site.xml ) za pokretanje demona, stoga se na Hadoop klasteru može omogućiti samo jedna od dvije konfiguracije.

Lutka:

Koja je razlika između MapReduce sljedeće generacije (MRv2) i PREĐE?
Pređa i MapReduce sljedeće generacije (MRv2) dva su različita koncepta i tehnologije u Hadoop-u 2.0. YARN je softverski okvir koji se može koristiti za pokretanje ne samo MRv2 već i drugih aplikacija. MRv2 je aplikacijski okvir napisan pomoću YARN API-a i radi u okviru YARN-a.

Bharat:

Pruža li Hadoop 2.0 povratnu kompatibilnost za programe Hadoop 1.x?
Neha:

Zahtijeva li migracija Hadoop 1.0 na 2.0 težak aplikacijski kôd migracija?
Ne, većina aplikacija razvijenih pomoću API-ja „org.apache.hadoop.mapred“ može se pokretati na YARN-u bez ikakve ponovne kompilacije. YARN je binarno kompatibilan s MRv1 aplikacijama i 'bin / hadoop' se može koristiti za podnošenje tih aplikacija na YARN. Pročitajte više o ovome ovdje .

kako baciti dvojnika na int

Sherin:

Što se događa ako čvor Resource Manager otkaže u Hadoop 2.0?
Počevši od izdanja Hadoop 2.4.0, dostupna je i podrška za visoku dostupnost za Resource Manager. ResourceManager koristi Apache ZooKeeper za neuspjeh. Kada čvor Upravitelja resursa zakaže, sekundarni čvor može se brzo oporaviti putem stanja klastera spremljenog u ZooKeeper. ResourceManager, u slučaju neuspjeha, ponovno pokreće sve aplikacije u redu i pokrenute.

Sabbirali:

Radi li Apacheov Hadoop okvir na Cloudera Hadoop?
Apache Hadoop predstavljen je 2005. s osnovnim mehanizmom za obradu MapReduce koji podržava distribuiranu obradu velikih opterećenja podataka pohranjenih u HDFS-u. To je projekt otvorenog koda i ima više distribucija (slično Linuxu). Cloudera Hadoop (CDH) jedna je od takvih distribucija Cloudere. Ostale slične distribucije su HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights itd.

Arulvadivel:

Postoji li jednostavan način za instaliranje Hadoopa na moj laptop i isprobavanje migracije Oracle baze podataka na Hadoop?
Možeš početak s HortonWorks Sandbox ili Cloudera Quick VM na vašem prijenosnom računalu (s najmanje 4 GB RAM-a i i3 ili novijim procesorom). Upotrijebite SQOOP za premještanje podataka iz Oraclea u Hadoop kako je objašnjeno ovdje .

Bhabani:

Koje su najbolje knjige dostupne za učenje Hadoopa?
Početi sa Hadoop: konačni vodič Tom White i Hadoop operacije autora Erica Sammera.

Mahendra:

Postoji li neko čitanje dostupno za Hadoop 2.0 baš kao i Hadoop konačni vodič?
Pregledajte zadnji dolazak na policama s knjigama koje su napisali malobrojni tvorci Hadoop-a 2.0.

Pratite još pitanja u ovoj seriji.