HADOOP 2.0 - ČESTO POSTAVLJANA PITANJA -

Ovo je naknadni post s odgovorom na često postavljana pitanja tijekom javnog webinara Edureke! na .

Često postavljana pitanja o Hadoopu

Deepak:

Što je Hadoop?
Apache Hadoop je softverski okvir otvorenog koda za pohranu i veliku obradu skupova podataka na klasterima robnog hardvera. Riječ je o softverskom okviru za upravljanje podacima otvorenog koda s proširenom pohranom i distribuiranom obradom. Izgrađuje ga i koristi globalna zajednica suradnika i korisnika.

Pročitajte više na našem blogu Hadoop i .

Traži:

Koji su slučajevi korištenja velikih podataka u putovanjima, prijevozu i zrakoplovnoj industriji?

Sunčano:

Možete li nam uputiti neki stvarni uzorak implementacije Hadoop-a koji možemo proučiti?
Mi smo liviodu eri sve veće gužve u vršnom vremenu. Prijevoznici neprestano nastoje pronaći isplative načine za pružanje svojih usluga, a istovremeno održavaju svoju prijevoznu flotu u dobrim uvjetima. Korištenje analitike velikih podataka na ovoj domeni može pomoći organizaciji u:

Optimizacija rute
Geoprostorna analitika
Obrasci prometa i zagušenja
Održavanje imovine
Upravljanje prihodom (tj. Zrakoplovna tvrtka)
Upravljanje zalihama
Očuvanje goriva
Ciljani marketing
Vjernost kupca
Predviđanje kapaciteta
Mrežne performanse i optimizacija

Nekoliko slučajeva stvarne upotrebe su:
do) Utvrđivanje troškova leta
b) Modeliranje predviđanja za logistiku zaliha
c) Orbitz širom svijeta - obrasci kupca
d) Šest implementacija Hadoop-a super razmjera
je) Hadoop - više nego što dodaje
f) Hadoop u Enterpriseu

Više o implementacijama Hadoop-a u stvarnom svijetu možete saznati na:

Veliki podaci u zdravstvu: Kako Hadoop revolucionira zdravstvenu analitiku

Hirdesh:

Je li Hadoop sve o rukovanju i obradi podataka? Kako ići na izvješćivanje i vizualnu analitiku. Može li se Qlikview, Tableau koristiti na vrhu Hadoopa?
Osnovne komponente Hadoop-a HDFS i MapReduce odnose se na pohranu i obradu podataka. HDFS za pohranu i MapReduce za obradu. Ali komponente Hadoop jezgre poput Pig i Hive koriste se za analitiku. Za tablicu vizualnih izvješća, QlikView se može povezati s Hadoop-om za vizualno izvještavanje.

Amit:

Hadoop vs. mongoDB
MongoDB se koristi kao 'operativna' trgovina podataka u stvarnom vremenu, dok se Hadoop koristi za izvanmrežnu skupnu obradu i analizu podataka.
mongoDB je spremište podataka bez sheme, orijentirano na dokumente, a koje možete koristiti u web aplikaciji kao pozadinu umjesto RDBMS-a poput MySQL-a, dok se Hadoop uglavnom koristi kao proširiva pohrana i distribuirana obrada velike količine podataka.

Pročitajte više na našem post na blogu mongoDB i Hadoop .

Ovdje:

Je li Apache Spark dio Hadoopa ?
Apache Spark je brz i općenit mehanizam za veliku obradu podataka. Spark je brži i podržava obradu u memoriji. Stroj za izvršavanje iskre proširuje vrstu računalnih radnih opterećenja koja Hadoop može podnijeti i može se pokretati na Hadoop 2.0 YARN klasteru. To je okvirni sustav za obradu koji omogućuje pohranu In-Memory objekata (RDD), zajedno s mogućnošću obrade tih objekata pomoću zatvarača Scala. Podržava Graph, Warehouse, Machine Learning i Stream obradu.

Ako imate klaster Hadoop 2, možete pokrenuti Spark bez ikakve potrebne instalacije. Inače, Spark je lako pokretati samostalno ili na EC2 ili Mesos. Može čitati s HDFS-a, HBase-a, Cassandre i bilo kojeg izvora podataka Hadoop-a.

Pročitajte više na Spark ovdje .

Prasad:

Što je Apache Flume?
Apache Flume distribuiran je, pouzdan i dostupan sustav za učinkovito prikupljanje, agregiranje i premještanje velike količine podataka dnevnika iz mnogih različitih izvora u centralizirani izvor podataka.

Amit:

SQL vs NO-SQL baze podataka
NoSQL baze podataka su baze podataka sljedeće generacije i uglavnom se bave nekim točkama

nerelacijski
raspodijeljeni
otvoreni izvor
vodoravno skalabilno

Često se primjenjuju više karakteristika, kao što su bez sheme, jednostavna podrška za replikaciju, jednostavan API, na kraju konzistentan / BASE (ne ACID), ogromna količina podataka i još mnogo toga. Na primjer, malo je diferencijatora:

NoSQL baze podataka povećavaju se vodoravno, dodajući više poslužitelja za rješavanje većih opterećenja. S druge strane, SQL baze podataka obično se povećavaju vertikalno, dodajući sve više resursa na jedan poslužitelj kako se promet povećava.
SQL baze podataka zahtijevale su da definirate svoje sheme prije dodavanja bilo kakvih podataka i podataka, ali NoSQL baze podataka su bez shema i ne trebaju unaprijed definirati shemu.
SQL baze podataka temelje se na tablicama s redovima i stupcima slijedeći RDBMS principe, dok su NoSQL baze podataka parovi ključ / vrijednost, spremišta grafikona ili širokih stupaca.
SQL baze podataka koriste SQL (jezik strukturiranih upita) za definiranje i manipulaciju podacima. U NoSQL bazi podataka upiti se razlikuju od baze podataka do baze podataka.

Popularne baze podataka SQL: MySQL, Oracle, Postgres i MS-SQL
Popularan NoSQL baze podataka: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j i CouchDB

Pregledajte naše blogove na Hadoop i NoSQL baze podataka i prednosti jedne takve baze podataka:

Koteswararao:

Ima li Hadoop ugrađenu tehnologiju klastera?
Klaster Hadoop koristi arhitekturu Master-Slave. Sastoji se od jednog glavnog (NameNode) i klastera podređenih (DataNodes) za pohranu i obradu podataka. Hadoop je dizajniran za rad na velikom broju strojeva koji ne dijele memoriju ili diskove. Ovi čvorovi podataka konfigurirani su kao klaster . Hadoop koristi koncept replikacije kako bi osigurao da barem jedna kopija podataka bude stalno dostupna u klasteru. Budući da postoji više kopija podataka, podaci pohranjeni na poslužitelju koji je izvan mreže ili umire mogu se automatski replicirati iz poznate dobre kopije.

Dinesh:

Što je posao u Hadoopu? Što se sve može postići poslom?
U Hadoopu, posao je program MapReduce za obradu / analizu podataka. Pojam MapReduce zapravo se odnosi na dva odvojena i različita zadatka koja Hadoop programi izvode. Prvi je zadatak Map, koji uzima skup podataka i pretvara ih u drugi skup posrednih podataka, gdje se pojedinačni elementi raščlanjuju u parove ključ / vrijednost. Drugi dio zadatka MapReduce, zadatak Smanji, uzima izlaz s karte kao ulaz i kombinira parove ključ / vrijednost u manji skup agregiranog para ključ / vrijednost. Kao što slijed imena MapReduce implicira, zadatak Smanji se uvijek izvodi nakon završetka zadataka Mape. Pročitajte više na MapReduce Job .

Sukruth:

Ono što je posebno kod NameNode ?
NameNode je srce HDFS datotečnog sustava. Čuva metapodatke kao što je stablo direktorija svih datoteka u datotečnom sustavu i prati gdje se na klasteru čuvaju podaci o datotekama. Stvarni podaci pohranjuju se na DataNodes kao HDFS blokovi.
Klijentske aplikacije razgovaraju s NameNodeom kad god žele pronaći datoteku ili kad god žele dodati / kopirati / premjestiti / izbrisati datoteku. NameNode odgovara na uspješne zahtjeve vraćajući popis relevantnih DataNodes poslužitelja na kojima podaci žive. Pročitajte više o HDFS arhitekturi .

Dinesh:

Kada je Hadoop 2.0 predstavljen na tržištu?
Apache Software Foundation (ASF), grupa otvorenog koda koja upravlja razvojem Hadoop-a, na svom je blogu 15. listopada 2013. objavila da je Hadoop 2.0 općenito dostupan (GA). Ova najava znači da su nakon dugog čekanja Apache Hadoop 2.0 i YARN sada spremni za implementaciju u proizvodnji. Više na Blog.

Dinesh:

Koji su nekoliko primjera aplikacije Big Data koja nije MapReduce?
MapReduce je sjajan za mnoge aplikacije za rješavanje problema s velikim podacima, ali ne i za sve druge modele programiranja koji bolje odgovaraju zahtjevima kao što su obrada grafova (npr. Google Pregel / Apache Giraph) i iterativno modeliranje sa sučeljem za prosljeđivanje poruka (MPI).

Marish:

Kako se podaci slažu i indeksiraju u HDFS-u?
Podaci se dijele na blokove od 64 MB (mogu se konfigurirati parametrom) i pohranjuju u HDFS. NameNode pohranjuje podatke o pohrani tih blokova kao ID bloka u svojoj RAM memoriji (metapodaci NameNode). MapReduce poslovi mogu pristupiti tim blokovima pomoću metapodataka pohranjenih u NameNode RAM-u.

Shashwat:

Možemo li koristiti MapReduce (MRv1) i MRv2 (s YARN) na istom klasteru?
Hadoop 2.0 predstavio je novi okvir YARN za pisanje i izvršavanje različitih aplikacija na Hadoopu. Dakle, YARN i MapReduce dva su različita koncepta u Hadoop-u 2.0 i ne smiju se međusobno miješati i koristiti naizmjenično. Pravo pitanje je 'Je li moguće pokrenuti i MRv1 i MRv2 na klasteru Hadoop 2.0 s omogućenom pređom?' Odgovor na ovo pitanje je 'Ne' kao što se i Hadoop klaster može konfigurirati za pokretanje i MRv1 i MRv2, ali može pokretati samo jedan set demona u bilo kojem trenutku. Oba ova okvira na kraju koriste iste konfiguracijske datoteke ( pređa-site.xml i mapred-site.xml ) za pokretanje demona, stoga se na Hadoop klasteru može omogućiti samo jedna od dvije konfiguracije.

Lutka:

Koja je razlika između MapReduce sljedeće generacije (MRv2) i PREĐE?
Pređa i MapReduce sljedeće generacije (MRv2) dva su različita koncepta i tehnologije u Hadoop-u 2.0. YARN je softverski okvir koji se može koristiti za pokretanje ne samo MRv2 već i drugih aplikacija. MRv2 je aplikacijski okvir napisan pomoću YARN API-a i radi u okviru YARN-a.

Bharat:

Pruža li Hadoop 2.0 povratnu kompatibilnost za programe Hadoop 1.x?
Neha:

Zahtijeva li migracija Hadoop 1.0 na 2.0 težak aplikacijski kôd migracija?
Ne, većina aplikacija razvijenih pomoću API-ja „org.apache.hadoop.mapred“ može se pokretati na YARN-u bez ikakve ponovne kompilacije. YARN je binarno kompatibilan s MRv1 aplikacijama i 'bin / hadoop' se može koristiti za podnošenje tih aplikacija na YARN. Pročitajte više o ovome ovdje .

kako baciti dvojnika na int

Sherin:

Što se događa ako čvor Resource Manager otkaže u Hadoop 2.0?
Počevši od izdanja Hadoop 2.4.0, dostupna je i podrška za visoku dostupnost za Resource Manager. ResourceManager koristi Apache ZooKeeper za neuspjeh. Kada čvor Upravitelja resursa zakaže, sekundarni čvor može se brzo oporaviti putem stanja klastera spremljenog u ZooKeeper. ResourceManager, u slučaju neuspjeha, ponovno pokreće sve aplikacije u redu i pokrenute.

Sabbirali:

Radi li Apacheov Hadoop okvir na Cloudera Hadoop?
Apache Hadoop predstavljen je 2005. s osnovnim mehanizmom za obradu MapReduce koji podržava distribuiranu obradu velikih opterećenja podataka pohranjenih u HDFS-u. To je projekt otvorenog koda i ima više distribucija (slično Linuxu). Cloudera Hadoop (CDH) jedna je od takvih distribucija Cloudere. Ostale slične distribucije su HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights itd.

Arulvadivel:

Postoji li jednostavan način za instaliranje Hadoopa na moj laptop i isprobavanje migracije Oracle baze podataka na Hadoop?
Možeš početak s HortonWorks Sandbox ili Cloudera Quick VM na vašem prijenosnom računalu (s najmanje 4 GB RAM-a i i3 ili novijim procesorom). Upotrijebite SQOOP za premještanje podataka iz Oraclea u Hadoop kako je objašnjeno ovdje .

Bhabani:

Koje su najbolje knjige dostupne za učenje Hadoopa?
Početi sa Hadoop: konačni vodič Tom White i Hadoop operacije autora Erica Sammera.

Mahendra:

Postoji li neko čitanje dostupno za Hadoop 2.0 baš kao i Hadoop konačni vodič?
Pregledajte zadnji dolazak na policama s knjigama koje su napisali malobrojni tvorci Hadoop-a 2.0.

Pratite još pitanja u ovoj seriji.

Hadoop 2.0 - najčešća pitanja

Zanimanje za Hadoop poraslo je u više navrata u posljednjih nekoliko godina. Ovaj post odgovara na vaše upite i uklanja mnoge sumnje u vezi s Hadoop 2.0 i njegovom uporabom.

Često postavljana pitanja o Hadoopu

Kategorije

Popular Articles

DevOps nije metoda ni alat, to je kultura

Sve što trebate znati o Goto Statementu u Pythonu

Što je KeyError u Pythonu? Rječnik i rukovanje njima

Što je struktura podataka u redu čekanja u Pythonu?

MySQL Workbench Vodič - sveobuhvatan vodič za RDBMS alat

Vodič za Amazon Elastic Block Store: Sve što trebate znati

Naredbe o košnicama s primjerima u HQL-u

Vodič za Jenkins | Neprekidna integracija pomoću Jenkinsa | Edureka

Kako implementirati hlapljive ključne riječi u Javi?

Hostiranje statične web stranice s AWS S3

Vodič za TensorFlow - Dubinsko učenje pomoću TensorFlow-a

Sve što trebate znati o šifriranju u Javi