U ovom članku o Kako stvoriti Klaster Uz Amazon EMR vidjeli bismo kako lako pokretati i skalirati programe Hadoop i Big Data. U ovom će članku biti obrađeni sljedeći smjerovi,
Nastavljamo s ovim Kako stvoriti Hadoop klaster s Amazon EMR?
Kako stvoriti Hadoop klaster s Amazon EMR?
Kad nešto tražimo na Googleu ili Yahoou, odgovor dobivamo u djeliću sekunde. Kako je moguće da Google, Yahoo i druge tražilice tako brzo vrate rezultate sa sve većeg weba? Tražilice pretražuju internet, preuzimaju web stranice i stvaraju indeks kao što je prikazano u nastavku. Za bilo koji naš upit koriste indeks da bi otkrili koje su sve web stranice koje sadrže tekst koji smo tražili. Gledajući donji indeks s desne strane, možemo jasno znati da Hadoop postoji web stranica 1, 2 i 3.
Onda Algoritam rangiranja stranice koristi se koja se temelji na načinu povezivanja stranica da bi se utvrdilo koju stranicu prikazati na vrhu, a koju na dnu. U donjem scenariju W1 je 'najpopularniji' jer ga svi povezuju, a W4 je 'najmanje popularan' jer ga nitko ne povezuje. Dakle, W1 je prikazan na vrhu, a W4 na dnu u rezultatima pretraživanja.
Eksplozijom web stranica ove su tražilice pronalazile izazove za stvaranje indeksa i izračun PageRankinga. Tu se rodilo Hadoop u Yahoo-u, a kasnije je postalo FOSS (besplatni i softver otvorenog koda) pod ASF-om (Apache Software Foundation). Jednom pod ASF-om, mnoge su se tvrtke počele zanimati za Hadoop i počele doprinositi njegovom poboljšanju. Hadoop je bio taj koji je započeo revoluciju velikih podataka, ali puno drugih softvera poput Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume počelo je evoluirati kako bi riješilo ograničenja i praznine u Hadoopu.
Web tražilice su prve koje su koristile Hadoop, no kasnije se puno slučajeva korištenja počelo razvijati kako se generiralo sve više podataka. Uzmimo primjer e-trgovine koja se koristi za preporučivanje knjiga korisniku. Prema donjem dijagramu, korisnik1 je kupio knjigu1, knjigu2 i knjigu3, korisnik2 je kupio neke knjige i tako dalje. Pomnim promatranjem možemo primijetiti da korisnik1 i korisnik2 imaju sličan ukus kao što su kupili book1 i book2. Dakle, book3 se može preporučiti korisniku2, a book4 može se preporučiti korisniku1. To se naziva suradničko filtriranje, vrsta algoritma strojnog učenja. Možemo okrenuti donji dijagram i dobiti slične knjige.
U gore navedenom slučaju stvorili smo indeks, PageRanked i preporučili korisniku, veličina podataka je bila mala, pa smo mogli vizualizirati podatke i iz njih zaključiti neke rezultate. Kako veličina podataka iz dana u dan postaje sve veća i izvan kontrole, tu se pojavljuju alati za velike podatke poput Hadoop-a.
Hadoop rješava puno problema, ali instaliranje Hadoopa i drugog softvera za velike podatke nikada nije bio lak zadatak. Postoji mnogo konfiguracijskih parametara za podešavanje, poput integracije, instalacije i problema s konfiguracijom za rad. Ovdje su tvrtke poput Cloudere, i Databricks pomažu. Olakšavaju instalaciju softvera Big Data i pružaju komercijalnu podršku, na primjer, recimo da se nešto dogodi u proizvodnji. Amazon EMR (Elastic MapReduce) olakšava upotrebu Hadoopa itd. Naziv Elastic MapReduce pomalo je pogrešno imenovan jer EMR podržava i druge distribuirane računalne modele poput elastičnih distribuiranih skupova podataka, a ne samo MapReduce.
kako koristiti charat u javi -
U ovom uputstvu istražit ćemo kako postaviti EMR klaster na AWS Cloudu, a u sljedećem ćemo istraživanju pokrenuti Spark, Hive i druge programe na njemu.
Nastavljamo s ovim Kako stvoriti Hadoop klaster s Amazon EMR?
Demo: Stvaranje EMR klastera u AWS-u
Korak 1: Idite na EMR Upravljačku konzolu i kliknite na 'Stvori klaster'. U konzoli su metapodaci za završeni klaster se također besplatno čuva dva mjeseca. To omogućuje kloniranu klaster i ponovnu izradu.
Korak 2 : Na zaslonu brzih opcija kliknite 'Idi na napredne opcije' da biste odredili mnogo više detalja o klasteru.
Korak 3: Na kartici Napredne mogućnosti možemo odabrati različiti softver koji će se instalirati na EMR klaster. Za SQL sučelje može se odabrati Hive. Za sučelje jezika protoka podataka može se odabrati Pig. Za distribuiranu koordinaciju aplikacija može se odabrati ZooKeeper i tako dalje. Ova kartica također nam omogućuje dodavanje koraka, što je neobavezni zadatak. Koraci su poslovi obrade velikih podataka pomoću MapReduce, Pig, Hive itd. Oni se mogu dodati na ovu karticu ili kasnije nakon stvaranja klastera. Kliknite 'Dalje' da biste odabrali hardver potreban za EMR klaster.
Korak 4: Hadoop slijedi arhitekturu master-worker gdje master obavlja sve koordinacije poput raspoređivanja i dodjele posla i provjere njihovog napretka, dok radnici rade stvarni posao obrade i pohrane podataka. Jedan master je Single-Point-Of-Failure (SPOF). Amazon EMR podržava multi-master za visoku dostupnost (HA). Prethodni korak omogućuje postavljanje multi-master klastera u EMR.
EMR omogućuje dvije vrste čvorova, Core i Task. Jezgroviti čvor koristi se i za obradu i za pohranu podataka, a čvor zadatka koristi se samo za obradu podataka. Za ovaj vodič možemo odabrati samo jednu jezgru i nijedan čvor zadataka jer to za nas uključuje manje troškove. Također, odaberite Spot primjeri nad Na zahtjev jer su primjeri Spota jeftiniji. Kvaka kod primjeraka Spot je u tome što ih AWS može automatski prekinuti pomoću a obavijest od dvije minute . To je u redu zbog prakse, a također u nekim stvarnim scenarijima. Spot primjeri automatski se ukidaju jer imaju nizak prioritet u odnosu na druge vrste instance. Kliknite 'Dalje'.
Korak 5: Navedite naziv klastera. i kliknite 'Dalje'. Primijetite da je 'Zaštita od prekida' uključena prema zadanim postavkama, čime se osigurava da EMR klaster ne bude slučajno izbrisan uvođenjem nekoliko koraka tijekom prekida klastera.
Korak 6: Na kartici su navedene različite sigurnosne opcije za EMR klaster. KeyPair treba odabrati za prijavu na instancu EC2. EMR će automatski stvoriti odgovarajuće uloge i sigurnosne grupe i pridružiti ih glavnom i radnom EC2 čvorovima. Kliknite 'Stvori klaster'.
Stvaranje klastera traje nekoliko minuta jer se EC2 instance moraju otkupiti i različiti softveri za velike podatke moraju biti instalirani i konfigurirani. U početku bi status klastera bio u stanju 'Pokretanje' i prelazak u stanje 'Čekanje'. U stanju 'Čekanje' EMR klaster jednostavno čeka da pošaljemo različite poslove obrade velikih podataka poput MR, Spark, Hive itd.
Također, obavijest iz upravljačke konzole EC2 i napomena da bi glavni i radni instance EC2 trebali biti u radnom stanju. To su točke Spot koje su stvorene kao dio stvaranja EMR klastera. Isti EC2 može se primijetiti i na kartici Hardver u EMR upravljačkoj konzoli. Imajte na umu da se na kartici Hardver cijena za primjere Spot EC2 spominje kao 0,032 USD / sat. Cijena primjeraka Spot mijenja se s vremenom i mnogo je niža nego kod cijena EC2 na zahtjev.
Korak 7: Sad kad je EMR klaster uspješno dodan, mogu se dodati koraci ili poslovi obrade velikih podataka. Idite na karticu Koraci i kliknite na 'Dodaj korak' i odaberite vrstu koraka (MR, košnica, iskra itd.). Isto ćemo istražiti u nadolazećem vodiču. Za sada kliknite Odustani.
Korak 8: Sad kad smo vidjeli kako pokrenuti EMR, pogledajmo kako isto zaustaviti.
Korak 8.1: Kliknite Prekini.
Korak 8.2: Kao što je spomenuto u prethodnim koracima, 'Zaštita od prekida' za EMR klaster je uključena, a gumb Prekini onemogućen. Kliknite Promijeni.
.trim () java
Korak 8.3: Odaberite radio gumb 'Isključeno' i kliknite oznaku. Sada bi trebao biti omogućen gumb Prekini. Ovo je dodatni korak koji je EMR uveo, samo da bismo osigurali da slučajno ne izbrišemo EMR klaster.
Primijetite da će EMR klaster biti u statusu Prekida i EC2 će biti ukinuti. Konačno, EMR klaster bit će premješten u status Prekinuta, odavde naša naplata s AWS-om prestaje. Obavezno prekinite klaster, kako ne biste nastali dodatni AWS troškovi.
Zaključak
U ovom uputstvu vidjeli smo kako pokrenuti EMR klaster u roku od nekoliko minuta od web konzole (preglednika), isti se može automatizirati pomoću , AWS SDK ili pomoću AWS CloudFormation . Kao što je primijećeno postavljanje EMR klastera pitanje je minuta i obrada velikih podataka može se započeti odmah, nakon što se obrada završi, izlaz se može pohraniti u S3 ili DynamoDB i tako isključenje klastera kako bi se zaustavila naplata. Zbog ovog modela cijena i jednostavnosti upotrebe, EMR je veliki hit kod onih koji se bave obradom velikih podataka. Ne trebate kupiti poslužitelj u velikom broju, dobiti licence za softver Big Data i održavati ih. '
Dakle, to je to, momci, ovo nas dovodi do kraja ovog članka o Kako stvoriti Hadoop klaster s Amazon EMR?U slučaju da želite steći stručnost u ovoj temi, Edureka je smislila kurikulum koji točno pokriva ono što vam treba za polaganje ispita Solution Architect! Možete pogledati detalje tečaja za trening.
U slučaju bilo kakvih pitanja vezanih uz ovaj blog, slobodno postavite pitanje u odjeljak za komentare u nastavku i rado bismo vam odgovorili najranije.