Veliki podaci u AWS-u - pametno rješenje za velike podatke

Ovaj vam članak pomaže razumjeti kako se AWS pametno nosi s velikim podacima. Također pokazuje kako AWS s lakoćom može riješiti izazove velikih podataka.

Ideja Big Data jednostavno nije nova, ona je svugdje. Učinak velikih podataka postoji posvuda, od poslovanja do znanosti, od vlade do umjetnosti i tako dalje. Nema boljeg suputnika od za obradu i analizu velikih podataka. U ovom članku pokazat ću kako se AWS nosi s izazovima velikih podataka, a sljedeći su naputci koje ću pokriti:

Što su veliki podaci?

značajke velikih podataka





Velike podatke možete smatrati informacijskim sredstvima velike količine, velikom brzinom i / ili velikom raznolikošću koja zahtijevaju isplative, inovativne oblike obrade podataka koji omogućuju poboljšani uvid, donošenje odluka i automatizaciju procesa.

Veliki podaci sastoje se od 5 važnih V-a koji definiraju karakteristike velikih podataka. Razgovarajmo o njima prije nego što prijeđemo na AWS.



Što je AWS?

sastoji se od mnogih različitih proizvoda i usluga za računalstvo u oblaku. Izuzetno profitabilna Amazonova divizija pruža servere, pohranu, umrežavanje, daljinsko računanje, e-poštu, mobilni razvoj, uz sigurnost. Nadalje. AWS se sastoji od dva glavna proizvoda: EC2, Amazonova usluga virtualnih strojeva i S3, Amazonov sustav za pohranu. Toliko je velik i prisutan u računalnom svijetu da je sada najmanje 10 puta veći od svog najbližeg konkurenta i domaćin je popularnih web stranica poput Netflixa i Instagrama.

.

AWS je podijeljen na 12 globalnih regija širom svijeta, od kojih svaka ima više zona dostupnosti u kojima se nalaze njegovi poslužitelji.Ove se uslužne regije dijele kako bi se korisnicima omogućilo postavljanje zemljopisnih ograničenja njihovih usluga, ali i osigurala sigurnost diverzifikacijom fizičkih mjesta na kojima se podaci čuvaju.



Zašto veliki podaci u AWS-u?

Znanstvenici, programeri i drugi zaljubljenici u tehnologiju iz mnogih različitih domena koriste AWS za obavljanje analitike velikih podataka i suočavanje s kritičnim izazovima sve većih Vs digitalnih informacija. AWS vam nudi portfelj usluga računalstva u oblaku koji pomažu u upravljanju velikim podacima značajnim smanjenjem troškova, skaliranjem kako bi se zadovoljila potražnja i povećanjem brzine inovacija.

Amazon Web Services pruža a potpuno integrirani portfelj usluga računalstva u oblaku. Nadalje, pomaže vam u izgradnji, zaštiti i primjeni vaših aplikacija za velike podatke. Također, s AWS-om vam nije potreban hardver za nabavu i infrastruktura za održavanje i skaliranje. Zbog toga svoje resurse možete usmjeriti na otkrivanje novih uvida.Budući da se nove značajke neprestano dodaju, uvijek ćete moći koristiti najnovije tehnologije bez potrebe za dugoročnim ulaganjem.

razlika između preopterećenja i nadjačavanja u javi

Kako AWS može riješiti izazove velikih podataka?

AWS rješenja za velike podatke

AWS ima brojna rješenja za sve svrhe razvoja i implementacije. Također, na području znanosti o podacima i velikih podataka, AWS je osmislio nedavna zbivanja u različitim aspektima rukovanja velikim podacima. Prije nego što prijeđemo na alate, shvatimo različite aspekte velikih podataka za koje AWS može pružiti rješenja.

  1. Unos podataka
    Prikupljanje sirovih podataka - transakcija, zapisnika, mobilnih uređaja i još mnogo toga - prvi je izazov s kojim se mnoge organizacije susreću kada se bave velikim podacima. Dobra platforma za velike podatke olakšava ovaj korak, omogućavajući programerima da unose širok spektar podataka - od strukturiranih do nestrukturiranih - bilo kojom brzinom - od stvarnog vremena do batch-a.

  2. Pohrana podataka
    Bilo koja platforma za velike podatke treba sigurno, skalabilno i trajno spremište za pohranu podataka prije ili čak nakon obrade zadataka. Ovisno o vašim specifičnim zahtjevima, možda će vam trebati i privremene trgovine za prijenos podataka.

  3. Obrada podataka
    Ovo je korak u kojem se transformacija podataka događa iz sirovog stanja u potrošni format - obično pomoću sortiranja, objedinjavanja, spajanja, pa čak i izvršavanja naprednijih funkcija i algoritama. Rezultirajući skupovi podataka podvrgavaju se pohrani radi daljnje obrade ili stavljaju na raspolaganje za potrošnju putem alata za poslovnu inteligenciju i vizualizaciju podataka.

  4. Vizualizacija

    Veliki podaci sastoje se od dobivanja velike vrijednosti i korisnih uvida iz vaših podataka. U idealnom slučaju podaci su dostupni dionicima putem samoposlužne poslovne inteligencije i agilnih alata za vizualizaciju podataka koji omogućuju brzo i jednostavno istraživanje skupova podataka.

AWS alati za velike podatke

U prethodnim smo odjeljcima pogledali polja u velikim podacima u kojima AWS može pružiti rješenja. Uz to, AWS u svom arsenalu ima više alata i usluga kako bi kupcima omogućio mogućnosti velikih podataka.

Pogledajmo različita rješenja koja nudi AWS za rukovanje različitim fazama koje uključuju rukovanje velikim podacima

Gutanje

  1. Kineza

    Amazon Kinesis Firehose potpuno je upravljana usluga za isporuku streaming podataka u stvarnom vremenu izravno na Amazon S3. Kinesis Firehose automatski se prilagođava količini i propusnosti strujećih podataka i ne zahtijeva trajnu administraciju. Možete konfigurirati Kinesis Firehose da transformira streaming podatke prije nego što ih pohranite u Amazon S3.

  2. Gruda snijega
    Možeš koristiti AWS Snježna kugla za sigurnu i učinkovitu migraciju skupnih podataka s lokalnih platformi za pohranu i Hadoop klastera u segmente S3. Nakon što stvorite posao u AWS Management Console, automatski dobivate uređaj Snowball. Nakon što stigne Snowball, povežite je s lokalnom mrežom, instalirajte klijenta Snowball-a na vaš lokalni izvor podataka, a zatim pomoću klijenta Snowball odaberite i prenesite direktorije datoteka na uređaj Snowball.

Skladištenje

  1. Amazon S3

Amazon S3 je sigurna, visoko skalabilna, izdržljiva pohrana predmeta s milisekundnim kašnjenjem za pristup podacima. S3 može pohraniti bilo koju vrstu podataka s bilo kojeg mjesta - web mjesta i mobilne aplikacije, korporativne aplikacije i podatke s IoT senzora ili uređaja. Također može pohraniti i dohvatiti bilo koju količinu podataka s neusporedivom dostupnošću i izgrađen od temelja kako bi pružio 99,999999999% (11 devetki) trajnosti.

2. AWS ljepilo

Ljepilo je potpuno upravljana usluga koja pruža katalog podataka kako bi podaci u podatkovnom jezeru bili otkriveni. Uz to, ima mogućnost ekstrakcije, transformacije i učitavanja (ETL) za pripremu podataka za analizu. Također, ugrađeni katalog podataka nalik je na trajnu pohranu metapodataka za sva sredstva podataka, čineći sve podatke pretraživim i upitnim u jednom prikazu.

Obrada

  1. EMR
    Za obradu velikih podataka pomoću Sparka i Hadoopa, Amazon EMR pruža upravljanu uslugu koja olakšava, brzu i isplativu obradu ogromnih količina podataka. Nadalje, EMR podržava 19 različitih projekata otvorenog koda, uključujući Hadoop , Iskra , i Također dolazi s upravljanim EMR bilježnicama za inženjering podataka, razvoj znanosti znanosti i suradnju.

  2. Redshift
    Za skladištenje podataka, Amazon Redshift pruža mogućnost pokretanja složenih, analitičkih upita prema petabajtima strukturiranih podataka. Također, uključuje Redshift Spectrum koji pokreće SQL upite izravno protiv egzabajta strukturiranih ili nestrukturiranih podataka u S3 bez potrebe za nepotrebnim kretanjem podataka.

Vizualizacije

  1. Amazon QuickSight

    Za nadzorne ploče i vizualizacije, Amazon Quicksight pruža vam brzu uslugu poslovne analitike zasnovanu na oblaku. Olakšava izradu zapanjujućih vizualizacija i bogatih nadzornih ploča. Uz to, možete im pristupiti iz bilo kojeg preglednika ili mobilnog uređaja.

Demo - analiza podataka o ugroženim vrstama biljaka i životinja u Australiji.

U ovoj demonstraciji koristit ćemo uzorke podataka o ugroženim biljnim i životinjskim vrstama iz država i teritorija Australije. Ovdje ćemo stvoriti EMR klaster i konfigurirati ga za pokretanje višestepenih poslova Apache Hive. EMR klaster će imati instaliran Apache Hive. Ovaj klaster će koristiti EMRFS kao datotečni sustav, tako da se njegova mjesta unosa i izlaza podataka preslikavaju u S3 segment. Klaster će također koristiti isti S3 segment za pohranu datoteka dnevnika.

Sada ćemo stvoriti niz EMR koraka u klasteru za obradu uzorka skupa podataka. Ovdje će se u svakom od ovih koraka pokrenuti skripta Hive, a konačni će se izlaz spremiti u S3 segment. Ovi će koraci generirati zapisnike MapReduce, a to je zato što se naredbe Hive prevode u poslove MapReduce u vrijeme izvođenja. Datoteke dnevnika za svaki korak prikupljaju se iz spremnika koje mrijesti.

Uzorak podataka

Uzorak podataka za ovaj slučaj upotrebe javno je dostupan od Web stranica otvorenih podataka australske vlade . Ovaj skup podataka odnosi se na ugrožene životinjske i biljne vrste iz različitih država i teritorija u Australiji. Opis polja ovog skupa podataka i CSV datoteka mogu se vidjeti i preuzeti ovdje .

Koraci obrade

Prvi korak EMR posla ovdje uključuje stvaranje tablice Hive kao sheme za temeljnu izvornu datoteku u S3. U drugom koraku posla sada ćemo pokrenuti uspješan upit za podatke. Slično tome, pokrenut ćemo treći i četvrti upit.

Ponovit ćemo ova četiri koraka nekoliko puta u satu, simulirajući uzastopna izvođenja više koraka batch posla. Međutim, u stvarnom scenariju vremenska razlika između svakog izvođenja serije može biti mnogo veća. Kratkotrajni jaz između uzastopnih trčanja namijenjen je ubrzanju našeg testiranja.

S3 kanta i mape

Prije stvaranja EMR klastera, ovdje smo morali stvoriti S3 segment za hostiranje njegovih datoteka. U našem primjeru nazivamo ovaj segment 'arvind1-bucket'. Mape ispod ovog segmenta prikazane su dolje u AWS konzoli za S3:

  • U ulaznu mapu nalaze se uzorci podataka

  • Mapa skripti sadrži datoteke skripte Hive za korake EMR zadatka

  • Izlazna mapa očito će sadržavati izlaz programa Hive

  • Klaster EMR koristi mapu zapisnika za spremanje datoteka dnevnika.

Skripte za košnice za EMR korake posla

1. Ovaj korak posla izvodi skriptu Hiveza stvaranje vanjske tablice košnice. Ova tablica opisuje tabličnu shemu osnovne CSV datoteke podataka. Skripta za to je sljedeća:

STVORI VANJSKU TABLICU `ugrožene vrste` (niz` znanstvenog imena`, niz `zajedničkog imena`, niz` trenutni znanstveni naziv`, niz `ugroženi status`, niz` act`, `nsw` niz,` nt` niz, `qld` niz, `sa` niz,` tas` niz, `vic` niz,` wa` niz, `aci` niz,` cki` niz, `ci` niz,` csi` niz, `jbt` niz,` nfi` string, `hmi` string,` aat` string, `cma` string,` navedena sprat taxonid` bigint, `current sprat taxonid` bigint,` kingdom` string, `class` string,` profile` string, `date extracted` niz, niz 'imena nsl', niz 'familija', niz 'rod', niz 'vrsta', niz 'vrsta vrste', niz 'vrsta vrste', niz 'vrsta autora', niz 'autor vrste' vrsta PREKINUTE ',' SKLADIŠTENO KAO INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3: // arvind1-bucket

2. Ovaj korak posla pokreće upit za izračunavanje pet najugroženijih vrsta u državi Novi Južni Wales (NSW). Naziv datoteke upita za košnicu je ugroženeVrsteNSW.q a prikazano je u nastavku:

ODABERITE vrstu, COUNT (nsw) KAO number_of_endangered_species IZ ugroženih_ vrsta WHERE (nsw = 'Da' ILI nsw = 'Ugroženo') I 'ugroženi status' = 'Ugroženo' GRUPA PO VRSTAMA IMAJUĆI COUNT (nsw)> 1 REDOVI PO number_of_endangered_species DESC LIMIT 5

3.Ovaj korak posla pokreće upit za izračunavanje ukupnog broja ugroženih biljnih vrsta za svaku biljnu obitelj u Australiji. Naziv datoteke upita za košnicu jeugroženePlastVrste.qa prikazan je u nastavku

ODABERITE obitelj, COUNT (vrsta) KAO number_of_endangered_species FROM dangerous_species2 WHERE kingdom = 'Plantae' AND 'ugroženi status' = 'Ugroženi' GROUP BY family

4. U ovom se koraku navode znanstvena imena izumrlih životinjskih vrsta u australijskoj državi Queensland. Poziva se datoteka skripte extinctAnimalsQLD.q a prikazano je u nastavku:

ODABERITE 'zajedničko ime', 'znanstveno ime' IZ ugroženih_ vrsta WHERE kraljevstvo = 'Animalia' I (qld = 'Da' ILI qld = 'Izumrlo') I 'ugroženi status' = 'Izumrlo'

Agregacija dnevnika

Ovdje smo također prenijeli JSON datoteku koja se zove logAggregation.json u mapu skripti S3 segmenta. Ovu datoteku koristimo za agregiranje datoteka dnevnika YARN. Skupljanje dnevnika konfigurirano je u konfiguracijskoj datoteci yarn-site.xml kada se klaster pokrene. Sadržaj datoteke logAggregation.json je sljedeći:

[{„Klasifikacija“: „pređa-mjesto“, „Svojstva“: {„pređa.log-agregacija-omogući“: „istina“, „pređa.log-agregacija.retain-sekunde“: „-1“, „pređa .nodemanager.remote-app-log-dir ':' s3: // arvind1-bucket / logs '}}]

Nakon što stvorite segment S3 i kopirate datoteke podataka i skripti u njihove odgovarajuće mape, sada je vrijeme za postavljanje EMR klastera. Sljedeće snimke opisuju postupak dok stvaramo klaster s uglavnom zadanim postavkama.

Postavljanje EMR klastera

Na prvoj slici, za konfiguriranje klastera u AWS konzoli, zadržali smo sve programe koje preporučuje EMR, uključujući Hive. Za pohranu metapodataka Hivea ne trebamo koristiti ljepilo AWS niti trenutno dodajemo bilo koji korak posla. Međutim, moramo dodati softversku postavku za Hive. Ovdje morate pažljivo promatrati kako u ovom polju određujemo put do JSON datoteke za agregiranje dnevnika.

U sljedećem smo koraku zadržali sve zadane postavke. Za potrebe našeg testa, klaster će imati jedan glavni čvor i dva jezgra. Ovdje je svaki čvor m3.xlarge instanca i ima 10 GB korijenskog volumena. U sljedećem ćemo koraku imenovati klaster arvind1-klaster i odrediti prilagođeno s3 mjesto za njegove datoteke dnevnika.

Konačno, naveli smo EC2 ključni par u svrhu pristupa glavnom čvoru klastera. Nema promjena u zadanim ulogama IAM-a za EMR, EC2 profil instance i opcije automatskog skaliranja. Također, glavni i jezgri čvorovi prema zadanim postavkama koriste dostupne sigurnosne grupe. Obično je ovo zadana postavka za EMR klaster. Jednom kada je sve spremno, klaster je u stanju 'čekanja', kao što je prikazano dolje:

Pošaljite korake za posao košnice

Nakon toga moramo omogućiti SSH pristup.

  1. Otvorite Amazon EMR konzolu na https://console.aws.amazon.com/elasticmapreduce/ .
  2. Odaberite Klasteri .
  3. Odaberi Ime klastera.
  4. Pod, ispod Sigurnost i pristup Odaberi Sigurnosne grupe za Učitelja veza.
  5. Odaberite ElasticMapReduce-master s popisa.
  6. Odaberite Dolazni , Uredi .
  7. Pronađite pravilo sa sljedećim postavkama i odaberite x ikona za brisanje:
    • Tip SSH
    • Luka 22
    • Izvor Prilagođeni 0.0.0.0/0
  8. Pomaknite se na dno popisa pravila i odaberite Dodaj pravilo .
  9. Za Tip , Odaberi SSH .Ovo automatski ulazi TCP za Protokol i 22 za Doseg luke .
  10. Za izvor odaberite Moja IP adresa .Ovo automatski dodaje IP adresu vašeg klijentskog računala kao izvornu adresu. Možete i dodati niz Prilagođen pouzdane IP adrese klijenta i odaberite dodaj pravilo stvoriti dodatna pravila za druge klijente. U mnogim mrežnim okruženjima IP adrese dodjeljujete dinamički, pa ćete možda trebati povremeno uređivati ​​pravila sigurnosne grupe kako biste ažurirali IP adresu pouzdanih klijenata.
  11. Odaberite Uštedjeti .
  12. Po želji odaberite ElasticMapReduce-slave s popisa i ponovite gornje korake kako biste SSH klijentu omogućili pristup jezgri i čvorovima zadataka od pouzdanih klijenata.

Budući da je EMR klaster i pokrenut, dodali smo četiri koraka posla. To su koraci koje bi EMR izvodio jedan za drugim. Sljedeća slika prikazuje korake iz AWS EMR konzole:

Nakon što dodamo četiri koraka, možemo provjeriti status tih koraka kao dovršeni. Čak i ako postoji neki problem s izvršavanjem ovih koraka, onda se u takvim slučajevima to može riješiti pomoću datoteka dnevnika tih koraka.

Dakle, to je to s moje strane u ovom članku o velikim podacima u AWS-u. Nadam se da ste razumjeli sve što sam ovdje objasnio.

Ako su vam ovi veliki podaci u AWS-u relevantni, možete pogledati Edurekin tečaj uživo i instruktore pod vodstvom , koju su zajedno stvorili stručnjaci iz industrije.

Imate pitanje za nas? Molimo vas da ga spominjete u odjeljku za komentare ovog Kako instalirati Java web aplikaciju u AWS, a mi ćemo vam se javiti.