Vodič za Apache Flume: Twitter prijenos podataka



Ovaj tutorial blog Apache Flume objašnjava osnove Apache Flumea i njegove značajke. Također će prikazati streaming na Twitteru koristeći Apache Flume.

U ovom blogu s uputama za Apache Flume shvatit ćemo kako Flume pomaže u strujanju podataka iz različitih izvora. Ali prije toga shvatimo važnost unosa podataka. Unos podataka početni je i važan korak za obradu i analizu podataka, a zatim iz njih izvlačenje poslovnih vrijednosti. Postoji više izvora iz kojih se podaci prikupljaju u organizaciji.

Razgovarajmo o još jednom važnom razlogu zašto je Flume postao toliko popularan. Nadam se da ste možda upoznati , koji se izuzetno koristi u industriji jer može pohraniti sve vrste podataka. Flume se lako može integrirati s Hadoopom i izbaciti nestrukturirane, kao i polustrukturirane podatke na HDFS, nadopunjujući snagu Hadoopa. Zbog toga je Apache Flume važan dio ekosustava Hadoop.





U ovom blogu s uputama za Apache Flume obradit ćemo:



Započet ćemo s ovim tutorijalom za Flume raspravom o tome što je Apache Flume. Zatim ćemo krenuti dalje, shvatit ćemo prednosti upotrebe Flumea.

Vodič za Apache Flume: Uvod u Apache Flume

Logotip Apache Flume - Vodič za Apache Flume - EdurekaApache Flume je alat za unos podataka u HDFS. Prikuplja, agregira i prenosi veliku količinu strujećih podataka kao što su datoteke dnevnika, događaji iz različitih izvora poput mrežnog prometa, društvenih mreža, poruka e-pošte itd. Na HDFS.Flume je vrlo pouzdan i distribuiran.

Glavna ideja koja stoji iza Flumeova dizajna je hvatanje streaming podataka s različitih web poslužitelja na HDFS. Ima jednostavnu i fleksibilnu arhitekturu koja se temelji na protoku protoka podataka. Otporan je na kvarove i pruža mehanizam pouzdanosti za toleranciju grešaka i oporavak kvara.



Nakon što smo shvatili što je Flume, sada napredujmo na ovom blogu Flume Tutorial i shvatimo prednosti Apache Flumea. Zatim ćemo krenuti dalje, osvrnut ćemo se na arhitekturu Flumea i pokušati shvatiti kako ona temeljno djeluje.

xml transformacija u informatici s primjerom

Vodič za Apache Flume: Prednosti Apache Flumea

Nekoliko je prednosti Apache Flumea što ga čini boljim izborom u odnosu na druge. Prednosti su:

  • Flume je skalabilan, pouzdan, otporan na kvarove i prilagodljiv za različite izvore i sudopere.
  • Apache Flume može pohranjivati ​​podatke u centraliziranim trgovinama (tj. Podaci se isporučuju iz jedne trgovine) poput HBase i HDFS.
  • Flume je vodoravno skalabilan.
  • Ako brzina čitanja premaši brzinu pisanja, Flume osigurava stalan protok podataka između operacija čitanja i pisanja.
  • Flume pruža pouzdanu dostavu poruka. Transakcije u Flumeu temelje se na kanalima gdje se za svaku poruku održavaju dvije transakcije (jedan pošiljatelj i jedan primatelj).
  • Korištenjem Flumea možemo unositi podatke s više poslužitelja u Hadoop.
  • Pruža nam rješenje koje je pouzdano i distribuirano te nam pomaže u prikupljanju, objedinjavanju i premještanju velike količine skupova podataka poput web stranica Facebook, Twitter i e-trgovina.
  • Pomaže nam da u HDFS unesemo mrežne podatke iz različitih izvora kao što su mrežni promet, društveni mediji, poruke e-pošte, datoteke dnevnika itd.
  • Podržava veliki skup vrsta izvora i odredišta.

Arhitektura je koja Apache Flume osnažuje ovim prednostima. Sada, kao što znamo prednosti Apache Flumea, idemo dalje i razumijejmo Apache Flume arhitekturu.

Vodič za Apache flume: Arhitektura fluma

Sada, shvatimo arhitekturu Flumea iz donjeg dijagrama:

Postoji agent Flume koji unosi streaming podatke iz različitih izvora podataka na HDFS. Iz dijagrama možete lako shvatiti da web poslužitelj označava izvor podataka. Twitter je jedan od poznatih izvora za strujanje podataka.

Sredstvo za grijanje ima 3 komponente: izvor, sudoper i kanal.

    1. Izvor : Prihvaća podatke iz dolazne struje i pohranjuje ih u kanal.
    2. Kanal : Općenito, brzina čitanja je brža od brzine pisanja. Stoga nam treba malo međuspremnika koji bi odgovarao razlici brzine čitanja i pisanja. U osnovi, međuspremnik djeluje kao posrednička pohrana koja pohranjuje podatke koji se privremeno prenose i stoga sprječava gubitak podataka. Slično tome, kanal djeluje kao lokalna pohrana ili privremena pohrana između izvora podataka i trajnih podataka u HDFS-u.
    3. Umivaonik : Zatim, naša posljednja komponenta, tj. Sink, prikuplja podatke s kanala i trajno ih urezuje ili zapisuje u HDFS.

Sad kad znamo kako Apache Flume radi, pogledajmo praktično gdje ćemo utopiti Twitter podatke i pohraniti ih u HDFS.

Vodič za Apache Flume: strujanje Twitter podataka

U ovom praktičnom radu prenosit ćemo podatke s Twittera koristeći Flume, a zatim ih pohraniti u HDFS, kao što je prikazano na donjoj slici.

Prvi korak je stvaranje Twitter aplikacije. Za to prvo morate otići na ovaj url: https://apps.twitter.com/ i prijavite se na svoj Twitter račun. Idite na stvaranje kartice aplikacije kao što je prikazano na donjoj slici.

Zatim izradite aplikaciju kao što je prikazano na donjoj slici.

Nakon izrade ove aplikacije pronaći ćete ključ za pristup i pristup. Kopirajte ključ i pristupni token. Te ćemo tokene proslijediti u našu konfiguracijsku datoteku Flume radi povezivanja s ovom aplikacijom.

Sada stvorite datoteku flume.conf u korijenskom direktoriju flumea, kao što je prikazano na donjoj slici. Kao što smo razgovarali, u arhitekturi Flume-a konfigurirat ćemo svoj izvor, umivaonik i kanal. Naš izvor je Twitter, odakle prenosimo podatke, a naš Sink je HDFS, gdje zapisujemo podatke.

U konfiguraciji izvora prosljeđujemo tip izvora Twittera kao org.apache.flume.source.twitter.TwitterSource. Zatim prenosimo sva četiri tokena koja smo dobili od Twittera. Napokon u izvornoj konfiguraciji prosljeđujemo ključne riječi na kojima ćemo dohvatiti tweetove.

U konfiguraciji Sink konfigurirat ćemo HDFS svojstva. Postavit ćemo HDFS putanju, format zapisa, vrstu datoteke, veličinu serije itd. Napokon ćemo postaviti memorijski kanal kako je prikazano na donjoj slici.

Sad smo svi spremni za izvršenje. Idemo naprijed i izvršimo ovu naredbu:

$ FLUME_HOME / bin / flume-ng agent --conf ./conf/ -f $ FLUME_HOME / flume.conf

Nakon što ste neko vrijeme izvršavali ovu naredbu, a zatim možete izaći iz terminala pomoću CTRL + C. Tada možete ići u svoj Hadoop direktorij i provjeriti spomenuti put, bez obzira je li datoteka stvorena ili nije.

što je virtualna funkcija java

Preuzmite datoteku i otvorite je. Dobit ćete nešto kao što je prikazano na donjoj slici.

Nadam se da je ovaj blog informativan i da vam dodaje dodanu vrijednost. Ako ste zainteresirani da saznate više, možete to proći koja vam govori o velikim podacima i kako Hadoop rješava izazove povezane s velikim podacima.

Sad kad ste razumjeli Apache Flume, pogledajte Edureka, pouzdane tvrtke za internetsko učenje s mrežom od više od 250 000 zadovoljnih učenika raširenih širom svijeta. Edureka tečaj obuke za certificiranje velikih podataka Hadoop pomaže učenicima da postanu stručnjaci za HDFS, pređu, MapReduce, svinju, košnicu, HBase, Oozie, Flume i Sqoop koristeći slučajeve upotrebe u stvarnom vremenu na maloprodaji, društvenim mrežama, zrakoplovstvu, turizmu i financijama.

Imate pitanje za nas? Molimo spomenite to u odjeljku za komentare i javit ćemo vam se.