Programiranje svinja: stvorite svoju prvu Apache svinjsku skriptu



Pročitajte ovaj post na blogu da biste stvorili svoju prvu skriptu Apache Pig. Skripte Apache Pig koriste se za zajedničko izvršavanje niza naredbi Apache Pig.

Programiranje svinja: stvorite svoju prvu Apache svinjsku skriptu

U našem , sada ćemo naučiti kako stvoriti Apache Pig skriptu. Skripte Apache Pig koriste se za zajedničko izvršavanje niza naredbi Apache Pig. To pomaže u smanjenju vremena i truda uloženog u pisanje i ručno izvršavanje svake naredbe dok to radite u svinjskom programiranju.Također je sastavni dio .Ovaj je blog korak po korak vodič koji će vam pomoći stvoriti svoju prvu skriptu Apache Pig.

Načini izvršavanja skripte Apache Pig

Lokalni način : U 'lokalnom načinu' možete izvršiti pig skriptu u lokalnom datotečnom sustavu. U tom slučaju ne trebate pohranjivati ​​podatke u datotečni sustav Hadoop HDFS, već možete raditi s podacima pohranjenim u samom lokalnom datotečnom sustavu.





MapReduce način : U 'MapReduce načinu' podatke treba pohraniti u HDFS datotečni sustav i podatke možete obraditi uz pomoć svinjske skripte.

Apache svinjska skripta u načinu MapReduce

Recimo da je naša zadaća očitavanje podataka iz podatkovne datoteke i prikazivanje potrebnog sadržaja na terminalu kao izlaz.



Datoteka uzorka podataka sadrži sljedeće podatke:

kako pristupiti aws cli - u

Txt datoteka s informacijama - Apache Pig Script - Edureka

Spremite tekstualnu datoteku s nazivom ‘information.txt’



Datoteka uzorka podataka sadrži pet stupaca Ime , Prezime , Broj mobitela , Grad , i Profesija odvojena tipka kartice . Naš je zadatak pročitati sadržaj ove datoteke s HDFS-a i prikazati sve stupce tih zapisa.

Da bi se ovi podaci obrađivali pomoću Praseta, ova bi datoteka trebala biti prisutna u Apache Hadoop HDFS.

Naredba : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka

Korak 1: Pisanje Svinjske skripte

Stvorite i otvorite datoteku skripte Apache Pig u uređivaču (npr. Gedit).

Naredba : sudo gedit /home/edureka/output.pig

Ova će naredba stvoriti datoteku ‘output.pig’ unutar početnog direktorija korisnika edureka.

stvoriti parametar u tablici

Napišimo nekoliko PIG naredbi u datoteku output.pig.

A = LOAD '/edureka/information.txt' pomoću PigStorage ('') kao (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Profession: chararray) B = FOREACH A generira FName, MobileNo, DUMP Profession B

Spremite i zatvorite datoteku.

  • Prva naredba učitava datoteku ‘information.txt’ u varijablu A s neizravnom shemom (FName, LName, MobileNo, City, Profession).
  • Druga naredba učitava potrebne podatke iz varijable A u varijablu B.
  • Treći redak prikazuje sadržaj varijable B na terminalu / konzoli.

Korak 2: Izvršite Apache svinjsku skriptu

Da biste izvršili pig skriptu u HDFS načinu, pokrenite sljedeću naredbu:

Naredba : pig /home/edureka/output.pig

Nakon završetka izvršenja pregledajte rezultat. Ove slike u nastavku prikazuju rezultate i njihovu srednju mapu i reducirajuće funkcije.

Ispod slika pokazuje da je skripta uspješno izvršena.

Ispod slike prikazan je rezultat naše skripte.

Čestitamo vam na uspješnom izvođenju prve skripte Apache Pig!

Sada znate kako stvoriti i izvršiti Apache Pig skriptu. Dakle, naš sljedeći blog u pokrivat će kako stvoriti UDF (korisnički definirane funkcije) u Apache Pig i izvršite ga u načinu MapReduce / HDFS.

koja metoda klase skenera čita niz?

Sada kada ste kreirali i izvršili Apache Pig Script, pogledajte Edureka, pouzdane tvrtke za internetsko učenje s mrežom od više od 250 000 zadovoljnih učenika raširenih širom svijeta. Edureka tečaj obuke za certificiranje velikih podataka Hadoop pomaže učenicima da postanu stručnjaci za HDFS, pređu, MapReduce, svinju, košnicu, HBase, Oozie, Flume i Sqoop koristeći slučajeve upotrebe u stvarnom vremenu na maloprodaji, društvenim mrežama, zrakoplovstvu, turizmu i financijama.

Imate pitanje za nas? Molimo spomenite to u odjeljku za komentare i javit ćemo vam se.