Informatica ETL: Vodič za početnike za razumijevanje ETL-a pomoću Informatica PowerCenter-a



Razumijevanje koncepata Informatica ETL i različitih faza ETL procesa i vježbanje slučaja upotrebe koji uključuje bazu podataka zaposlenika.

Svrha Informatica ETL je pružiti korisnicima, ne samo postupak izdvajanja podataka iz izvornih sustava i njihovog unošenja u skladište podataka, već i pružanje korisnicima zajedničke platforme za integriranje njihovih podataka s različitih platformi i aplikacija.To je dovelo do povećanja potražnje za .Prije nego što razgovaramo o Informatica ETL, prvo shvatimo zašto nam je potreban ETL.

Zašto nam treba ETL?

Svaka tvrtkaovih dana moraju obrađuju velike skupove podataka iz različitih izvora. Te podatke treba obraditi kako bi se dobili pronicljivi podaci za donošenje poslovnih odluka. No, često takvi podaci imaju sljedeće izazove:





  • Velike tvrtke generiraju puno podataka i tako velik dio podataka može biti u bilo kojem formatu. Bili bi dostupni u više baza podataka i mnogim nestrukturiranim datotekama.
  • Ovi se podaci moraju porediti, kombinirati, uspoređivati ​​i raditi u cjelini. Ali različite baze podataka ne komuniciraju dobro!
  • Mnoge su organizacije implementirale sučelja između ovih baza podataka, ali su se suočile sa sljedećim izazovima:
    • Svaki par baza podataka zahtijeva jedinstveno sučelje.
    • Ako promijenite jednu bazu podataka, možda će se trebati nadograditi mnoga sučelja.

Ispod možete vidjeti razne baze podataka organizacije i njihove interakcije:

Razni skupovi podataka organizacije - Informatica - ETL - Edureka

Razne baze podataka koje koriste različiti odjeli organizacije



Različite interakcije baza podataka u organizaciji

Kao što se gore vidi, organizacija može imati različite baze podataka u svojim različitim odjelima i interakciju između njih postaje teško implementirati jer se za njih moraju stvoriti različita sučelja za interakciju. Da bi se prevladali ovi izazovi, najbolje moguće rješenje je korištenje koncepata Integracija podataka što bi omogućilo međusobnu komunikaciju podataka iz različitih baza podataka i formata. Sljedeća slika pomaže nam da shvatimo kako alat Integracija podataka postaje uobičajeno sučelje za komunikaciju između različitih baza podataka.

Razne baze podataka povezane putem integracije podataka



Ali postoje različiti procesi koji su dostupni za obavljanje integracije podataka. Među tim procesima ETL je najoptimalniji, najučinkovitiji i najpouzdaniji postupak. Kroz ETL, korisnik ne samo da može unijeti podatke iz različitih izvora, već može izvršiti razne operacije na podacima prije nego što ih pohrani na krajnji cilj.

Među različitim dostupnim ETL alatima dostupnim na tržištu, Informatica PowerCenter vodeća je platforma za integraciju podataka na tržištu. Testirajući na gotovo 500 000 kombinacija platformi i aplikacija, Informatica PowerCenter inter djeluje sa najširem mogućim rasponom različitih standarda, sustava i aplikacija. Razumijemo sada korake koji su uključeni u postupak Informatica ETL.

Informatika ETL | Arhitektura Informatica | Vodič za Informatica PowerCenter | Edureka

Ovaj vodič za Edureka Informatica pomaže vam da detaljno razumijete osnove ETL-a koristeći Informatica Powercenter.

Koraci u Informatica ETL procesu:

Prije nego što prijeđemo na različite korake uključene u Informatica ETL, imajmo pregled ETL-a. U ETL-u, Izdvajanje je mjesto gdje se podaci izdvajaju iz homogenih ili heterogenih izvora podataka, Transformacija gdje se podaci transformiraju za pohranu u odgovarajućem formatu ili strukturi za potrebe upita i analize te učitavanje gdje se podaci učitavaju u konačnu ciljnu bazu podataka, operativna pohrana podataka, data mart ili skladište podataka. Slika u nastavku pomoći će vam da shvatite kako se odvija postupak Informatica ETL.

Pregled ETL procesa

Kao što se vidi gore, Informatica PowerCenter može učitati podatke iz različitih izvora i pohraniti ih u jedno skladište podataka. Pogledajmo sada korake koji su uključeni u postupak Informatica ETL.

Postoje uglavnom 4 koraka u ETL procesu Informatica, hajde da ih sada dublje razumijemo:

  1. Izdvoji ili uhvati
  2. Piling ili čišćenje
  3. Transformirati
  4. Opterećenje i indeks

1. Izdvajanje ili hvatanje: Kao što se vidi na donjoj slici, snimanje ili izdvajanje prvi je korak Informatica ETL procesa.To je postupak dobivanja snimke odabrane podskupine podataka iz izvora, koja se mora učitati u skladište podataka. Snimka je statički prikaz podataka u bazi podataka samo za čitanje. Postupak ekstrakcije može biti dvije vrste:

  • Puni ekstrakt: Podaci se u potpunosti izdvajaju iz izvornog sustava i nije potrebno pratiti promjene na izvoru podataka od zadnjeg uspješnog izdvajanja.
  • Inkrementalni ekstrakt: Ovo će zabilježiti samo promjene nastale od zadnjeg cjelovitog izvoda.

Faza 1: Izdvajanje ili hvatanje

2. Piling ili čišćenje: Ovo je postupak čišćenja podataka koji dolaze iz izvora pomoću različitih tehnika prepoznavanja uzoraka i AI za nadogradnju kvalitete podataka koji se prenose. Obično su pogreške poput pravopisnih pogrešaka, pogrešnih datuma, netočne upotrebe polja, neusklađenih adresa, nedostajućih podataka, dvostrukih podataka, nedosljednostiistaknuto, a zatim ispravljeno ili uklonjenou ovom koraku. Također, u ovom se koraku obavljaju operacije poput dekodiranja, preoblikovanja, vremenskog žigosanja, pretvorbe, generiranja ključa, spajanja, otkrivanja / bilježenja pogrešaka, pronalaska podataka koji nedostaju. Kao što se vidi na donjoj slici, ovo je drugi korak u Informatica ETL procesu.

Faza 2: Pročišćavanje ili čišćenje podataka

3. Transformacija: Kao što se vidi na donjoj slici, ovo je treći i najvažniji korak u Informatica ETL procesu. Transformacije je operacija pretvaranja podataka iz formata izvornog sustava u kostur Skladišta podataka. Transformacija se u osnovi koristi za predstavljanje skupa pravila koja definiraju protok podataka i način na koji se podaci učitavaju u ciljeve. Da biste saznali više o Transformaciji, pogledajte Transformacije u Informatici Blog.

Faza 3: Transformacija

4. Opterećenje i indeks: Ovo je posljednji korak procesa Informatica ETL, kao što se vidi na donjoj slici. U ovoj fazi transformirane podatke smještamo u skladište i stvaramo indekse za podatke. Dostupne su dvije glavne vrste učitavanja podataka temeljene na procesu učitavanja:

  • Puno ili skupno opterećenje :Postupak učitavanja podataka kada to radimo prvi put. Posao izvlači čitav volumen podataka iz izvorne tablice i učitava se u ciljno skladište podataka nakon primjene potrebnih transformacija. To će biti jednokratno pokretanje posla, nakon čega će se same promjene snimati kao dio inkrementalnog ekstrakta.
  • Inkrementalno opterećenje ili osvježavanje : Samo modificirani podaci ažurirat će se u cilju nakon čega slijedi potpuno učitavanje. Promjene će se zabilježiti usporedbom stvorenog ili modificiranog datuma s datumom zadnjeg pokretanja posla.Izmjenjeni podaci izvučeni su iz izvora i bit će ažurirani u cilju bez utjecaja na postojeće podatke.

Faza 4: Opterećenje i indeks

Ako ste razumjeli postupak ETL-a Informatica, sada smo u boljoj poziciji da shvatimo zašto je Informatica najbolje rješenje u takvim slučajevima.

Značajke Informatica ETL:

Za sve integracije podataka i ETL operacije, Informatica nas je osigurala Informatica PowerCenter . Pogledajmo sada neke ključne značajke Informatica ETL:

  • Pruža mogućnost specificiranja velikog broja pravila transformacije s GUI-jem.
  • Generirajte programe za transformiranje podataka.
  • Rukovati s više izvora podataka.
  • Podržava ekstrakciju podataka, čišćenje, agregiranje, reorganizaciju, transformaciju i učitavanje.
  • Automatski generira programe za izdvajanje podataka.
  • Brzo učitavanje ciljnih skladišta podataka.

Slijedi nekoliko tipičnih scenarija u kojima se koristi Informatica PowerCenter:

  1. Migracija podataka:

Tvrtka je kupila novi zahtjev za naplatu za svoj račun. PowerCenter može premjestiti postojeće podatke o računu u novi program. Donja slika pomoći će vam da shvatite kako možete koristiti Informatica PowerCenter za migraciju podataka. Informatica PowerCenter može lako sačuvati liniju podataka za porezne, računovodstvene i druge zakonski propisane svrhe tijekom postupka migracije podataka.

r strojno učenje na primjeru

Migracija podataka iz starijeg računovodstvenog programa u novi

  1. Integracija aplikacija:

Recimo da Company-A kupuje Company-B. Dakle, da bi se postigle prednosti konsolidacije, sustav naplate tvrtke-B mora biti integriran u sustav naplate tvrtke-A, što se lako može učiniti pomoću Informatica PowerCenter-a. Donja slika pomoći će vam da razumijete kako možete koristiti Informatica PowerCenter za integraciju aplikacija između tvrtki.

Integriranje primjene između tvrtki

  1. Skladištenje podataka

Tipične radnje potrebne u skladištima podataka su:

  • Kombinirajući informacije iz mnogih izvora za analizu.
  • Premještanje podataka iz mnogih baza podataka u skladište podataka.

Svi gore navedeni tipični slučajevi mogu se lako izvesti pomoću Informatica PowerCenter-a. Ispod možete vidjeti da se Informatica PowerCenter koristi za kombiniranje podataka iz različitih vrsta baza podataka kao što su Oracle, SalesForce itd. I njihovo dovođenje u zajedničko skladište podataka koje je kreirao Informatica PowerCenter.

Podaci iz različitih baza podataka integriranih u zajedničko skladište podataka

  1. Middleware

Recimo da maloprodajna organizacija koristi SAP R3 za svoje maloprodajne programe i SAP BW kao svoje skladište podataka. Izravna komunikacija između ove dvije aplikacije nije moguća zbog nedostatka komunikacijskog sučelja. Međutim, Informatica PowerCenter može se koristiti kao posrednički softver između ove dvije aplikacije. Na donjoj slici možete vidjeti arhitekturu načina na koji se Informatica PowerCenter koristi kao međuprodukt između SAP R / 3 i SAP BW. Aplikacije iz SAP R / 3 prenose svoje podatke u ABAP okvir koji ih zatim prenosi naSAP prodajno mjesto (POS) i SAPRačuni usluga (BOS). Informatica PowerCenter pomaže u prijenosu podataka s ovih usluga u SAP poslovno skladište (BW).

Informatica PowerCenter kao Middleware u SAP-ovoj maloprodajnoj arhitekturi

Iako ste vidjeli nekoliko ključnih značajki i tipičnih scenarija Informatica ETL-a, nadam se da razumijete zašto je Informatica PowerCenter najbolji alat za ETL postupak. Pogledajmo sada slučaj upotrebe Informatica ETL.

Slučaj upotrebe: Spajanje dviju tablica za dobivanje Jedinstvene detaljne tablice

Recimo da svojim zaposlenicima želite osigurati mudar prijevoz, jer se odjeli nalaze na različitim lokacijama. Da biste to učinili, prvo morate znati kojem odjelu pripada svaki zaposlenik i mjesto odjela. Međutim, detalji o zaposlenicima pohranjeni su u različitim tablicama, a detalje Odjela morate pridružiti postojećoj bazi podataka s pojedinostima svih zaposlenika. Da bismo to učinili, prvo ćemo učitati obje tablice u Informatica PowerCenter, izvršiti transformaciju izvornog kvalifikatora na podacima i na kraju učitati detalje u ciljanu bazu podataka.Počnimo:

Korak 1 : Otvorite PowerCenter Designer.

Ispod je početna stranica Informatica PowerCenter Designer.

Povežimo se sada s spremištem. U slučaju da niste konfigurirali svoja spremišta ili se suočite s bilo kojim problemom, možete provjeriti naše Blog.

Korak 2: Desnom tipkom miša kliknite svoje spremište i odaberite opciju povezivanja.

Nakon klika na opciju povezivanja, od vas će se zatražiti donji zaslon koji traži korisničko ime i lozinku za vaše spremište.

Nakon što se povežete sa svojim spremištem, morate otvoriti svoju radnu mapu kao što je prikazano u nastavku:

Od vas će se zatražiti da pitate ime svog mapiranja. Navedite ime svog mapiranja i kliknite U redu (nazvao sam ga kao m-ZAPOSLENIK ).

Korak 3: Učitajmo sada tablice iz baze podataka, započnite spajanjem na bazu podataka. Da biste to učinili, odaberite karticu Izvori i opciju Uvezi iz baze podataka kako je prikazano dolje:

Klikom na Uvezi iz baze podataka, na zaslonu će se prikazati upit kao što je prikazano u nastavku da biste pitali detalje o svojoj bazi podataka i njezino korisničko ime i lozinku za povezivanje (koristim bazu podataka oracle i HR korisnika).

Kliknite Poveži za povezivanje s vašom bazom podataka.

Korak 4: Kako se želim pridružiti ZAPOSLENI i ODJELJENJE tablice, ja ću ih odabrati i kliknuti na OK.
Izvori će biti vidljivi u vašem radnom prostoru dizajnera mapiranja, kao što je prikazano u nastavku.

Korak 5: Slično učitajte ciljanu tablicu na mapiranje.

Korak 6: Sad povežimo kvalifikator izvora i ciljnu tablicu. Desnom tipkom miša kliknite bilo koje prazno mjesto radnog prostora i odaberite Autolink kao što je prikazano dolje:

Ispod je mapiranje koje povezuje Autolink.

Korak 7: Kako trebamo povezati obje tablice s Izvornim kvalifikatorom, odaberite stupce tablice Odjela i ispustite u Izvorni kvalifikator kao što je prikazano dolje:

Ispustite vrijednosti stupaca u Izvorni kvalifikator SQ_EMPLOYEES .

Ispod je ažurirani izvorni kvalifikator.

Korak 8: Dvaput kliknite Izvorni kvalifikator da biste uredili transformaciju.

Dobit ćete skočni prozor Uređivanje transformacije kao što je prikazano u nastavku. Kliknite karticu Svojstva.

9. korak: Na kartici Svojstva kliknite polje Vrijednost u retku UserDefined Join.

Dobit ćete sljedeći SQL uređivač:

10. korak: Unesi EMPLOYEES.DEPARTMENT_ID = ODJEL.DEPARTMENT_ID kao uvjet za spajanje obje tablice u SQL polju i kliknite U redu.

11. korak: Sada kliknite red SQL upita da biste generirali SQL za pridruživanje kako je prikazano u nastavku:

Dobit ćete sljedeći SQL uređivač, kliknite opciju Generiraj SQL.

Sljedeći će se SQL generirati za stanje koje smo naveli u prethodnom koraku. Kliknite U redu.

Korak 12: Kliknite Primijeni i U redu.

Ispod je dovršeno mapiranje.

Završili smo s dizajniranjem načina na koji se podaci moraju prenijeti s izvora na cilj. Međutim, stvarni prijenos podataka tek se treba dogoditi, a za to moramo koristiti PowerCenter Workflow Design. Izvršenje tijeka rada dovest će do prijenosa podataka s izvora na cilj. Da biste saznali više o tijeku rada, pogledajte našu Vodič za Informatica: Tijek rada Blog

Korak 13: Li mi sada pokrenimo Workflow Manager klikom na ikonu W kao što je prikazano u nastavku:

Ispod je početna stranica dizajnera tijeka rada.

14. korak: Stvorimo sada novi tijek rada za naše mapiranje. Kliknite karticu Tijek rada i odaberite Stvori opciju.

Dobit ćete skočni prozor u nastavku. Navedite ime svog tijeka rada i kliknite U redu.

Korak 15 : Jednom kada se kreira tijek rada, u radnom prostoru Upravitelja tijeka rada dobivamo ikonu Start.

Dodajmo sada novu sesiju u radni prostor kao što se vidi dolje klikom na ikonu sesije i klikom na radni prostor:

što je awt u javi

Kliknite radni prostor da biste postavili ikonu Sesija.

Korak 16: Tijekom dodavanja sesije morate odabrati Mapiranje koje ste kreirali i spremili u gornjim koracima. (Spasio sam ga kao m-ZAPOSLENI).

Ispod je radni prostor nakon dodavanja ikone sesije.

Korak 17 : Sada kada ste stvorili novu Sesiju, moramo je povezati s početnim zadatkom. To možemo učiniti klikom na ikonu Zadatak veze kao što je prikazano dolje:

Najprije kliknite ikonu Start, a zatim ikonu Sesija da biste uspostavili vezu.

Ispod je povezani tijek rada.

Korak 18: Sad kad smo dovršili dizajn, započnimo radni tok. Kliknite karticu Tijek rada i odaberite opciju Pokreni tijek rada.

Upravitelj tijeka rada koji pokreće Monitor tijeka rada.

Korak 19 : Jednom kada započnemo tijek rada, Workflow Manager se automatski pokrećeiomogućuje vam praćenje izvršenja vašeg radnog procesa. Ispod možete vidjeti kako Workflow Monitor prikazuje status vašeg tijeka rada.

Korak 20: Da biste provjerili status tijeka rada, desnom tipkom miša kliknite tijek rada i odaberite Dohvati svojstva pokretanja kako je prikazano u nastavku:

Odaberite karticu Izvor / ciljna statistika.

Ispod možete vidjeti broj redaka koji su preneseni između izvora i cilja nakon transformacije.

Također možete provjeriti svoj rezultat provjerom ciljne tablice kao što je prikazano u nastavku.

Nadam se da je ovaj blog Informatica ETL-a bio koristan za izgradnju vašeg razumijevanja na konceptima ETL-a pomoću Informatice i stvorio je dovoljno interesa da naučite više o Informatici.

Ako vam je ovaj blog bio koristan, možete pogledati i našu seriju blogova s ​​vodičima za Informatica , Vodič za informatiku: Razumijevanje informatike iznutra i Informatica transformacije: Srce i duša Informatica PowerCenter-a . Ako tražite detalje o certifikaciji Informatica, možete provjeriti naš blog Certifikacija Informatica: Sve što treba znati .

Ako ste se već odlučili za Informaticu baviti karijerom, preporučio bih vam da pogledate našu stranica tečaja. Trening za certificiranje Informatica u Edureki učinit će vas stručnjakom za Informaticu kroz sesije pod vodstvom instruktora uživo i praktični trening koji koristi slučajeve stvarnog života.