Vodič za velike podatke: Sve što trebate znati o velikim podacima!



Ovaj blog na vodiču za velike podatke daje vam cjelovit pregled velikih podataka, njegovih karakteristika, aplikacija kao i izazove s velikim podacima.

Vodič za velike podatke

Big Data, niste li već čuli ovaj izraz? Siguran sam da jeste. U posljednjih 4 do 5 godina svi govore o Big Datau. No, znate li stvarno što su točno ovi Big Data, kako utječu na naš život i zašto organizacije traže profesionalce s ? U ovom vodiču za velike podatke dat ću vam cjelovit uvid u Big Data.

Ispod su teme koje ću pokriti u ovom vodiču za velike podatke:





  • Priča o velikim podacima
  • Čimbenici koji pokreću velike podatke
  • Što su veliki podaci?
  • Karakteristike velikih podataka
  • Vrste velikih podataka
  • Primjeri velikih podataka
  • Primjene velikih podataka
  • Izazovi s velikim podacima

Vodič za velike podatke - Edureka

preopterećenje metode vs prevladavanje metode

Dopustite mi da započnem ovaj vodič za velike podatke kratkom pričom.



Priča o velikim podacima

U davna su vremena ljudi putovali iz jednog u drugo selo na konjskim kolima, ali kako je vrijeme prolazilo, sela su postajala gradovi i ljudi su se širili. Povećala se i udaljenost putovanja od jednog do drugog grada. Dakle, postao je problem putovati između gradova, zajedno s prtljagom. Iz vedra neba, jedan je pametni momak predložio, trebali bismo više dotjerivati ​​i hraniti konja da bismo riješili taj problem. Kad pogledam ovo rješenje, nije toliko loše, ali mislite li da konj može postati slon? Mislim da nije. Još je jedan pametan čovjek rekao, umjesto 1 konja koji vuče kolica, dajmo 4 konja da vuku ista kola. Što mislite o ovom rješenju? Mislim da je to fantastično rješenje. Sada ljudi mogu putovati na velike udaljenosti za manje vremena, pa čak i nositi više prtljage.

Isti koncept vrijedi i za velike podatke. Big Data kaže da smo do danas bili u redu s pohranjivanjem podataka na svoje poslužitelje, jer je količina podataka bila prilično ograničena, a i količina vremena za obradu tih podataka bila je u redu. Ali sada u ovom trenutnom tehnološkom svijetu podaci rastu prebrzo i ljudi se na njih oslanjaju puno puta. Također brzinom kojom podaci rastu, postaje nemoguće pohraniti podatke na bilo koji poslužitelj.

Kroz ovaj blog na vodiču za velike podatke istražimo izvore velikih podataka koje tradicionalni sustavi ne uspijevaju pohraniti i obraditi.



Čimbenici koji pokreću velike podatke

Količina podataka na planeti Zemlji eksponencijalno raste iz mnogih razloga. Razni izvori i naše svakodnevne aktivnosti generiraju puno podataka. Izumom weba cijeli se svijet povezao s mrežom, svaka stvar koju radimo ostavlja digitalni trag. S povezivanjem pametnih objekata na mrežu, brzina rasta podataka brzo se povećala. Glavni izvori velikih podataka su web stranice društvenih medija, senzorske mreže, digitalne slike / videozapisi, mobiteli, evidencije transakcija kupnje, web zapisnici, medicinski zapisi, arhive, vojni nadzor, e-trgovina, složena znanstvena istraživanja i tako dalje. Sve ove informacije iznose oko nekih Quintillion bajtova podataka. Do 2020. godine količina podataka bit će oko 40 zettabajta, što je ekvivalent dodavanju svake pojedinačne zrnce pijeska na planetu pomnoženo sa sedamdeset i pet.

Što su veliki podaci?

Veliki podaci su izraz koji se koristi za skup velikih i složenih skupova podataka, koje je teško pohraniti i obraditi pomoću dostupnih alata za upravljanje bazama podataka ili tradicionalnih aplikacija za obradu podataka. Izazov uključuje hvatanje, kuriranje, spremanje, pretraživanje, dijeljenje, prijenos, analizu i vizualizaciju tih podataka.

Karakteristike velikih podataka

Pet karakteristika koje definiraju velike podatke su: volumen, brzina, raznolikost, istinitost i vrijednost.

  1. VOLUMEN

    Volumen se odnosi na 'količinu podataka', koja raste iz dana u dan vrlo brzim tempom. Veličina podataka koje generiraju ljudi, strojevi i njihove interakcije na samim društvenim mrežama je ogromna. Istraživači su predvidjeli da će se do 2020. stvoriti 40 zettabajta (40 000 egzabajta), što je 300 puta više u odnosu na 2005. godinu.

  2. BRZINA

    Brzina se definira brzinom kojom različiti izvori svakodnevno generiraju podatke. Taj je protok podataka masivan i kontinuiran. Trenutno na usluzi Mobile ima 1,03 milijarde dnevno aktivnih korisnika (Facebook DAU), što je porast od 22% u odnosu na prošlu godinu. To pokazuje koliko brzo raste broj korisnika na društvenim mrežama i koliko brzo se podaci generiraju svakodnevno. Ako se uspijete nositi s brzinom, moći ćete generirati uvide i donositi odluke na temelju podataka u stvarnom vremenu.

  3. RAZNOLIKOST

    Kako postoji mnogo izvora koji doprinose velikim podacima, vrsta podataka koju generiraju je drugačija. Može biti strukturirano, polustrukturirano ili nestrukturirano. Stoga postoje razni podaci koji se generiraju svaki dan. Ranije smo podatke dobivali iz Excela i baza podataka, sada podaci dolaze u obliku slika, audiozapisa, videozapisa, podataka senzora itd., Kao što je prikazano na donjoj slici. Stoga ova raznolikost nestrukturiranih podataka stvara probleme u hvatanju, pohrani, rudarstvu i analizi podataka.

  4. ISTINITOST

    Istinitost se odnosi na podatke u sumnji ili nesigurnosti dostupnih podataka zbog nedosljednosti i nepotpunosti podataka. Na donjoj slici možete vidjeti da u tablici nedostaje nekoliko vrijednosti. Također, teško je prihvatiti nekoliko vrijednosti, na primjer - 15000 minimalne vrijednosti u 3. redu, to nije moguće. Ova nedosljednost i nepotpunost je istinitost.
    Dostupni podaci ponekad mogu postati neuredni i možda im je teško vjerovati. S mnogim oblicima velikih podataka, kvalitetu i točnost teško je kontrolirati poput postova na Twitteru s hashtagovima, kraticama, pogrešnim greškama i razgovornim govorom. Volumen je često razlog nedostatka kvalitete i točnosti podataka.

    • Zbog nesigurnosti podataka, svaki treći poslovni čelnik ne vjeruje informacijama koje koriste za donošenje odluka.
    • U istraživanju je utvrđeno da 27% ispitanika nije sigurno koliko je njihovih podataka netočno.
    • Loša kvaliteta podataka košta američko gospodarstvo oko 3,1 bilijuna dolara godišnje.
  5. VRIJEDNOST

    Nakon rasprave o volumenu, brzini, raznolikosti i vjerodostojnosti, postoji još jedan V koji treba uzeti u obzir kada se gledaju veliki podaci, tj. Vrijednost. Sve je dobro i dobro imati pristup velikompodacialibeskorisno je ako ga ne možemo pretvoriti u vrijednost. Pretvarajući ga u vrijednost mislim, dodaje li to prednostima organizacija koje analiziraju velike podatke? Radi li organizacija na Big Datau postizanjem visokog ROI-a (povrata ulaganja)? Beskorisno je ako im ne doda zaradu radeći na velikim podacima.

Prođite kroz naš videozapis o velikim podacima u nastavku da biste saznali više o Big podacima:

Vodič za velike podatke za početnike | Što su veliki podaci | Edureka

Kao što je raspravljeno u Varietyu, postoje različite vrste podataka koji se generiraju svaki dan. Dakle, shvatimo sada vrste podataka:

Vrste velikih podataka

Veliki podaci mogu biti tri vrste:

javni niz tostring ()
  • Strukturirano
  • Polustrukturirano
  • Nestrukturiran

  1. Strukturirano

    Podaci koji se mogu pohraniti i obraditi u fiksnom formatu nazivaju se strukturiranim podacima. Podaci pohranjeni u relacijskom sustavu upravljanja bazama podataka (RDBMS) jedan su od primjera 'strukturiranih' podataka. Lako je obraditi strukturirane podatke jer imaju fiksnu shemu. Za upravljanje takvom vrstom podataka često se koristi strukturirani jezik upita (SQL).

  2. Polustrukturirano

    Polustrukturirani podaci vrsta su podataka koja nema formalnu strukturu podatkovnog modela, tj. Definiciju tablice u relacijskom DBMS-u, ali unatoč tome ima neka organizacijska svojstva poput oznaka i drugih markera za odvajanje semantičkih elemenata što olakšava analizirati. XML datoteke ili JSON dokumenti primjeri su polustrukturiranih podataka.

  3. Nestrukturiran

    Podaci koji su nepoznatog oblika i koji se ne mogu pohraniti u RDBMS i ne mogu se analizirati ako se ne transformiraju u strukturirani format nazivaju se nestrukturiranim podacima. Tekstualne datoteke i multimedijski sadržaji poput slika, audiozapisa, videozapisa primjer su nestrukturiranih podataka. Nestrukturirani podaci rastu brže od ostalih, stručnjaci kažu da je 80 posto podataka u organizaciji nestrukturirano.

Do sada sam upravo pokrivao uvođenje velikih podataka. Nadalje, ovaj tutorial za Big Data govori o primjerima, aplikacijama i izazovima u Big Datau.

Primjeri velikih podataka

Svakodnevno prenosimo milijune bajtova podataka. 90% svjetskih podataka stvoreno je u posljednje dvije godine.

  • Walmart se bavi više od 1 milijun transakcije kupaca svaki sat.
  • Facebook pohranjuje, pristupa i analize 30+ petabajta podataka koje generiraju korisnici.
  • 230+ milijuna tweetova stvaraju se svaki dan.
  • Više od 5 milijardi ljudi pozivaju, dopisuju poruke, tweetuju i pregledavaju mobitele širom svijeta.
  • Korisnici YouTubea prenose 48 sati novog videozapisa svake minute u danu.
  • Amazonske ručke 15 milijuna kupac klikni stream podataka korisnika dnevno za preporuku proizvoda
  • 294 milijarde mailovi se šalju svaki dan. Usluge analiziraju ove podatke kako bi pronašle neželjenu poštu.
  • Moderni automobili imaju blizu 100 senzora koje nadzire razinu goriva, tlak u gumama itd., svako vozilo generira puno podataka senzora.

Primjene velikih podataka

Ne možemo razgovarati o podacima, a da ne razgovaramo o ljudima, ljudima koji imaju koristi od velikih podataka. Gotovo sve industrije danas koriste aplikacije Big Data na jedan ili drugi način.

  • Pametnije zdravstvo : Koristeći petabajte podataka pacijenta, organizacija može izvući značajne informacije, a zatim izraditi aplikacije koje mogu unaprijed predvidjeti pogoršanje stanja pacijenta.
  • Telekom : Telekom sektor prikuplja informacije, analizira ih i nudi rješenja za različite probleme. Korištenjem aplikacija Big Data, telekomunikacijske tvrtke uspjele su značajno smanjiti gubitak podatkovnog paketa, koji se događa kada su mreže preopterećene, i na taj način pružajući besprijekornu vezu svojim kupcima.
  • Maloprodaja : Maloprodaja ima neke od najužih marži i jedan je od najvećih korisnika velikih podataka. Ljepota korištenja velikih podataka u maloprodaji je razumijevanje ponašanja potrošača. Amazonov mehanizam preporuka daje prijedloge na temelju povijesti pregledavanja potrošača.
  • Kontrola prometa : Zagušenost prometa glavni je izazov za mnoge gradove na globalnoj razini. Učinkovita uporaba podataka i senzora bit će ključna za bolje upravljanje prometom kako gradovi postaju sve gušće naseljeni.
  • Proizvodnja : Analiza velikih podataka u proizvodnoj industriji može smanjiti nedostatke komponenata, poboljšati kvalitetu proizvoda, povećati učinkovitost i uštedjeti vrijeme i novac.
  • Kvaliteta pretraživanja : Svaki put kada izvlačimo podatke s Googlea, istovremeno generiramo podatke za njih. Google pohranjuje te podatke i koristi ih za poboljšanje kvalitete pretraživanja.

Netko je s pravom rekao: 'Nije sve u vrtu ružičasto!' . Do sada sam vam u ovom vodiču za velike podatke upravo pokazao ružičastu sliku velikih podataka. Ali ako je bilo tako lako iskoristiti velike podatke, ne mislite li da bi sve organizacije uložile u njih? Dopustite mi da vam kažem unaprijed, to nije slučaj. Postoji nekoliko izazova koji se pojavljuju kada radite s velikim podacima.

Sad kad ste upoznati s Big Dataom i njegovim raznim značajkama, sljedeći odjeljak ovog bloga o Vodiču za velike podatke rasvijetlit će neke od glavnih izazova s ​​kojima se susreću Big Data.

Izazovi s velikim podacima

Dopustite mi da vam kažem nekoliko izazova koji dolaze uz Big Data:

  1. Kvaliteta podataka - Ovdje je problem 4thV tj. Istinitost. Podaci su ovdje vrlo neuredni, nedosljedni i nepotpuni. Prljavi podaci godišnje koštaju tvrtke u Sjedinjenim Državama 600 milijardi dolara.
  1. Otkriće - Pronalaženje uvida u Big Data je poput pronalaska igle u plastu sijena. Analiziranje petabajta podataka pomoću izuzetno moćnih algoritama za pronalaženje obrazaca i uvida vrlo je teško.
  1. Skladištenje - Što više podataka organizacija ima, to složeniji mogu postati problemi upravljanja. Ovdje se postavlja pitanje 'Gdje ga spremiti?'. Trebamo sustav za pohranu koji se lako može povećati ili smanjiti na zahtjev.
  1. Analitika - U slučaju velikih podataka, većinu vremena nismo svjesni vrste podataka s kojima imamo posla, pa je analiza tih podataka još teža.
  1. Sigurnost - Budući da su podaci velike veličine, još je jedan izazov njihovo održavanje. Uključuje provjeru autentičnosti korisnika, ograničavanje pristupa na temelju korisnika, bilježenje povijesti pristupa podacima, pravilno korištenje šifriranja podataka itd.
  1. Nedostatak talenta - Mnogo je projekata velikih podataka u glavnim organizacijama, ali sofisticirani tim programera, znanstvenika podataka i analitičara koji također imaju dovoljnu količinu znanja o domeni još uvijek predstavlja izazov.

Hadoop za spas

Imamo spasitelja za suočavanje s izazovima velikih podataka - svojim Hadoop . Hadoop je programski okvir zasnovan na Javi s otvorenim izvorom koji podržava pohranu i obradu izuzetno velikih skupova podataka u distribuiranom računalnom okruženju. Dio je to projekta Apache koji sponzorira Apache Software Foundation.

što je ide u javi

Hadoop svojom distribuiranom obradom učinkovitije rukuje velikim količinama strukturiranih i nestrukturiranih podataka od tradicionalnog skladišta podataka poduzeća. Hadoop omogućuje pokretanje aplikacija na sustavima s tisućama robnih hardverskih čvorova i rukovanje tisućama terabajta podataka. Organizacije usvajaju Hadoop jer je softver otvorenog koda i može se pokretati na robnom hardveru (vašem osobnom računalu).Početna ušteda troškova dramatična je jer je robni hardver vrlo jeftin. Kako se organizacijski podaci povećavaju, morate u hodu dodavati sve više i više robnog hardvera da biste ih pohranili, a stoga se Hadoop pokazuje ekonomičnim.Uz to, Hadoop iza sebe ima robusnu Apache zajednicu koja i dalje doprinosi njegovom napretku.

Kao što sam ranije obećao, putem ovog bloga na vodiču za velike podatke pružio sam vam maksimalan uvid u Big Data. Ovo je kraj Vodiča za velike podatke. Sada je sljedeći korak naprijed upoznavanje i učenje Hadoopa. Imamo serija Hadoop tutorijala blogovi koji će dati detaljno znanje o kompletnom Hadoop ekosustavu.

Svaka čast, Sretan Hadooping!

Sad kad ste shvatili što su Big Data, pogledajte Edureka, pouzdana tvrtka za internetsko učenje s mrežom od više od 250 000 zadovoljnih učenika raširenih širom svijeta. Edureka tečaj obuke za certificiranje velikih podataka Hadoop pomaže učenicima da postanu stručnjaci za HDFS, pređu, MapReduce, svinju, košnicu, HBase, Oozie, Flume i Sqoop koristeći slučajeve korištenja u stvarnom vremenu na maloprodaji, društvenim mrežama, zrakoplovstvu, turizmu i financijama.

Imate pitanje za nas? Molimo spomenite to u odjeljku za komentare i javit ćemo vam se.

Vezane objave: