Vodič za znanost o podacima - naučite nauku o podacima iz početka!



Ovaj vodič za Data Science idealan je za one koji žele prelazak na domenu Data Science. Uključuje sve osnovne podatke o znanosti znanosti s karijerom.

Želite započeti svoju karijeru kao Data Scientist, ali ne znate odakle započeti? Na pravom ste mjestu! Hej, momci, dobrodošli na ovaj sjajni blog Tutorial znanosti o znanosti, počet će vam početak u svijetu znanosti znanosti. Da biste stekli detaljno znanje o znanosti znanosti, možete se prijaviti uživo Edureka s podrškom 24/7 i doživotnim pristupom. Pogledajmo što ćemo danas učiti:

    1. Zašto Data Science?
    2. Što je Data Science?
    3. Tko je Data Scientist?
    4. Trendovi poslova
    5. Kako riješiti problem u Data Scienceu?
    6. Komponente znanosti o podacima
    7. Uloge posla znanstvenika podataka





Zašto Data Science?

Rečeno je da je Data Scientist 'najseksi posao 21. stoljeća'. Zašto? Jer tijekom posljednjih nekoliko godina, tvrtke pohranjuju svoje podatke. A ovo što rade sve tvrtke, odjednom je dovelo do eksplozije podataka. Podaci su danas postali najobilnija stvar.

Ali, što ćete učiniti s tim podacima? Shvatimo to na primjeru:



Recimo, imate tvrtku koja proizvodi mobilne telefone. Izdali ste svoj prvi proizvod i postao je masovni hit. Svaka tehnologija ima svoj život, zar ne? Dakle, sada je vrijeme da smislimo nešto novo. Ali ne znate što bi trebalo inovirati kako bi se ispunili očekivanja korisnika koji nestrpljivo čekaju vaše sljedeće izdanje?

Netko u vašoj tvrtki dolazi na ideju da koristi povratne informacije koje generiraju korisnici i odabere stvari za koje smatramo da ih korisnici očekuju u sljedećem izdanju.

Dolazi u Data Science, primjenjujete razne tehnike rudarenja podataka poput analize raspoloženja itd. I postižete željene rezultate.



Nije to samo to, možete donijeti bolje odluke, možete smanjiti svoje proizvodne troškove izlazeći na učinkovite načine i pružiti svojim kupcima ono što zapravo žele!

Ovime postoje brojne prednosti koje Data Science može rezultirati i stoga je postalo apsolutno neophodno da vaša tvrtka ima tim za Data Science.Zahtjevi poput ovih doveli su do toga da je današnja tema 'Znanost o podacima' i stoga pišemo ovaj blog u Vodiču za znanost o podacima za vas. :)

Vodič za Data Data: Što je Data Science?

Pojam Data Science pojavio se nedavno evolucijom matematičke statistike i analize podataka. Putovanje je bilo nevjerojatno, toliko smo danas postigli na polju znanosti o podacima.

U sljedećih nekoliko godina moći ćemo predvidjeti budućnost kako tvrde istraživači s MIT-a. Svojim su izvrsnim istraživanjima već postigli prekretnicu u predviđanju budućnosti. Sada svojim strojem mogu predvidjeti što će se dogoditi u sljedećoj sceni filma! Kako? Pa, možda vam je malo složeno od sada, ali ne brinite do kraja ovog bloga, imat ćete odgovor i na to.

Vraćajući se natrag, govorili smo o znanosti znanosti, koja je također poznata kao znanost vođena podacima, koja koristi znanstvene metode, procese i sustave za izvlačenje znanja ili uvida iz podataka u raznim oblicima, tj. Strukturiranim ili nestrukturiranim.

Koje su to metode i procesi, o čemu ćemo danas raspravljati u ovom Vodiču za znanost o podacima.

Krećemo se naprijed, tko radi sve to u mozgu ili tko se bavi Data Scienceom? A Data Scientist .

Tko je Data Scientist?

Kao što vidite na slici, Data Scientist je gospodar svih zanata! Trebao bi biti vješt u matematici, trebao bi se baviti poslovnim područjem, a trebao bi imati i velike vještine informatike. Prestrašen? Nemojte biti. Iako trebate biti dobri u svim tim poljima, ali čak i ako niste, niste sami! Ne postoji pojam 'cjeloviti znanstvenik podataka'. Ako govorimo o radu u korporacijskom okruženju, posao se raspoređuje po timovima, pri čemu svaki tim ima svoju stručnost. Ali stvar je u tome što biste trebali biti vješti barem u jednom od ovih polja. Također, čak i ako su vam ove vještine nove, ohladite se! Možda će trebati vremena, ali ove se vještine mogu razviti, i vjerujte mi, vrijedilo bi vremena koje ćete uložiti. Zašto? Pa, pogledajmo trendove na poslu.

pročitajte xml datoteku u primjeru Java

Trendovi poslova znanstvenika podataka

Pa, grafikon sve govori, ne samo da postoji puno radnih mjesta za znanstvenika podataka, već su i poslovi dobro plaćeni! I ne, naš blog neće pokrivati ​​brojke plaća, google!

Pa, sada znamo, učenje znanosti o podacima zapravo ima smisla, ne samo zato što je vrlo korisno, već i u tome imate sjajnu karijeru u bliskoj budućnosti.

Započnimo naše putovanje u učenju znanosti o podacima i započnimo s,

Kako riješiti problem u Data Scienceu?

Dakle, razgovarajmo o tome kako treba pristupiti problemu i riješiti ga pomoću znanosti o podacima. Problemi u znanosti o znanosti rješavaju se pomoću algoritama. Ali, najveća stvar koju treba prosuditi je koji algoritam koristiti i kada ga koristiti?

U osnovi postoji 5 vrsta problema s kojima se možete suočiti u znanosti o podacima.

Obratimo se svakom od ovih pitanja i pripadajućih algoritama jedno po jedno:

Je li ovo A ili B?

Ovim pitanjem mislimo na probleme koji imaju kategoričan odgovor, jer u problemima koji imaju fiksno rješenje odgovor može biti da ili ne, 1 ili 0, zainteresirani, možda ili ne zanimaju.

Na primjer:

P. Što ćete popiti, čaj ili kavu?

Ovdje ne možete reći da biste htjeli kolu! Budući da pitanje nudi samo čaj ili kavu, stoga možete odgovoriti samo na jedno od njih.

Kada imamo samo dvije vrste odgovora, tj. Da ili ne, 1 ili 0, naziva se klasifikacija 2-klase. S više od dvije mogućnosti naziva se Klasifikacija više klasa.

Zaključujući, kad god naiđete na pitanja, čiji je odgovor kategoričan, u Data Scienceu ćete rješavati ove probleme pomoću algoritama klasifikacije.

Sljedeći problem u ovom Vodiču za znanost o podacima, na koji možete naići, možda nešto slično ovome,

Je li ovo čudno?

Takva se pitanja bave uzorcima i mogu se riješiti pomoću algoritama za otkrivanje anomalija.

Na primjer:

Pokušajte povezati problem 'je li ovo čudno?' na ovaj dijagram,

Što je čudno u gornjem uzorku? Crveni tip, zar ne?

Kad god dođe do prekida u uzorku, algoritam označava taj određeni događaj da bismo ga pregledali. Primjenu ovog algoritma u stvarnom svijetu implementirale su tvrtke s kreditnim karticama, gdje je svaka neobična transakcija korisnika označena za pregled. Stoga uvođenje sigurnosti i smanjenje napora ljudi na nadzoru.

Pogledajmo sljedeći problem u ovom vodiču za znanost o podacima, nemojte se bojati, bavi se matematikom!

Koliko ili Koliko?

Oni koji ne vole matematiku, odahnite! Algoritmi regresije su ovdje!

Dakle, kad god postoji problem koji može tražiti brojke ili numeričke vrijednosti, rješavamo ga pomoću algoritama regresije.

Na primjer:

Kolika će biti temperatura za sutra?

Budući da očekujemo numeričku vrijednost u odgovoru na ovaj problem, riješit ćemo je pomoću algoritama regresije.

Krećući se dalje u ovom vodiču za znanost o podacima, razgovarajmo o sljedećem algoritmu,

Kako je to organizirano?

Recimo da imate neke podatke, a sada nemate pojma kako smisliti te podatke. Stoga se postavlja pitanje kako je to organizirano?

Pa, to možete riješiti pomoću algoritama za klasteriranje. Kako rješavaju ove probleme? Da vidimo:

Algoritmi klasteriranja grupiraju podatke prema zajedničkim karakteristikama. Na primjer, u gornjem dijagramu, točke su organizirane na temelju boja. Slično tome, bilo da se radi o bilo kakvim podacima, algoritmi klasteriranja pokušavaju shvatiti ono što je zajedničko između njih i stoga ih 'grupiraju' zajedno.

Sljedeća i posljednja vrsta problema u ovom vodiču za znanost o podacima s kojim se možete susresti je,

Što da radim dalje?

Kad god naiđete na problem, u kojem vaše računalo mora donijeti odluku na temelju obuke koju ste mu pružili, to uključuje pojačanje algoritama.

Na primjer:

Vaš sustav za kontrolu temperature, kada mora odlučiti hoće li smanjiti temperaturu u sobi ili je povećati.

Kako funkcioniraju ti algoritmi?

Ti se algoritmi temelje na ljudskoj psihologiji. Volimo biti cijenjeni zar ne? Računala implementiraju ove algoritme i očekuju da će ih netko cijeniti kad budu obučeni. Kako? Da vidimo.

Umjesto da računalo podučavate što treba raditi, vi mu dopuštate da odlučuje što će učiniti, a na kraju te akcije dajete pozitivne ili negativne povratne informacije. Stoga, umjesto da definirate što je ispravno, a što pogrešno u vašem sustavu, vi dopuštate vašem sustavu da 'odlučuje' što će učiniti i na kraju dajete povratne informacije.

To je baš kao da trenirate svog psa. Ne možete kontrolirati što vaš pas radi, zar ne? Ali možete ga izgrditi kad pogriješi. Slično tome, možda ga tapšući po leđima kad učini ono što se očekuje.

Primijenimo ovo razumijevanje u gornjem primjeru, zamislimo da vježbate sustav kontrole temperature, pa kad god je ne. ljudi u sobi se povećavaju, sustav mora poduzeti mjere. Ili smanjite temperaturu ili je povećajte. Budući da naš sustav ništa ne razumije, donosi slučajnu odluku, pretpostavimo, povećava temperaturu. Stoga dajete negativne povratne informacije. Ovime računalo razumije kad god se u sobi poveća broj ljudi, nikad ne poveća temperaturu.

Slično za ostale radnje, i vi ćete dati povratne informacije.Sa svakom povratnom informacijom vaš sustav uči i stoga postaje točniji u svojoj sljedećoj odluci, ova vrsta učenja naziva se pojačanim učenjem.

Sada algoritmi koje smo gore naučili u ovom vodiču za znanost o podacima uključuju uobičajenu „praksu učenja“. Stroj učimo zar ne?

Što je strojno učenje?

razlika između poništavanja i preopterećenja

To je vrsta umjetne inteligencije koja čini računala sposobnima za samostalno učenje, tj. Bez izričitog programiranja. Strojnim učenjem strojevi mogu ažurirati vlastiti kôd kad god naiđu na novu situaciju.

Zaključujući u ovom vodiču za Data Data, sada znamo da Data Science stoji iza strojnog učenja i njegovih algoritama za njegovu analizu. Kako radimo analizu, gdje to radimo. Data Science nadalje ima neke komponente koje nam pomažu u rješavanju svih ovih pitanja.

Prije toga, dopustite mi da odgovorim kako MIT može predvidjeti budućnost, jer mislim da biste to sada mogli povezati. Dakle, istraživači s MIT-a trenirali su svoj model s filmovima, a računala su naučila kako ljudi reagiraju ili kako se ponašaju prije nego što naprave akciju.

Na primjer, kada se želite rukovati s nekim, izvadite ruku iz džepa ili se možda oslonite na osobu. U osnovi je uz svaku stvar koja radimo „preduzimanje radnje“. Računalo uz pomoć filmova osposobljeno je za ove 'preduvjete'. I promatrajući sve više i više filmova, njihova su računala tada mogla predvidjeti koja bi sljedeća radnja lika mogla biti.

Lako, zar ne? Dopustite mi da vam postavim još jedno pitanje u ovom vodiču za znanost o podacima! Koji su algoritam strojnog učenja u to morali implementirati?

Komponente znanosti o podacima

1. Skupovi podataka

Na čemu ćete analizirati? Podaci, zar ne? Trebate puno podataka koji se mogu analizirati, a ti se podaci dostavljaju u vaše algoritme ili analitičke alate. Te podatke dobivate iz različitih istraživanja provedenih u prošlosti.

2. R Studio

R je programski jezik otvorenog koda i softversko okruženje za statističko računanje i grafiku koje podržava R temelj. Jezik R koristi se u IDE-u zvanom R Studio.

Zašto se koristi?

  • Programiranje i statistički jezik
    • Osim što se koristi kao statistički jezik, u analitičke svrhe može se koristiti i programski jezik.
  • Analiza i vizualizacija podataka
    • Osim što je jedan od najdominantnijih analitičkih alata, R je i jedan od najpopularnijih alata koji se koristi za vizualizaciju podataka.
  • Jednostavno i lako za naučiti
    • R je jednostavan i lak za učenje, čitanje i pisanje

  • Besplatni i otvoreni kod
    • R je primjer FLOSS-a (besplatni / besplatni i softver otvorenog koda) što znači da se mogu slobodno distribuirati kopije ovog softvera, čitati njegov izvorni kod, mijenjati itd.

R Studio bio je dovoljan za analizu, sve dok naši skupovi podataka nisu postali ogromni, ujedno i nestrukturirani. Ova vrsta podataka zvala se Big Data.

3. Veliki podaci

Veliki podaci su pojam za zbirku skupova podataka toliko velikih i složenih da ih postaje teško obraditi pomoću ručnih alata za upravljanje bazama podataka ili tradicionalnih aplikacija za obradu podataka.

Da bismo ukrotili ove podatke, morali smo smisliti alat, jer niti jedan tradicionalni softver nije mogao obraditi takvu vrstu podataka, pa smo stoga smislili Hadoop.

4. Hadoop

Hadoop je okvir koji nam pomaže pohraniti i postupak veliki skupovi podataka paralelno i na način distribucije.

Usredotočimo se na trgovinu i obradimo dio Hadoopa.

Spremi

Dijelom za pohranu u Hadoopu upravlja HDFS, tj. Hadoop distribuirani datotečni sustav. Pruža visoku dostupnost u distribuiranom ekosustavu. Način na koji funkcionira ovako, razbija dolazne informacije na komade i distribuira ih na različite čvorove u klasteru, omogućujući distribuirano spremanje.

Postupak

MapReduce je srce obrade Hadoop-a. Algoritmi rade dva važna zadatka, mapiraju i reduciraju. Maperi raščlanjuju zadatak na manje zadatke koji se obrađuju paralelno. Jednom svi mapari odrade svoj dio posla, oni zbrajaju svoje rezultate, a zatim se ti postupci reduciraju na jednostavniju vrijednost. Da biste saznali više o Hadoopu, možete proći naš .

Ako koristimo Hadoop kao svoju pohranu u Data Scienceu, postaje teško obraditi ulaz s R Studio, zbog njegove nemogućnosti da se dobro izvodi u distribuiranom okruženju, stoga imamo Spark R.

5. Iskra R

Riječ je o R paketu, koji pruža lagan način korištenja Apache Sparka s R. Zašto ćete ga koristiti u odnosu na tradicionalne R aplikacije? Jer, pruža implementaciju distribuiranog okvira podataka koja podržava rad poput odabira, filtriranja, agregiranja itd., Ali na velikim skupovima podataka.

Odmori se sada! Završili smo s tehničkim dijelom u ovom Vodiču za znanost o podacima, pogledajmo ga sada iz perspektive vašeg posla. Mislim da biste do sada već guglali plaće za znanstvenika podataka, ali ipak, razgovarajmo o ulogama poslova koje su vam na raspolaganju kao znanstveniku podataka.

Uloge posla znanstvenika podataka

Neki od istaknutih naziva radnih mjesta Data Scientist su:

  • Data Scientist
  • Inženjer podataka
  • Arhitekt podataka
  • Administrator podataka
  • Analitičar podataka
  • Poslovni analitičar
  • Upravitelj podataka / analitike
  • Voditelj poslovne inteligencije

Grafikon Payscale.com u ovom vodiču za znanost o podacima u nastavku prikazuje prosječnu plaću znanstvenika podataka prema vještinama u SAD-u i Indiji.

Zrelo je vrijeme za napredne vještine u Data Scienceu i Big Data Analyticsu kako biste iskoristili mogućnosti za karijeru Data Sciencea koje vam se nađu na putu. Ovo nas dovodi do kraja bloga udžbenika Data Science. Nadam se da je ovaj blog bio informativan i dodao vam vrijednost. Sada je vrijeme da uđete u svijet znanosti znanosti i postanete uspješan znanstvenik podataka.

Edureka ima posebno kuriranog koji vam pomaže u stjecanju stručnosti u algoritmima strojnog učenja poput K-Means klastera, stabala odlučivanja, slučajnih šuma, naivnih Bayesa. Naučit ćete pojmove statistike, vremenskih serija, rudarenja teksta i uvoda u dubinsko učenje. Uskoro počinju nove serije za ovaj tečaj !!

Imate pitanje za nas u Vodiču za znanost o podacima? Molimo spomenite to u odjeljku za komentare i javit ćemo vam se.