Kako je svijet ušao u eru velikih podataka, tako je rasla i potreba za njihovim pohranom. To je bio glavni izazov i briga za industriju poduzeća do 2010. Glavni fokus bio je na izgradnji okvira i rješenja za pohranu podataka. Sad kad su Hadoop i drugi okviri uspješno riješili problem pohrane, fokus se prebacio na obradu ovih podataka. Data Science je tajni umak ovdje. Sve ideje koje vidite u hollywoodskim znanstveno-fantastičnim filmovima Data Science zapravo mogu pretvoriti u stvarnost. Data Science budućnost je umjetne inteligencije. Stoga je vrlo važno razumjeti što je Data Science i kako može dodati vrijednost vašem poslu.
Izašao je Edureka 2019 Tech Care Guide! Najpopularnije uloge u poslu, precizni putovi učenja, perspektive industrije i još mnogo toga u vodiču. preuzimanje datoteka sada.Na ovom blogu obrađivat ću sljedeće teme.
- Što je znanost o podacima?
- Zašto Data Science?
- Tko je Data Scientist?
- Po čemu se razlikuje od poslovne inteligencije (BI) i znanosti o podacima?
- Životni ciklus Data Science uz pomoć slučaja upotrebe
Na kraju ovog bloga moći ćete shvatiti što je znanost o podacima i njegova uloga u izvlačenju značajnih uvida iz složenih i velikih skupova podataka oko nas.Da biste stekli detaljno znanje o znanosti znanosti, možete se prijaviti uživo Edureka s 24/7 podrškom i doživotnim pristupom.
Što je znanost o podacima?
Data Science kombinacija je različitih alata, algoritama i principa strojnog učenja s ciljem otkrivanja skrivenih obrazaca iz sirovih podataka. Ali kako se to razlikuje od onoga što statističari rade godinama?
Odgovor leži u razlici između objašnjavanja i predviđanja.
koje su komponente Java platforme?
Kao što vidite iz gornje slike, Analitičar podatakaobično objašnjava što se događa obrađivanjem povijesti podataka. S druge strane, Data Scientist ne samo da vrši istraživačku analizu kako bi otkrio uvide iz nje, već također koristi razne napredne algoritme strojnog učenja kako bi identificirao pojavu određenog događaja u budućnosti. Znanstvenik podataka promatrat će podatke iz mnogih kutova, ponekad iz ranije nepoznatih kutova.
Dakle, Data Science se prvenstveno koristi za donošenje odluka i predviđanja koristeći se prediktivnom kauzalnom analitikom, preskriptivnom analitikom (prediktivna plus odluka) i strojnim učenjem.
- Prediktivna uzročna analitika - Ako želite model koji može predvidjeti mogućnosti određenog događaja u budućnosti, morate primijeniti prediktivnu uzročnu analitiku. Recimo, ako novac dajete na kredit, onda je stvar koja vas brine vjerojatnost da će kupci na vrijeme izvršiti buduća plaćanja na kredit. Ovdje možete izgraditi model koji može izvoditi prediktivnu analitiku na povijesti plaćanja kupca kako bi predvidio hoće li buduća plaćanja biti na vrijeme ili ne.
- Preskriptivna analitika: Ako želite model koji ima inteligenciju donošenja vlastitih odluka i sposobnost da ga modificira dinamičkim parametrima, zasigurno vam je potrebna analitika propisa. Ovo relativno novo područje odnosi se samo na pružanje savjeta. Drugim riječima, on ne samo da predviđa već sugerira niz propisanih radnji i povezanih ishoda.
Najbolji primjer za to je Googleov samovozeći automobil o kojem sam i ranije razgovarao. Podaci prikupljeni vozilima mogu se koristiti za obuku samovozećih automobila. Na tim podacima možete pokretati algoritme kako biste im unijeli inteligenciju. To će vašem automobilu omogućiti da donosi odluke poput vremena skretanja i kojim putem,kada usporiti ili ubrzati.
- Strojno učenje za predviđanje - Ako imate transakcijske podatke financijske tvrtke i trebate izgraditi model za određivanje budućeg trenda, tada su algoritmi strojnog učenja najbolji izbor. To spada u paradigmu učenja pod nadzorom. Zove se nadzirano jer već imate podatke na temelju kojih možete trenirati svoje strojeve. Na primjer, model otkrivanja prijevare može se obučiti koristeći povijesni zapis o prijevarnim kupnjama.
- Strojno učenje za otkrivanje uzoraka - Ako nemate parametre na temelju kojih možete prognozirati, morate otkriti skrivene uzorke unutar skupa podataka da biste mogli smisleno predviđati. Ovo nije ništa drugo doli model bez nadzora jer nemate unaprijed definirane oznake za grupiranje. Najčešći algoritam koji se koristi za otkrivanje uzoraka je klasterizacija.
Recimo da radite u telefonskoj tvrtki i da morate uspostaviti mrežu postavljanjem tornjeva u nekoj regiji. Zatim možete koristiti tehniku grupiranja da biste pronašli ona mjesta tornja koja će osigurati da svi korisnici dobiju optimalnu snagu signala.
Pogledajmo kako se razlikuje udio gore opisanih pristupa za Analizu podataka kao i Data Science. Kao što možete vidjeti na donjoj slici, Analiza podatakauključuje deskriptivnu analitiku i predviđanje u određenoj mjeri. S druge strane, Data Science se više bavi prediktivnom uzročnom analitikom i strojnim učenjem.
Sad kad znate što je točno Data Science, saznajmo razlog zašto je ona uopće bila potrebna.
Zašto Data Science?
- Tradicionalno su podaci koje smo imali uglavnom bili strukturirani i male veličine, što se moglo analizirati pomoću jednostavnih BI alata.Za razliku od podataka utradicionalni sustavi koji su uglavnom bili strukturirani, danas je većina podataka nestrukturirana ili polustrukturirana. Pogledajmo trendove podataka na donjoj slici koja pokazuje da će do 2020. godine više od 80% podataka biti nestrukturirano.
Ti se podaci generiraju iz različitih izvora kao što su financijski dnevnici, tekstualne datoteke, multimedijski obrasci, senzori i instrumenti. Jednostavni BI alati nisu sposobni obraditi ovu veliku količinu i raznolikost podataka. Zbog toga su nam potrebni složeniji i napredniji analitički alati i algoritmi za obradu, analizu i crtanje značajnih uvida iz njih.
To nije jedini razlog zašto je Data Science postao toliko popularan. Kopajmo dublje i vidjet ćemo kako se Data Science koristi u raznim domenama.
- Što kažete na to da možete razumjeti precizne zahtjeve svojih kupaca iz postojećih podataka poput korisnikove prošlosti pregledavanja, povijesti kupnje, starosti i prihoda. Nema sumnje da ste i ranije imali sve ove podatke, ali sada s ogromnom količinom i raznovrsnošću podataka možete učinkovitije osposobljavati modele i preciznije preporučiti proizvod svojim kupcima. Ne bi li bilo nevjerojatno jer će donijeti više posla vašoj organizaciji?
- Uzmimo drugi scenarij da bismo razumjeli ulogu Data Sciencea u odlučivanje.Što kažete na to da je vaš automobil imao inteligenciju da vas vozi kući? Samovozeći automobili prikupljaju podatke uživo sa senzora, uključujući radare, kamere i lasere, kako bi stvorili kartu svoje okoline. Na temelju tih podataka, donose se odluke poput ubrzanja, kada ubrzanja, kada preticanja, gdje skretanje - koristeći napredne algoritme strojnog učenja.
- Pogledajmo kako se Data Science može koristiti u prediktivnoj analitici. Uzmimo za primjer vremensku prognozu. Podaci s brodova, zrakoplova, radara, satelita mogu se prikupljati i analizirati za izradu modela. Ovi modeli neće samo prognozirati vrijeme već i pomoći u predviđanju pojave bilo kakvih prirodnih nepogoda. Pomoći će vam da prethodno poduzmete odgovarajuće mjere i spasite mnoge dragocjene živote.
Pogledajmo donju infografiku kako bismo vidjeli sve domene na kojima Data Science stvara dojam.
Tko je Data Scientist?
Postoji nekoliko definicija dostupnih na Data Scientistima. Jednostavnim riječima, Data Scientist je onaj koji se bavi umjetnošću Data Science.Pojam 'Data Scientist' bio jeskovan nakon razmatranja činjenice da Data Scientist crpi mnogo informacija iz znanstvenih područja i aplikacija bilo da se radi o statistici ili matematici.
Što radi Data Scientist?
Znanstvenici podataka su oni koji rješavaju složene probleme s podacima svojom snažnom stručnošću u određenim znanstvenim disciplinama. Rade s nekoliko elemenata koji se odnose na matematiku, statistiku, informatiku itd. (Iako možda nisu stručnjak u svim tim poljima).Puno koriste najnovije tehnologije u pronalaženju rješenja i donošenju zaključaka koji su presudni za rast i razvoj organizacije. Znanstvenici za podatke predstavljaju podatke u mnogo korisnijem obliku u usporedbi s neobrađenim podacima koji su im dostupni iz strukturiranih i nestrukturiranih obrazaca.
Da biste saznali više o Data Scientistu, možete se pozvati na ovaj članak
Idemo dalje, razgovarajmo sada o BI-u. Siguran sam da ste možda čuli i za Business Intelligence (BI). Često se Data Science miješa s BI. Navest ću nekoliko jezgrovitih i jasnihkontrasti između njih dvoje što će vam pomoći u boljem razumijevanju. Pogledajmo.
Poslovna inteligencija (BI) nasuprot znanosti o podacima
- Poslovna inteligencija (BI) u osnovi analizira prethodne podatke kako bi pronašla unatrag i uvid za opisivanje poslovnih trendova. Ovdje vam BI omogućuje preuzimanje podataka iz vanjskih i unutarnjih izvora, njihovo pripremanje, pokretanje upita na njima i stvaranje nadzornih ploča za odgovaranje na pitanja poputtromjesečna analiza prihodaili poslovni problemi. BI može procijeniti utjecaj određenih događaja u bliskoj budućnosti.
- Data Science je pristup usmjeren prema budućnosti, istraživački način s naglaskom na analiziranju prošlih ili trenutnih podataka i predviđanju budućih ishoda s ciljem donošenja utemeljenih odluka. Odgovara na otvorena pitanja o tome što se događa i kako se događaju.
Pogledajmo neke kontrastne značajke.
Značajke | Poslovna inteligencija (BI) | Znanost o podacima |
Izvori podataka | Strukturirano (Obično SQL, često skladište podataka) | I strukturirano i nestrukturirano (zapisnici, podaci u oblaku, SQL, NoSQL, tekst) |
Pristup | Statistika i vizualizacija | Statistika, Strojno učenje, Analiza grafikona, Neurolingvističko programiranje (NLP) |
Usredotočenost | Prošlost i sadašnjost | Sadašnjost i budućnost |
Alati | Pentaho, Microsoft BI,QlikView, R | RapidMiner, BigML, Weka, R |
Ovdje se radilo samo o tome što je Data Science, ajmo sada razumjeti životni ciklus Data Science-a.
Česta pogreška u projektima Data Science je žurba u prikupljanju i analizi podataka, bez razumijevanja zahtjeva ili čak ispravnog uokvirivanja poslovnog problema. Stoga je vrlo važno da slijedite sve faze tijekom životnog ciklusa Data Science-a kako biste osigurali nesmetano funkcioniranje projekta.
Životni ciklus znanosti o podacima
Evo kratkog pregleda glavnih faza životnog ciklusa znanosti o podacima:
Faza 1 - Otkriće: Prije nego započnete projekt, važno je razumjeti razne specifikacije, zahtjeve, prioritete i potreban proračun. Morate posjedovati sposobnost postavljanja pravih pitanja.Ovdje procjenjujete imate li potrebne resurse u smislu ljudi, tehnologije, vremena i podataka koji podržavaju projekt.U ovoj fazi također trebate uokviriti poslovni problem i formulirati početne hipoteze (IH) za testiranje.
Faza 2 - Priprema podataka: U ovoj fazi potreban vam je analitički pješčanik u kojem možete izvoditi analitiku za cijelo vrijeme trajanja projekta. Prije modeliranja trebate istražiti, pripremiti i pripremiti podatke. Dalje, izvršit ćete ETLT (izdvajanje, pretvaranje, učitavanje i pretvaranje) za dobivanje podataka u pješčaniku. Pogledajmo dolje tok statističke analize.
R možete koristiti za čišćenje podataka, transformaciju i vizualizaciju podataka. To će vam pomoći da uočite izvanredne vrijednosti i uspostavite odnos između varijabli.Nakon što očistite i pripremite podatke, vrijeme je za istraživanjeanalitikana tome. Da vidimo kako to možete postići.
Faza 3 - planiranje modela: Ovdje ćete odrediti metode i tehnike za crtanje odnosa između varijabli.Ti će odnosi postaviti osnovu algoritmima koje ćete implementirati u sljedećoj fazi.Primijenit ćete Istraživačku analitiku podataka (EDA) pomoću različitih statističkih formula i alata za vizualizaciju.
Pogledajmo razne alate za planiranje modela.
- R ima cjelovit niz mogućnosti modeliranja i pruža dobro okruženje za izgradnju interpretativnih modela.
- Usluge SQL analize može izvoditi analitiku u bazi podataka koristeći uobičajene funkcije rudarenja podataka i osnovne prediktivne modele.
- SAS / PRISTUP može se koristiti za pristup podacima iz Hadoop-a i koristi se za stvaranje ponovljivih i ponovnih dijagrama toka modela.
Iako je na tržištu prisutno mnogo alata, ali R je alat koji se najčešće koristi.
Sad kad ste dobili uvid u prirodu svojih podataka i odlučili ste koji će se algoritmi koristiti. U sljedećoj fazi hoćeteprimijenitialgoritam i izgraditi model.
Faza 4 - Izrada modela: U ovoj fazi razvit ćete skupove podataka u svrhu obuke i testiranja. Evo yMorate razmisliti jesu li vaši postojeći alati dovoljni za pokretanje modela ili će vam trebati robusnije okruženje (poput brze i paralelne obrade). Za izgradnju modela analizirat ćete razne tehnike učenja poput klasifikacije, udruživanja i grupiranja.
kako napraviti snagu u javi -
Izgradnju modela možete postići pomoću sljedećih alata.
Faza 5 - operacionalizacija: U ovoj fazi isporučujete završna izvješća, brifinge, šifre i tehničku dokumentaciju.Osim toga, ponekad se pilot projekt provodi i u proizvodnom okruženju u stvarnom vremenu. To će vam pružiti jasnu sliku performansi i ostalih srodnih ograničenja u malom mjerilu prije potpune implementacije.
Faza 6 - priopćavanje rezultata: Sada je važno procijeniti jeste li uspjeli postići svoj cilj koji ste planirali u prvoj fazi. Dakle, u posljednjoj fazi identificirate sve ključne nalaze, komunicirate s dionicima i utvrđujete jesu li rezultatiprojekta su uspjeh ili neuspjeh na temelju kriterija razvijenih u fazi 1.
Sad ću poduzeti studiju slučaja kako bih vam objasnio razne gore opisane faze.
Studija slučaja: Prevencija dijabetesa
Što ako bismo mogli predvidjeti pojavu dijabetesa i prethodno poduzeti odgovarajuće mjere kako bismo je spriječili?
U ovom ćemo slučaju upotrebe predvidjeti pojavu dijabetesa koristeći cijeli životni ciklus o kojem smo ranije razgovarali. Prođimo kroz razne korake.
Korak 1:
- Prvi,prikupit ćemo podatke na temelju povijesti bolestipacijenta kako je raspravljano u fazi 1. Možete se pozvati na dolje navedene uzorke podataka.
- Kao što vidite, imamo razne atribute kako je spomenuto u nastavku.
Atributi:
- npreg - Broj trudnoća
- glukoza - koncentracija glukoze u plazmi
- bp - krvni tlak
- koža - debljina nabora tricepsa
- bmi - Indeks tjelesne mase
- ped - funkcija rodoslovlja dijabetesa
- dob - Dob
- dohodak - dohodak
Korak 2:
- Sada, nakon što imamo podatke, moramo ih očistiti i pripremiti za analizu podataka.
- Ovi podaci imaju puno nedosljednosti poput nedostajućih vrijednosti, praznih stupaca, naglih vrijednosti i netočnog formata podataka koje treba očistiti.
- Ovdje smo podatke organizirali u jednu tablicu pod različitim atributima - čineći da izgledaju strukturiraniji.
- Pogledajmo dolje uzorke podataka.
Ovi podaci imaju puno nedosljednosti.
- U koloni npreg , 'Jedan' je napisan nariječi,dok bi trebao biti u brojčanom obliku poput 1.
- U koloni bp jedna od vrijednosti je 6600 što je nemoguće (barem za ljude) kao što bp ne može doći do tako velike vrijednosti.
- Kao što vidite Prihod stupac je prazan i također nema smisla predviđati dijabetes. Stoga je suvišno imati ga ovdje i treba ga ukloniti iz tablice.
- Dakle, očistit ćemo i prethodno obraditi ove podatke uklanjanjem odstupanja, popunjavanjem null vrijednosti i normalizacijom tipa podataka. Ako se sjećate, ovo je naša druga faza koja je predobrada podataka.
- Napokon, dobivamo čiste podatke kao što je prikazano u nastavku koji se mogu koristiti za analizu.
Korak 3:
Ajmo sada napraviti neku analizu kako je raspravljano ranije u Fazi 3.
- Prvo ćemo podatke učitati u analitički pješčanik i na njega primijeniti razne statističke funkcije. Na primjer, R ima funkcije poput opisuje što nam daje broj vrijednosti koje nedostaju i jedinstvene vrijednosti. Također možemo koristiti funkciju sažetka koja će nam pružiti statističke podatke poput srednje vrijednosti, medijana, raspona, min i max vrijednosti.
- Zatim koristimo tehnike vizualizacije kao što su histogrami, linijski grafikoni, crteži okvira kako bismo dobili poštenu ideju o raspodjeli podataka.
Korak 4:
Na temelju uvida iz prethodnog koraka, stablo odluke najbolje odgovara za ovu vrstu problema. Da vidimo kako?
- Budući da već imamo glavne atribute za analizu poput npreg, bmi itd., pa ćemo koristitinadzirana tehnika učenja za izgradnju amodel ovdje.
- Nadalje, posebno smo koristili stablo odluke jer uzima u obzir sve atribute u jednom potezu, poput onih koji imaju alinearni odnos kao i oni koji imaju nelinearni odnos. U našem slučaju imamo linearni odnos između npreg i dob, dok je nelinearni odnos između npreg i ped .
- Modeli stabla odlučivanja također su vrlo robusni jer možemo koristiti različitu kombinaciju atributa za izradu različitih stabala, a zatim konačno implementirati ono s maksimalnom učinkovitošću.
Pogledajmo naše stablo odluke.
Ovdje je najvažniji parametar razina glukoze, pa je to naš korijenski čvor. Sada, trenutni čvor i njegova vrijednost određuju sljedeći važan parametar koji treba uzeti. To traje sve dok ne dobijemo rezultat u smislu poz ili neg . Poz znači da je tendencija oboljevanja od dijabetesa pozitivna, a neg znači da je sklonost oboljevanju od dijabetesa negativna.
Ako želite saznati više o provedbi stabla odluka, pogledajte ovaj blog
Korak 5:
U ovoj ćemo fazi pokrenuti mali pilot projekt kako bismo provjerili jesu li naši rezultati prikladni. Također ćemo potražiti ograničenja performansi ako postoje. Ako rezultati nisu točni, trebamo ponovno planirati i obnoviti model.
Korak 6:
Nakon što uspješno izvedemo projekt, podijelit ćemo izlazne podatke za potpunu implementaciju.
Biti znanstvenikom podataka lakše je reći nego učiniti. Pa, da vidimo što sve trebate da biste bili znanstvenik podataka.Data Scientist u osnovi zahtijeva vještineiz tri glavna područja kako je prikazano u nastavku.
Kao što vidite na gornjoj slici, morate steći razne tvrde i meke vještine. Morate biti dobri u statistika i matematika za analizu i vizualizaciju podataka. Nepotrebno je reći, Strojno učenje čini srce Data Sciencea i zahtijeva od vas da budete dobri u tome. Također, morate dobro razumjeti domena radite na tome da jasno razumijete poslovne probleme. Vaš zadatak ovdje ne završava. Trebali biste biti sposobni implementirati razne algoritme koji zahtijevaju dobro kodiranje vještine. Konačno, nakon što donesete određene ključne odluke, važno je da ih dostavite dionicima. Tako dobro komunikacija definitivno će dodati bodove za brownie vašim vještinama.
Pozivam vas da pogledate ovaj video vodič za Data Science koji objašnjava što je Data Science i sve o čemu smo razgovarali na blogu. Samo naprijed, uživajte u videu i recite mi što mislite.
Što je znanost o podacima? Tečaj znanosti o podacima - Vodič za znanost o podacima za početnike | Edureka
Ovaj video za tečaj Edureka Data Science vodit će vas kroz potrebe znanosti o podacima, što je znanost podataka, slučajevi korištenja znanosti za poslovanje, BI vs znanost podataka, alati za analitiku podataka, životni ciklus znanosti o znanosti, zajedno s demonstracijom.
Na kraju, neće biti pogrešno reći da budućnost pripada Data Scientistima. Predviđa se da će do kraja 2018. godine biti potrebno oko milijun znanstvenika podataka. Sve više podataka pružit će mogućnosti za donošenje ključnih poslovnih odluka. Uskoro će promijeniti način na koji gledamo na svijet prepun podataka oko sebe. Stoga bi Data Scientist trebao biti visoko vješt i motiviran za rješavanje najsloženijih problema.
kako stvoriti datoteke dnevnika u javi -
Nadam se da ste uživali čitajući moj blog i razumjeli što je Data Science.Pogledajte naš ovdje to dolazi s treningom uživo pod vodstvom instruktora i iskustvom u stvarnom životu.