Važnost znanosti o podacima s Cassandrom



Cassandra je baza podataka otvorenog koda za obradu velike količine podataka na mnogim poslužiteljima, pa je potražnja znanstvenika podataka s poznavanjem cassandre velika.

'

Brzo širenje digitalnih podataka putem računala, mobitela, videa, društvenih medija, digitalnih senzora itd., Kombinirano s velikim otkrićima u nižoj obradivoj moći, aplikacijama baza podataka otvorenog koda i širem pojasu izazvalo je veliko zanimanje u cijelom poslovnom svijetu u svijetu. novo područje znanosti o velikim podacima i analitika.





Veliki podaci u velikim nestrukturiranim količinama preveliki su da bi se njima moglo upravljati i analizirati ih tradicionalnim metodama. Sama količina i brzina današnjih podataka pravi hvatanje, filtriranje, spremanje i analizu stvarnih izazova. Redovito se razvijaju novi proizvodi koji zahtijevaju nove skupove vještina i stručnost. Sve je veća potreba za pojedincima koji mogu integrirati novu infrastrukturu, platforme i procese u organizaciju, kao i onima koji mogu izgraditi novu analitiku i algoritme sposobne za stvaranje ogromne inteligencije od velike poslovne vrijednosti. Za više informacija pročitajte naš post na blogu na

Relevantnost znanosti o podacima u različitim industrijama:

Data Science & Analytics ima primjenu u svim djelatnostima:



  • e-trgovina - Motori za personalizaciju i preporuke koji povećavaju prodaju.
  • Oglašavanje - Visoko ciljana isporuka oglasa u stvarnom vremenu potrošačima.
  • Mediji i zabava - Prilagođeni razvoj sadržaja koji maksimizira angažman korisnika.
  • Društveni mediji - Povećana 'ljepljivost' web mjesta, rast korisnika, sposobnost praćenja brzih trendova na temelju osjećaja potrošača.
  • Financijske usluge –Optimizirana praksa pozajmljivanja koja minimizira rizik i prijevaru.
  • Farmacija / Bioinformatika - Poboljšano otkrivanje lijekova, učinkovitiji tretmani prijetećih bolesti, poboljšanja genetskog inženjeringa.
  • Zdravstvo - Bolje bodovanje medicinskih pacijenata za zdravstvene rizike, kao i predviđanje i rano sprečavanje bolesti.
  • Snaga / energija - Inteligentna mrežna inteligencija, učinkovitost korištenja, ušteda energije i smanjenje zastoja.
  • Sigurnost informacija - Izrazito poboljšano otkrivanje krađe i praćenje vrijednih podataka i imovine tvrtke.

Ključne vještine stručnjaka za podatkovne znanosti:

Domena znanosti podataka zahtijeva profesionalce koji:

  • Razumije analitiku podataka i znanost odlučivanja
  • Dobro su upućeni u IT
  • Imajte jaku poslovnu oštroumnost
  • Posjedovati sposobnost učinkovite komunikacije s donositeljima odluka

Čitaj više: Osnovne vještine potrebne da biste bili znanstvenik podataka.

Uobičajene tehnologije povezane s praksom znanosti o podacima:

Tehnologije povezane s naukom o podacima



  • Baze podataka

Oracle, SQL Server, Teradata

Cassandra, Hadoop, MapReduce, HBase

životni ciklus aktivnosti androida

Aster, Greenplum, Netezza

  • Jezici

Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala

Košnica, Svinja, Lucen, Mahout, Solr

pretvoriti datum niza u datum u Java
  • Statistika i predviđanje

Angoss, MATLAB, R, SAS, SPSS

LUK, GARCH, SVAR, VAR, VEC, GAUSS

  • Vizualizacija podataka

QlikView, Spotfire, Tableau, yWorks, R

  • BI i izvještavanje

BusinessObjects, Cognos, MicroStrategy

Što je Cassandra?

  • Apache Cassandra je sustav za upravljanje distribuiranim bazama podataka otvorenog koda dizajniran za rukovanje velikim količinama podataka na mnogim robnim poslužiteljima.
  • Cassandra pruža visoku dostupnost bez ijedne točke kvara.
  • Cassandra nudi robusnu podršku za klastere koji obuhvaćaju više podatkovnih centara, s asinkronom replikacijom bez master-a, omogućavajući operacije s malim kašnjenjem za sve klijente.

Za više informacija pročitajte naš post na blogu na .

Kako Data Science koristi Cassandru?

Cassandra je sramežljiva i sramežljiva distribuirana baza podataka s malim kašnjenjem i velikim protokom usluga koja obrađuje radna opterećenja u stvarnom vremenu koja se sastoji od stotina ažuriranja u sekundi i desetaka tisuća čitanja u sekundi.

Cassandra Slučaj upotrebe - PROFISI:

PROS je softverska tvrtka za velike podatke koja u svom softveru propisuje analitiku koja omogućava njihovim kupcima da analiziraju svoje podatke i steknu uvid i upute za optimizaciju upravljanja cijenama, prodajom i prihodom.

Imaju uslugu u stvarnom vremenu koja izračunava dostupnost zrakoplovnih kompanija, dinamički uzimajući u obzir podatke o kontroli prihoda i razinu zaliha koje se mogu mijenjati stotine puta u sekundi.

Ova se usluga traži nekoliko tisuća puta u sekundi, što znači desetke tisuća pretraživanja podataka. Njihov pozadinski sloj za pohranu ove usluge je Cassandra.

Za svoje rješenje u stvarnom vremenu, PROS je uvidio potrebu za:

objasniti mvc arhitekturu u javi na primjeru
  • Distribuirana predmemorija koja je visoko dostupna.
  • Lako skalabilan.
  • S arhitekturom bez majstora.
  • Uz replikaciju podataka u gotovo stvarnom vremenu, čak i kroz podatkovne centre.
  • To može podnijeti čitanje i pisanje u stvarnom vremenu.

PROS je Cassandru procijenio na osnovu Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort i Redis. Apache Cassandra prilično se lako našao na vrhu liste.

PROS i Cassandra

  • PROS koristi Cassandru kao distribuiranu bazu podataka za usluge niske latencije i velike propusnosti koje obrađuju radna opterećenja u stvarnom vremenu koja se sastoje od stotina ažuriranja u sekundi i desetaka tisuća čitanja u sekundi.
  • Na primjer, imaju uslugu u stvarnom vremenu koja dinamički izračunava dostupnost zrakoplovnih kompanija uzimajući u obzir podatke o kontroli prihoda i razine zaliha koje se mogu mijenjati stotine puta u sekundi. Ova se usluga traži nekoliko tisuća puta u sekundi, što znači desetke tisuća pretraživanja podataka. Njihov pozadinski sloj za pohranu ove usluge je Cassandra. Neke od njihovih SaaS ponuda koriste Cassandru kao pozadinsku trgovinu za obradu kombinacije batch opterećenja u stvarnom vremenu i Hadoop-u.
  • Govoreći o Hadoopu i Cassandri, oni vade podatke iz Cassandre i stavljaju ih u Hadoop i pokreću skupne i analitičke podatke o tome, a zatim se to vraća u Cassandru. To se postiže Cassandrinom integracijom Hadoop.
  • Poslovi Hadoopa izvlače podatke iz Cassandre, primjenjuju transformacije ili analize specifične za posao i guraju podatke natrag u Cassandru. Za ovu integraciju ne koriste Datastax (službeno izdanje Cassandra Maintainer) Enterprise, samo instalaciju Hadoop otvorenog koda s Cassandrom.

Modeliranje podataka s Cassandrom:

Kad se želi zamijeniti spremište ključne vrijednosti s nečim sposobnijim za replikaciju i distribuciju podataka u stvarnom vremenu, istraživanje o Dinamu, CAP teoremu i eventualnom modelu dosljednosti pokazuje da Cassandra prilično dobro odgovara ovom modelu. Kako se više saznaje o mogućnostima modeliranja podataka, postupno se krećemo prema raščlanjivanju podataka.

Ako netko dolazi iz pozadine relacijske baze podataka sa snažnom ACID semantikom, onda treba uzeti vremena da shvatimo konačni model dosljednosti.

Shvatite Cassandrinu arhitekturu vrlo dobro i ono što ona radi ispod haube. S Cassandrom 2.0 dobivate lagane transakcije i okidače, ali oni nisu isti kao tradicionalne transakcije baze podataka s kojima se možda može znati. Na primjer, nema dostupnih ograničenja stranog ključa - njime mora upravljati vlastita aplikacija. Jasno razumijevanje slučajeva korištenja i obrazaca pristupa podacima prije modeliranja podataka s Cassandrom i čitanje sve dostupne dokumentacije je neophodno.

Zaključak:

Apache Cassandra brzo se razvija i mi učimo i razumijemo njegove mogućnosti - posebno na strani modeliranja podataka. Mi je doživljavamo kao distribuiranu NoSQL bazu podataka koju odabiremo za naše usluge i rješenja za velike podatke.

Edureka pruža sveobuhvatan za one koji žele postati znanstvenik podataka. Tečaj obuhvaća niz tehnika Hadoop, R i Tehnike strojnog učenja koji obuhvaćaju cjelokupnu studiju Data Science. Edureka također pruža koji vam pomaže u svladavanju NoSQL baza podataka. Ovaj je tečaj osmišljen kako bi pružio znanje i vještine kako biste postali uspješni stručnjak za Cassandru.