Apache iskra s Hadoopom - zašto je to važno?



Primjena Apache Spark-a s Hadoop-om u velikim razmjerima od strane vodećih tvrtki ukazuje na njegov uspjeh i njegov potencijal kada je riječ o obradi u stvarnom vremenu.

Hadoop, okvir za obradu podataka koji je postao platforma za sebe, postaje još bolji kada su na njega povezane dobre komponente. Neki nedostaci Hadoopa, poput komponente MapReduce Hadoopa, slove kao spori u analizi podataka u stvarnom vremenu.





Uđite u Apache Spark, Hadoop-ov mehanizam za obradu podataka dizajniran za batch i streaming radna opterećenja, sada u svojoj verziji 1.0 i opremljen značajkama koje ilustriraju koje vrste poslova Hadoop treba uključiti. Spark radi na vrhu postojećih Hadoop klastera kako bi pružio poboljšanu i dodatnu funkcionalnost.

Pogledajmo ključne značajke iskre i kako to funkcionira zajedno s Hadoopom i .



Ključne prednosti Apache Spark:

img2-R

Spark’s Awesome Features:

  • Hadoop integracija - Spark može raditi s datotekama pohranjenim u HDFS-u.
  • Sparkova interaktivna školjka - Spark je napisan na Scali i ima svoju verziju tumača Scala.
  • Spark’s Analytic Suite - Spark dolazi s alatima za interaktivnu analizu upita, veliku obradu i analizu grafova te analizu u stvarnom vremenu.
  • Otporni distribuirani skupovi podataka (RDD-ovi) - RDD-ovi su distribuirani objekti koji se mogu predmemorirati u memoriji, preko klastera računalnih čvorova. Oni su primarni podatkovni objekti koji se koriste u Sparku.
  • Distribuirani operateri - Osim MapReduce, postoji još mnogo operatora koje se mogu koristiti na RDD-ima.

Prednosti upotrebe Apache Spark s Hadoop-om:

kako postupati sa skočnim prozorom u selenu webdriveru -
  • Apache Spark uklapa se u zajednicu otvorenog koda Hadoop, zgrada na vrhu sustava distribuiranih datoteka Hadoop (HDFS). Međutim, Spark nije vezan uz dvostupanjsku paradigmu MapReduce i za određene programe obećava izvedbu do 100 puta bržu od Hadoop MapReducea.



  • Pogodno za algoritme strojnog učenja - Spark pruža primitive za računanje klastera u memoriji koji omogućuje korisničkim programima učitavanje podataka u memoriju klastera i višestruko postavljanje upita.

  • Trčite 100 puta brže - Spark, softver za analizu također može ubrzati poslove koji se izvode na platformi za obradu podataka Hadoop. Nazvan 'švicarskim nožem Hadoop', Apache Spark pruža mogućnost stvaranja poslova analize podataka koji mogu raditi 100 puta brže od onih koji rade na standardnom Apache Hadoop MapReduceu. MapReduce je često kritiziran kao usko grlo u Hadoop klasterima jer izvršava poslove u batch načinu, što znači da analiza podataka u stvarnom vremenu nije moguća.

  • Alternativa MapReduceu - Spark pruža alternativu MapReduceu. Izvršava poslove u kratkim nizovima mikro-šarža u razmaku od pet sekundi ili manje. Također pruža veću stabilnost od Hadoop okvira orijentiranih u stvarnom vremenu, kao što je Twitter Storm. Softver se može koristiti za razne poslove, poput stalne analize živih podataka, a zahvaljujući softverskoj biblioteci, više računski detaljnih poslova koji uključuju strojno učenje i obradu grafova.

  • Podrška za više jezika - Koristeći Spark, programeri mogu pisati poslove analize podataka na Javi, Scali ili Pythonu, koristeći skup od više od 80 operatora visoke razine.

  • Bibliotečka podrška - Sparkove knjižnice osmišljene su da nadopunjuju vrste obrađivačkih poslova koji se agresivnije istražuju najnovijim komercijalno podržanim implementacijama Hadoopa. MLlib provodi mnoštvo uobičajenih algoritama strojnog učenja, kao što su naivna Bayesova klasifikacija ili klasterizacija. Spark Streaming omogućuje brzu obradu podataka unesenih iz više izvora, a GraphX ​​omogućuje izračunavanje podataka s grafova.

  • Stabilni API - S verzijom 1.0, Apache Spark nudi stabilan API (sučelje za programiranje aplikacija), koji programeri mogu koristiti za interakciju sa Sparkom putem vlastitih aplikacija. To pomaže u lakšem korištenju Storma u implementaciji temeljenoj na Hadoop-u.

  • SPARK SQL komponenta - Spark SQL komponenta za pristup strukturiranim podacima, omogućuje ispitivanje podataka zajedno s nestrukturiranim podacima u radu na analizi. Spark SQL, koji je trenutno samo u alfa verziji, omogućuje pokretanje upita sličnih SQL-u protiv podataka pohranjenih u Apache Hive. Izdvajanje podataka iz Hadoopa putem SQL upita još je jedna varijanta funkcionalnosti upita u stvarnom vremenu koja se pojavljuje oko Hadoopa.

  • Kompatibilnost Apache Spark s Hadoop [HDFS, HBASE i YARN] - Apache Spark u potpunosti je kompatibilan s distribuiranim datotečnim sustavom Hadoop (HDFS), kao i s ostalim komponentama Hadoop-a poput YARN (Još jedan pregovarač o resursima) i HBase distribuirane baze podataka.

    zašto biste trebali učiti python

Posvojitelji u industriji:

IT tvrtke poput Cloudera, Pivotal, IBM, Intel i MapR sve su složile Spark u svoje Hadoop hrpe. Databricks, tvrtka koju su osnovali neki od programera Sparka, nudi komercijalnu podršku za softver. Yahoo i NASA, među ostalim, koriste softver za svakodnevne podatkovne operacije.

Zaključak:

Ono što Spark nudi zasigurno će biti veliko privlačenje i za korisnike i za komercijalne dobavljače Hadoopa. Korisnike koji žele implementirati Hadoop i koji su već izgradili mnoge svoje analitičke sustave oko Hadoopa privlači ideja da Hadoop mogu koristiti kao sustav za obradu u stvarnom vremenu.

Spark 1.0 pruža im drugu raznolikost funkcionalnosti za podršku ili izgradnju vlasničkih predmeta. Zapravo, jedan od tri velika dobavljača Hadoopa, Cloudera, već pruža komercijalnu podršku Sparku putem svoje ponude Cloudera Enterprise. Hortonworks također nudi Spark kao dio distribucije Hadoop-a. Primjena Sparka u velikim razmjerima od strane vodećih tvrtki ukazuje na njegov uspjeh i potencijal kada je riječ o obradi u stvarnom vremenu.

Imate pitanje za nas? Spomenite ih u odjeljku za komentare i javit ćemo vam se.

Vezane objave:

<> operator u sql