4 načina zajedničke upotrebe R i Hadoop-a



R i Hadoop se prilično dobro nadopunjuju u pogledu vizualizacije i analitike velikih podataka. Ovaj post na blogu govori o 4 načina zajedničkog korištenja.

Hadoop je ometajući programski okvir zasnovan na Javi koji podržava obradu velikih skupova podataka u distribuiranom računalnom okruženju, dok je R programski jezik i softversko okruženje za statističko računanje i grafiku. Jezik R široko se koristi među statističarima i rudarima podataka za razvoj statističkog softvera i obavljanje analize podataka. U područjima interaktivne analize podataka, statistike opće namjene i prediktivnog modeliranja, R je stekao veliku popularnost zahvaljujući svojoj klasifikaciji, grupiranju i rangiranju.

KM





Hadoop i R se prilično dobro nadopunjuju u pogledu vizualizacije i analitike velikih podataka.

Korištenje R i Hadoop

Postoje četiri različita načina zajedničkog korištenja Hadoopa i R:



1. RHadoop

RHadoop je kolekcija od tri R paketa: rmr, rhdfs i rhbase. rmr paket pruža funkcionalnost Hadoop MapReduce u R, rhdfs pruža upravljanje HDFS datotekama u R, a rhbase omogućuje upravljanje bazom podataka HBase iz R. Svaki od ovih primarnih paketa može se koristiti za bolju analizu i upravljanje podacima Hadoop okvira.

2. ORK



ORCH je kratica za Oracle R Connector za Hadoop. To je zbirka R paketa koji pružaju relevantna sučelja za rad s tablicama Hive, računalnom infrastrukturom Apache Hadoop, lokalnim R okruženjem i tablicama Oracle baze podataka. Pored toga, ORCH također nudi prediktivne analitičke tehnike koje se mogu primijeniti na podatke u HDFS datotekama.

3. RIPE

java system.exit (1)

RHIPE je R paket koji pruža API za upotrebu Hadoopa. RHIPE je kratica za R i Hadoop integrirano programsko okruženje, a u osnovi je RHadoop s različitim API-jem.

Četiri. Hadoop streaming

Hadoop Streaming je uslužni program koji korisnicima omogućuje stvaranje i pokretanje poslova s ​​bilo kojim izvršnim datotekama kao što su mapper i / ili reduktor. Korištenjem streaming sustava može se razviti radni Hadoop posao s tek toliko znanja Java da se napišu dvije ljuske skripte koje rade u tandemu.

Kombinacija R i Hadoop pojavljuje se kao neophodan alat za ljude koji rade sa statistikama i velikim skupovima podataka. Međutim, određeni entuzijasti Hadoopa podigli su crvenu zastavu dok su se bavili izuzetno velikim fragmentima velikih podataka. Tvrde da prednost R nije njegova sintaksa već iscrpna biblioteka primitiva za vizualizaciju i statistiku. Te se knjižnice u osnovi ne distribuiraju, što čini pronalaženje podataka dugotrajnim poslom. Ovo je inherentna mana R-a, a ako ga odlučite previdjeti, R i Hadoop u tandemu i dalje mogu činiti čuda.

Pogledajmo sada demonstraciju:

mongodb stvoriti korisnika za bazu podataka

Imate pitanje za nas? Molimo navedite ih u odjeljku za komentare i javit ćemo vam se.

Vezane objave: