Bušenje na Apache bušilici, New Age Query Engineu

Ovaj vodič za Apache Drill daje vam sve informacije potrebne za početak rada s Apache Drill mehanizmom za upite, upotrebu s Hadoop-om, Big Data & Apache Sparkom.

Apache Drill prvi je u industriji SQL Engine bez shema. Drill nije prvi mehanizam za upite na svijetu, ali je prvi koji postiže finu ravnotežu između fleksibilnosti i brzine. Drill je dizajniran za skaliranje do nekoliko tisuća čvorova i upit petabajta podataka interaktivnim brzinama koje zahtijevaju okruženja BI / Analytics.





Može se integrirati s nekoliko izvora podataka kao što su Hive, HBase, MongoDB, datotečni sustav, RDBMS. Također, ulazni formati poput Avro, CSV, TSV, PSV, Parket, datoteke Hadoop Sequence i mnogi drugi mogu se s lakoćom koristiti u programu Drill.

Zašto Apache bušilica?

Najveća prednost Apache Drill-a je što shemu može otkriti u hodu dok postavljate upite za bilo koje podatke. Štoviše, može raditi s vašim BI alatima kao što su Tableau, Qlikview, MicroStrategy itd. Za bolju analitiku.



Evo citata industrijskog analitičara koji sažima vrijednost Apache Drill:

„Drill nije samo SQL-on-Hadoop. Riječ je o SQL-u-na-gotovo-bilo-čemu, odmah i bez formalnosti. '

- Andrew Burst, Gigaom Research, siječanj 2015



Drillbit je demon Apache Drill-a koji se pokreće na svakom čvoru u klasteru. Koristi ZooKeeper za svu komunikaciju u klasteru i glavno članstvo u klasteru. Odgovorna je za prihvaćanje zahtjeva klijenta, obradu upita i vraćanje rezultata klijentu. Bušilica koja primi zahtjev od klijenta naziva se 'predradnik'. Generira plan izvršenja, fragmenti izvršenja šalju se drugim svrdlima koja rade u klasteru.

Drillbits-Apache-Drill

Još je jedna prednost što je instalacija i postavljanje svrdla prilično jednostavna. Naučimo kako instalirati Apache Drill.

Prvi korak je preuzimanje paketa bušilica.

što je rmi u javi

Naredba: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Naredba: katran -xvf apache-drill-1.5.0.tar.gz

Naredba: ls

Zatim postavite varijable okruženja u datoteku .bashrc.

Naredba: sudo gedit .bashrc

izvoz DRILL_HOME = / home / edureka / apache-drill-1.5.0

izvoz PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Ova naredba će ažurirati promjene:

Naredba: izvor .bashrc

Sada idite na drill conf direktorij i uredite datoteku drill-override.conf s ID-om klastera i zookeeper host & portom, mi ćemo ga pokrenuti na lokalnom klasteru.

Naredba: cd apache-drill-1.5.0

Naredba: sudo gedit conf / drill-override.conf

Prema zadanim postavkama, DRILL_MAX_DIRECT_MEMORY bit će 8 GB u drill-env.sh, a mi ga moramo čuvati u skladu s memorijom koju imamo.

Naredba: sudo gedit conf / drill-env.sh

Da biste bušilicu instalirali samo u jedan čvor, možete koristiti ugrađeni način rada, gdje će se izvoditi lokalno. Automatski će pokrenuti uslugu drillbit kada pokrenete ovu naredbu.

Naredba: ./bin/drill-embedded

Možete pokrenuti jednostavan upit za provjeru instalacije.

Naredba: odaberite * iz sys.options WHERE upišite = 'SUSTAV' i naziv poput 'sigurnost%'

Da bismo provjerili web konzolu Apache Drill, moramo otići na localhost: 8047 u web pregledniku.

Upit možete pokrenuti i s kartice Upit.

Da biste pokrenuli bušenje u distribuiranom načinu, morate urediti ID klastera i dodati ZooKeeper informacije u drill-override.conf kao što je prikazano u nastavku.

Zatim moramo pokrenuti uslugu ZooKeeper na svakom čvoru. Nakon toga ovom naredbom morate pokrenuti uslugu drillbit na svakom čvoru.

Naredba: ./bin/drillbit.sh početak

Naredba: jps

Sada koristimo naredbu ispod za pokretanje ljuske bušenja.

Sada možemo izvršavati svoje upite na klasteru u distribuiranom načinu.

Ovo je prvi post na blogu iz dvodijelne serije blogova Apache Drill. Uskoro dolazi i drugi blog iz serije.

Imate pitanje za nas? Spomenite ih u odjeljku za komentare i javit ćemo vam se.

Vezane objave:

Bušenje na bušilici Apache, 2. dio

ssis udžbenik korak po korak

Apache Spark vs Hadoop MapReduce