pronaći najveći broj u javi
Hive je sustav skladišta podataka za Hadoop koji omogućuje jednostavno sažimanje podataka, ad-hoc upite i analizu velikih skupova podataka pohranjenih u sustavima datoteka kompatibilnih s Hadoop-om. Hive strukturira podatke u dobro razumljive koncepte baze podataka kao što su tablice, retci, stupci i particije. Podržava primitivne tipove kao što su Integers, Floats, Doubles i Strings. Hive također podržava pridružene nizove, popise, strukture, a API za seriranje i deserijaliziranje koristi se za premještanje podataka u tablice i iz njih.
Pogledajmo detalje Hive Data Modele
Modeli podataka o košnici:
Modeli podataka o košnici sadrže sljedeće komponente:
- Baze podataka
- Stolovi
- Pregrade
- Kante ili klasteri
Pregrade:
Particija znači dijeljenje tablice na grubo zrnaste dijelove na temelju vrijednosti particijskog stupca kao što je 'podaci'. To ubrzava upite o kriškama podataka
Dakle, koja je funkcija particije? Particijske tipke određuju način pohrane podataka. Ovdje svaka jedinstvena vrijednost particijskog ključa definira particiju tablice. Pregrade su zbog pogodnosti nazvane prema datumima. Slično je ‘Block Splitting’ u HDFS-u.
Kante:
Segmenti daju dodatnu strukturu podacima koji se mogu koristiti za učinkovite upite. Spoj dviju tablica koje se skupljaju na istim stupcima, uključujući stupac pridruživanja, može se implementirati kao Pridruživanje na mapi. Grupiranje pomoću upotrijebljenog ID-a znači da možemo brzo procijeniti korisnički zasnovan upit izvršavajući ga na slučajnom uzorku ukupnog skupa korisnika.
kako koristiti atom za python
Imate pitanje za nas? Molimo navedite ih u odjeljku za komentare i javit ćemo vam se.
Vezane objave:
hash karta vs hash tablica