När vi går för partitionering och hinkar i kupan?

Innehållsförteckning:

När vi går för partitionering och hinkar i kupan?
När vi går för partitionering och hinkar i kupan?

Video: När vi går för partitionering och hinkar i kupan?

Video: När vi går för partitionering och hinkar i kupan?
Video: Industriella revolutionen förklarad | HISTORIA | Gymnasienivå 2024, Mars
Anonim

Hive-partitionering och bucketering är att när vi partitionerar skapar vi en partition för varje unikt värde i kolumnen Men det kan finnas situationer där vi behöver skapa mycket små partitioner. Men om du använder bucketing kan du begränsa det till ett antal som du väljer och dekomponera dina data i dessa buckets.

När vi använder partitionering och bucketing i Hive?

Partitionering hjälper till att eliminera data, om den används i WHERE-satsen, medan bucketing hjälper till att organisera data i varje partition i flera filer, så att samma uppsättning data alltid är skrivet i samma hink. Hjälper mycket att slå samman kolumner.

När ska jag använda bucketing Hive?

Bucketing i hive är användbart vid hantering av stora datamängder som kan behöva segregeras i kluster för effektivare hantering och för att kunna utföra kopplingsfrågor med andra stora datamängder. Det primära användningsfallet är att sammanfoga två stora datamängder som involverar resursbegränsningar som minnesbegränsningar.

Kan vi göra partitionering och bucketing på samma kolumn?

För att avsluta, du kan partitionera och använda bucketing för att lagra resultat av samma CTAS-fråga Dessa tekniker för att skriva data utesluter inte varandra. Vanligtvis skiljer sig kolumnerna du använder för bucketing från de du använder för partitionering. … Du kan lagra dess data i mer än en hink i Amazon S3.

Kan vi använda bucketing utan att partitionera i Hive?

Bucketing kan också göras även utan partitionering på Hive-bord. Hinkade tabeller tillåter mycket effektivare provtagning än de icke-hinkförsedda tabellerna. Tillåter förfrågningar på en datasektion för test- och felsökningsändamål när de ursprungliga datamängderna är mycket stora.

Rekommenderad: