HiveSql（1）mapjoin、分割槽表

阿新 • • 發佈：2019-02-08

mapjoin、分割槽表、不等值匹配

業務需求：

A表，小表，窮舉的100個動漫電影的IP，表結構ip（id string, key string）

B表，大表，每天的交易資料，上億條，表結構order（ds string, item_titlestring,buyer_id string, fee string）

現在想要得到這100個動漫電影相關產品的每天的銷售額、購買人數。

SQL：

1、建表

create table if not exists jieguo

(

ds string,

fee string ,

cnt string

)

partitioned by (pt string )

2、跑資料

Insert overwrite table jieguo partition (pt=201503)

Select /*+MAPJOIN(a)*/

b.ds,sum(b.fee),count(b.buyer_id)

from ip b

Join

(Select ds, fee,buyer_id

From order

Where ds>=20150101 and ds<=20150331

On instr(b.item_title,a.key)>0

Group by b.ds

學習要點：

1、/*+MAPJOIN*/的用法

如果關聯的2張表大小差距懸殊或者進行不等值連線時，一般的join會導致執行速度很慢，使用mapjoin可以有效提高效率

使用場景：

（1）關聯操作中的一張表非常小

（2）不等值連線

Select /*+MAPJOIN(a)*/，括號里加的是小表的名稱

2、分割槽表

如果輸出的資料比較多，可以採取分割槽的形式

建表時加一條語句partitioned by

跑資料時Insert overwrite table jieguo partition (pt=201503)

HiveSql（1）mapjoin、分割槽表

mapjoin、分割槽表、不等值匹配業務需求： A表，小表，窮舉的100個動漫電影的IP，表結構ip（id string, key string） B表，大表，每天的交易資料，上億條，表結構or

《機器學習-西瓜書》-周志華-學習筆記系列（1）--序言、前言和主要符號表

寫在前面的話：自己於今天（2018年9月4日）看完了機器學習-西瓜書-周志華-清華大學出版社書籍，對於這本書的評價就是：好書，自己可以在每一個字裡行間感受到作者的用心，每當看到一個不懂的名詞的時候，作者都會用通俗的例子來講解，遇到公式的時候，也會進行推導，側邊欄的一些說明資訊往往能帶給自己

Tomcat（1）介紹、jdk安裝、安裝Tomcat ? 配置Tomcat監聽80端口

tomcat Tomcat介紹（使用yum 下載安裝的openjdk下載以後就可以使用）以下實驗用的是在官網下載程序包。Tomcat是一個中間鍵，要解析java相關的東西，需要先下載JDK下載jdk1.下載網站： http://www.oracle.com/technetwork/jav

大資料基礎之Quartz（1）簡介、原始碼解析

一簡介官網 http://www.quartz-scheduler.org/ What is the Quartz Job Scheduling Library? Quartz is a richly featured, open source job scheduling libra

大資料基礎之Kafka（1）簡介、安裝及使用

http://kafka.apache.org 一簡介 Kafka® is used for building real-time data pipelines and streaming apps. It is horizontally scalable,&nb

Hibernate（1）——簡單、快速上手

目錄 1. Hibernate-orm 2. 快速上手 2.1 步驟 2.2 建立資料庫表t_user 2.3 建立java物件User.java 2.4 新增jar 2.5 建立hibernate核心配置檔案hibernate.cfg.xml 2.6&n

MapReduce框架學習（1）——輸入、輸出格式

參考： JeffreyZhou的部落格園《Hadoop權威指南》第四版在前面的學習中，完成了幾件事：搭建並測試Hadoop完全分散式環境；在master節點上配置Hadoop的E

MySql語句大全（1）增、查、刪、改

#查資料 select * from test; #取所有資料 select * from test limit 0,2; #取前兩條資料 select * from test email like '%qq%' #查含有qq字元 _表示一個 %表示多個 select

Spring Boot（一）：概述（1）——起源、歷史、背景等

版權宣告：本文為博主原創文章，未經博主允許不得轉載。 https://blog.csdn.net/lsxf_xin/article/details/79448037 概述： Spring Boot為開發者帶來了更好的開發體驗，但寫完程式碼只是萬里長征路上的

Android基礎（1）--textview、button、onclick

1.作用 2.屬性 3. 5554. 4 4 5.

elasticsearch 口水篇（1）安裝、外掛

一）安裝elasticsearch 1）下載elasticsearch-0.90.10，解壓，執行\bin\elasticsearch.bat （windwos）安裝成功！二）外掛——head elasticsearch-head是一個elastics

Java學習入門--（1）JDK、JRE、JVM三者間的關係

學習JAVA前必須瞭解Java跨平臺特性，Java 為什麼能跨平臺，實現一次編寫，多處執行？Java 能夠跨平臺執行的核心在於 JVM（Java虛擬機器）。不是 Java 能夠跨平臺，而是它的 jvm 能夠跨平臺執行。我們知道，不同的作業系統向上的 API 肯定是不同的，那麼如果我們想要寫一段程式碼呼

Java學習入門--（1）JDK、JRE、JVM三者間的關系

java跨平臺 -- kit windows 能夠 machine 類庫 javac -o 學習JAVA前必須了解Java跨平臺特性，Java 為什麽能跨平臺，實現一次編寫，多處運行？Java 能夠跨平臺運行的核心在於 JVM（Java虛擬機）。不是 Java 能夠跨平臺

【原創】運維基礎之Ansible（1）簡介、安裝和使用

ets 安裝 yum ant gem get 結構 ges describe 官方：https://www.ansible.com/ 一簡介 Ansible is a radically simple IT automation engine that automate

【原創】運維基礎之Nginx（1）簡介、安裝、使用

官方：http://nginx.org nginx [engine x] is an HTTP and reverse proxy server, a mail proxy server, and a generic TCP/UDP proxy server, originally written by

Android 安全機制（1）uid 、 gid 與 pid

1、概述 Android 安全機制來源於Linux，並且以Linux許可權管理為基礎，要了解Android的安全機制，需要從linux中的安全機制瞭解開始，而使用者的許可權管理又是linux安全機制的最基本的一個組成. Android的創新之處是在linux使

Libevent（1）— 簡介、編譯、配置

此文編寫的時候，使用到的 Libevent 為 2.0.21 Libevent 之跨平臺在處理大量 SOCKET 連線時，使用 select 並不高效。各個系統都提供了處理大量 SOCKET 連線時的解決方案： Linux 下的 epoll()BSD 下的 kque

【原創】大數據基礎之Kudu（1）簡介、安裝

變化決策 leader 通用修改 amp use case 容錯性 stream kudu 1.7 官方：https://kudu.apache.org/ 一簡介 kudu有很多概念，有分布式文件系統（HDFS），有一致性算法（Zookeeper），有Table

【原創】算法基礎之Anaconda（1）簡介、安裝、使用

https orf ati 2.7 容易 ice range gcc x86_64 Anaconda 2 官方：https://www.anaconda.com/ 一簡介 The Most Popular Python Data Science Platform A

自制指令碼語言（1）詞法、語法、虛擬機器的設計思路

摘要：介紹了一種自制的指令碼語言的設計思路，定義第一版語言的詞法與語法，虛擬機器的設計。編譯器設計，是每個程式設計師通往高階的必修課。從本文開始設計一種指令碼語言及其編譯器。為了方便，不編譯為機器語言而是執行在一個基於棧的虛擬機器上。語言是弱型別動態檢查。虛擬機器主要功能

HiveSql（1）mapjoin、分割槽表

相關推薦