Hive的基本使用（處理資料）

阿新 • • 發佈：2018-12-11

啟動上一篇搭建的hive叢集 sh hive-start.sh 隨便一個資料夾下載檔案，只要自己記住就好： wget https://raw.githubusercontent.com/ffzs/dataset/master/Questionnaire.csv 開啟hive及beeline：

schematool -dbType mysql -initSchema
nohup hiveserver2 1>/home/hadoop/hiveserver.log 2>/home/hadoop/hiveserver.err &
beeline -u jdbc:hive2://hadoop1:10000 -n root

建立database： create database my； use my；

說一下資料：一共九列，從左到右分別是：性別，國籍，年齡，工作，資料科學工作首選語言，教育情況，所學專業，從事資料科學工作時間，父母教育情況建立表：

create table qn(gender string,
country string,
age int,
job string,
language string,
education string,
major string, 
tenure string,
parentseducation string) 
row format delimited fields 
 terminated by ',' 
stored as textfile ;

在這裡插入圖片描述匯入本地資料，本地資料要加local否者hive會去hdfs上找：

load data local inpath '/home/data/Questionnaire.csv' overwrite into table qn;

看一下資料：在這裡插入圖片描述

受訪者國家分佈情況：

create table country as 
select qn.country as country, count(qn.country) as count
from qn where qn.country!='Other' and qn.country!= 
''
group by qn.country  
order by count desc;

看一下前十名分別來著哪些國家： select * from country limit 10;

在這裡插入圖片描述可見美國和印度參與調查的人比較多。

各國受訪者年齡中位數：

create table age as 
select qn.country as country,percentile(qn.age, 0.5) as median
from qn where qn.country!='Other' and qn.country!=''
group by qn.country  
order by median desc;

看一下前十： select * from age limit 10; 在這裡插入圖片描述看來紐西蘭和一些歐洲國家的資料科學家年齡稍微偏大一些。

人數大於400人的國家受訪者年齡中位數

select c.country as country ,c.count as count, a.median as age 
from country as c, age as a
where c.country= a.country and c.count > 400
order by count desc;

在這裡插入圖片描述可見中國、印度發展中國家資料可數學家更年輕化。

人數前十的國家受訪者年齡中位數：

select c.country as country ,c.count as count, a.median as age
from country c left join age a on c.country= a.country
order by count desc
limit 10;

受訪者工作分佈情況

create table job as 
select qn.job as job, count(qn.job) as count
from qn where qn.job!='Other' and qn.job!=''
group by qn.job  
order by count desc;

前十：

在這裡插入圖片描述資料科學家最多。

程式語言分佈情況

create table language as 
select qn.language as language, count(qn.language) as count
from qn where qn.language!='Other' and qn.language!=''
group by qn.language  
order by count desc;

在這裡插入圖片描述 python 和 R以其易用性名列前茅。

python使用者年齡中位數大於30的國家分佈情況：

select qn.country as country, count(qn.country) as count 
from qn 
where language='Python'
group by qn.country
having percentile(qn.age, 0.5) > 30
order by count desc
limit 10;

在這裡插入圖片描述

各國家受訪者受教育水平人數最多的分類

先取到各個國家各受教育程度人數

create table result1 as
select country, education ,count(gender) as count, GROUPING__ID
from qn 
group by country,education 
grouping sets (( country, education)) 
order by count desc;

依據國家分組求出個部分的進行排序，人數最多標為1

create table result2 as
select country, education ,count, 
row_number() over (partition by country order by count desc) as num
from result1 
where country!='Other' and country!=''
order by num;

選出num=1

create table result3 as
select country, education, count 
from result2
where num=1
order by count desc;

結果：

在這裡插入圖片描述看了一下不是學士就是碩士。

儲存到hdfs上：

insert overwrite directory "/questionnaire/result3/" select * from result3;

Hive的基本使用（處理資料）

啟動上一篇搭建的hive叢集 sh hive-start.sh 隨便一個資料夾下載檔案，只要自己記住就好： wget https://raw.githubusercontent.com/ffzs/da

過取樣（處理資料不平衡問題）

import pandas as pd import matplotlib.pyplot as plt import numpy as np from sklearn.preprocessing import StandardScaler from sklearn.model_selection i

下采樣（處理資料不平衡問題）

import pandas as pd import matplotlib.pyplot as plt import numpy as np from sklearn.preprocessing import StandardScaler#去均值，方差歸一化，類似於特徵縮放 from sklearn

爬取動態網站資料（soup的css方式處理資料）

import requests from bs4 import BeautifulSoup url = 'https://knewone.com/discover?page=' def get_in

分析挖掘（大資料）：hive、impala、 Spark MLlib概述、原理

hiveHive是一個構建於Hadoop頂層的資料倉庫工具，支援大規模資料儲存、分析，具有良好的可擴充套件性。某種程度上可以看作是使用者程式設計介面，本身不儲存和處理資料。依賴分散式檔案系統HDFS儲存資料，依賴分散式平行計算模型MapReduce處理資料。定義了簡單的類似S

如今的iOS開發者優勝劣汰，如何提升讓自己不被淘汰？（附資料）

角度高效二進制新的編輯器選擇形勢前端工程作者序言：如果從 13 年移動客戶端大火開始算起，至今已經有五個年頭了。現在移動端的形勢也不需要太多的廢話來描述，一句話總結就是：“浪潮退去，誰在裸泳一看就清楚。”我希望借助這篇文章來聊聊在我心目中，移動互聯網下一

Java中遍歷實體類（處理MongoDB）

boot common ech set declare code mod exc reflect 在實際過程中，經常要將實體類進行封裝，尤其是處理數據庫的過程中；因此，對於遍歷實體類能夠與數據庫中的一行數據對應起來。我是使用的環境是Spring boot，訪問的數據庫時M

Java 輸入/輸出——流體系（處理流）

void dso span style output amt nbsp public 用處　　關於使用處理流的優勢，歸納起來就是兩點：（1）對於開發人員來說，使用處理流進行輸入/輸出操作更簡單；（2）使用處理流執行效率更高。　　下面程序使用PrintStream處理流來

資源管理（大資料）：Zookeeper、 Yarn簡介、原理

https://blog.csdn.net/wzk646795873/article/details/79583218 Zookeeper Zookeeper是一個分散式協調服務，一個leader，多個follower組成的叢集，就是為使用者的分散式應用程式提供協調服務。 Zookeep

Tushare學習文件（交易資料）

1.獲取歷史資料 ts.get_hist_data('601998') 獲取601998的歷史資料 ts.get_hist_data('601998',start='2016-06-05',end='2016-07-06') 獲取指定時間內的歷史資料 &

資料的計算（大資料）

Hadoop的背景起源二：MapReduce 一、什麼是大資料，本質？（1）資料的儲存：分散式檔案系統（分散式儲存）-----> HDFS: Hadoop Distributed File Syst

50個常用sql語句（含資料）

Code: 50個常用SQL語句 Student(S#,Sname,Sage,Ssex) 學生表 S#學號，主鍵 Course(C#,Cname,T#) 課程表 C#課程號，主鍵 SC(S#,C#,score) 成績表 Teacher(T#,Tn

多檔案上傳、excel多檔案匯入（大量資料）

多檔案上傳、excel多檔案匯入（大量資料）置頂2018年03月02日 14:52:32 閱讀數：436 問題：多個excel檔案匯入（上傳）思路：由於檔案選擇只能單個檔案選擇，那麼可以將excel檔案一個一個上傳到本地或伺服器，將路徑儲存至資料庫中，後臺使用佇列進行操作，即

（大資料）zookeeper(二)

zookeeper的命令列客戶端 zookeeper命令列客戶端主要功能為：寫資料，讀資料，監聽。 zookeeper的資料結構路徑樹形圖:檢索其他節點通過路徑的方式訪問，每個節點也可以存放資料。在根結點下建立名為app1的子節點節點型別 1、Znode有兩種型

NYOJ-1483（取資料）

1483-計算清單記憶體限制:64MB 時間限制:3000ms 特判: No 通過數:44 提交數:103 難度:0 題目描述: 大學！一個消費極高的地方！總是剋制不住自己，55555。不想吃土的學姐想到一個剋制住自己的方法——計算出每日的花費。用這個數字嚇嚇自

50個經典的sql語句（含資料）

Code: 50個常用SQL語句 Student(S#,Sname,Sage,Ssex) 學生表 S#學號，主鍵 Course(C#,Cname,T#) 課程表 C#課程號，主鍵 SC(S#,C

mycat1.6.5分片規則（熱資料）

mycat one群：106088787。分片規則：字串拆分hash 一、conf/schema.xml檔案 <mycat:schema xmlns:mycat="http://io.mycat/"> <schema name="TESTDB" checkSQLs

系統救援模式（備份資料）

背景：公司一臺伺服器系統故障，/home以及系統下有重要資料需要保留，我們要做的是備份資料然後重灌系統。光碟啟動：不同機器方式不同（一般為F2或F11），再次不做詳細表述。引導後進入如下介面：我們選擇Troubleshooting修復系統之後選擇營救系

【解決辦法】pandas畫出時序資料（股票資料）橫軸不是時間

簡述遇到了這個問題，被坑了很久。首先我們要假設我們一直認為index是時間資料。然後我們發現沒有看到橫軸為時間（如果不是的這麼認為的話，就記得先把index設定為時間資料）可能性遇到這個問題有很多種可能。讀取的時候，時間所在的列沒有被設定為inde

XListView展示（死資料）

//主頁面 package com.example.xlist; import android.annotation.SuppressLint; import android.os.AsyncTask; import android.os.SystemCloc

Hive的基本使用（處理資料）

受訪者國家分佈情況：

各國受訪者年齡中位數：

人數大於400人的國家受訪者年齡中位數

受訪者工作分佈情況

程式語言分佈情況

python使用者年齡中位數大於30的國家分佈情況：

各國家受訪者受教育水平人數最多的分類

儲存到hdfs上：

相關推薦