Pig安裝講解

阿新 • • 發佈：2018-01-10

添加 zxvf union white oca mapreduce 軟件位置嵌套表

Pig 簡介：

Pig 是 Apache 項目的一個子項目，Pig 提供了一個支持大規模數據分析的平臺，Pig 突出的特點就是它的結構經得起大量並行任務的檢驗，使得它能夠處理大規模數據集

Pig 特點：

Pig 可簡化 MapReduce 任務的開發

Pig 可以看做 Hadoop 的客戶端軟件，可以連接到 Hadoop 集群進行數據分析工作

Pig 方便不熟悉 Java 的用戶，使用一種較為簡便的類似 SQL 的面向數據流的語言 PigLatin 語言進行數據處理

PigLatin 可以進行排序，過濾，求和，分組，關聯等常用操作，還可以自定義函數，這是面向數據分析處理的輕量級腳本語言

Pig 可以看做是 PigLatin 到 MapReduce 的映射器

當Pig在MapReduce模式運行時，它將訪問一個Hadoop集群和HDFS的安裝位置。這時Pig將自動地對這個集群進行分配和回收

Pig 的數據模式： relation(關系), bag(包), tuple(元組), field(字段，列)

relation（關系）：具有相同字段(列)的 tuple 稱為關系

bag(包)：與關系型數據庫中的表類似，包含多個 tuple，

tuple(元組)：相當於關系型數據庫中的行，與關系型數據庫不同的是，tuple 不要求每一行具有相同的結構

field(字段，列)：與關系型數據庫中的列相似，不同的是，field 中可以嵌套表，而關系型數據庫中的列中不可以嵌套表

Pig 的安裝和配置：

安裝：解壓安裝包並添加環境變量即可

tar -zxvf pig-0.17.0.tar.gz -C ~/app

vim ~/.bash_profix

PIG_HOME= PIG_HOME=/app/pig-0.17.0

export PIG_HOME

PATH=$PIG_HOME/bin:$PATH

export PATH

Pig 有兩種運行模式：本地模式：操作 Linux 文件

啟動方式： pig -x local

集群模式: 鏈接到 HDFS

PIG_CLASSPATH=/app/hadoop-2.7.3/etc/hadoop

export PIG_CLASSPATH

啟動命令： pig

Pig 操作 Linux 命令：

sh 後面跟linux 命令可以直接對 linux 中的文件進行操作

ls cd cat mkdir pwd 操作 HDFS

copyFromLocal 從linux 系統 copy 文件到 HDFS

copyToLocal 從 HDFS copy 文件到 linux 系統

PigLatin 語句：

---> 需要使用 Hadoop 的 HistoryServer

mr-jobhistory-daemon.sh start historyserver

地址： http://192.168.10.100:19888/jobhistory

---> 常用的 PigLatin 語句

load 加載數據到 bag (表)

foreach 相當於循環，對 bag 每一條數據遍歷

filter 相當於 where

group by 分組

join 連接

generate 提取列

union/intersect 集合運算

輸出：dump 直接打印到屏幕上

· store 輸出到 HDFS 上

舉例: 7654,MARTIN,SALESMAN,7698,1981/9/28,1250,1400,30

加載員工數據到bag(表)

emp = load '/input/table/emp.csv' using PigStorage(',')

as (empno:int, ename:chararray, job:chararray, mgr:int, hiredate:chararray, sal:int, comm:int, deptno:int );

dept = load '/scott/dept.csv' using PigStorage(',') as(deptno:int,dname:chararray,loc:chararray);

查看表結構： describe emp;

查詢員工信息：員工號，姓名，薪水

SQL語句： select empno, ename, sal from emp ;

PL 語句： emp = foreach emp generate empno, ename, sal;

輸出到屏幕上： dump emp;

查詢員工信息，按照月薪排序：

SQL 語句：select * from emp order by sal ;

PL 語句：emp = order emp by sal ;

分組：求每個部門工資最高值

SQL語句： select deptno, max(sql) from emp group by deptno ;

PL 語句：需要分兩部

1. 分組

emp_group = group emp by deptno ;

2. 求每個部門最大值

max_sal = foreach emp_group generate group, MAX(emp.sal)

查詢 10 號部門的員工：

SQL 語句： select * from emp where deptno = 10 ;

PL 語句： deptno_10 = filter emp by deptno==10 ;

多表查詢：員工姓名，部門名稱

SQL 語句： select e.ename d.dname from emp e, dept d where e.ename=d.dname;

PL 語句：分兩部實現

1. 將兩個表中的兩個字段提取出來放入一張表中

newtable = join dept by deptno, emp by ename

2. 遍歷提取出來的表，將員工表的員工姓名，部門表的部門名稱提取出來

table = foreach newtable generate dept:: dname, emp:: ename

集合運算：關系型數據庫 Oracle ：參與集合運算的各個集合必須列數相同且類型一致

查詢 10 號和 20 號部門的員工

SQL 語句： select * from emp where deptno=10

union select * from emp where deptno=20;

PL 語句：emp10 = filter emp by deptno==10;

emp20 = filter dept by deptno==20;

emp10_20 = union emp10, emp20;

使用PL實現WordCount：

① 加載數據

mydata = load '/data/data.txt' as (line:chararray);

② 將字符串分割成單詞

words = foreach mydata generate flatten(TOKENIZE(line)) as word;

③ 對單詞進行分組

grpd = group words by word;

④ 統計每組中單詞數量

cntd = foreach grpd generate group,COUNT(words);

⑤ 打印結果

dump cntd;

Pig安裝講解

添加 zxvf union white oca mapreduce 軟件位置嵌套表 Pig 簡介： Pig 是 Apache 項目的一個子項目，Pig 提供了一個支持大規模數據分析的平臺，Pig 突出的特點就是它的結構經得起大量並行任務的檢驗，使得它能夠處理大規

dingo/API 最新版 V2.0 之安裝講解

目標 san 開發如果 all ref ssi 。。 this 　　我發現關於dingo/API V2.0的資料少之又少，應該也是發布時間不久的原因。下面，我就來給大家講解（翻譯）下官方的英文文檔，如果有說的不對的地方，請指正。先附上，官網wiki地址https://gi

Windows Server 2012 64位系統下安裝講解 tomcat 環境安裝

本文來源：https://www.cnblogs.com/fklin/p/6670985.html 本文以Tmcat 7版本在Windows Server 2012 64位系統下安裝講解，JAVA環境安裝配置參見：http://www.cnblo

Hadoop 2.2.0下Pig安裝及Pig的基礎使用

準備工作： 1、正常執行的Hadoop2.2.0環境； 2、自行編譯好適用於Hadoop2.2.0環境的的Pig 0.12.0版本。 1)NameNode的機器上安裝apache-ant，將ant的可執行檔案路徑放入環境變數PATH中; &nbs

MongoDB視覺化介面工具Studio3T的安裝 - 講解篇

因為現在視覺化介面很多，我本人用的是 Studio 3T ，這裡發文一篇，當時入門寶鑑了。下載 · 視覺化工具 - Studio 3T 官方 · 下載連結選擇適合你係統的版本（我的是win64系統）手動填寫表單，提交之後會自動跳轉到下載頁，並會自動

Pig安裝配置

前提條件： 1. 安裝好hadoop2.7.3 安裝步驟： 1. 下載pig安裝檔案，下載地址：http://archive.apache.org/dist/pig/ 下載版本：pig-0.17.0.tar.gz 2. 解

學習Hadoop——Pig 安裝和介紹

Pig 是由Yahoo 公司開源，是一種操作大規模資料集的指令碼語言，它為大型資料集的處理提供了更高層的抽象。Pig 構建在HDFS和Mapreduce 之上，能將資料處理翻譯成多個Map 和Reduce 函式，從某種程度上將程式猿從具體程式設計中解放出來。 Pig 簡介 pig

Pig安裝及簡單例項

前面講到了如何用MapReduce進行資料分析。當業務比較複雜的時候，使用MapReduce將會是一個很複雜的事情，比如你需要對資料進行很多預處理或轉換，以便能夠適應MapReduce的處理模式。另一方面，編寫MapReduce程式，釋出及執行作業都將是一個比較耗時的事情。

Delphi BPL包安裝講解

我們知道在delphi IDE中,分為開發包和執行包,所謂開發包是指那些需要在開發環境中依賴的包,這些包的功能包括可以提供使用者視覺化的控制元件設計等.這些開發包一般用於安裝元件的.而執行包則是那些軟體執行時動態引用所依賴的包.其實有的bpl是可以同時具有這兩

【hadoop pig】pig安裝及使用

1 執行環境說明 1.1 硬軟體環境 l 主機作業系統：Windows 64 bit，雙核4執行緒，主頻2.2G，6G記憶體 l 虛擬軟體：VMware® Workstation 9.0.0 build-812388 l 虛擬機器作業系統：CentOS

自動化運維工具-pdsh工具安裝配置及簡單使用講解

stat 運維條件 ati etc amp gen nodes ogl 1、先決條件：安裝pssh工具的主機針對遠程主機需要配置免秘鑰認證： ssh-keygen -t rsa ssh-copy-id [remotehost] 2、下載pssh工具安裝介質： https

自動化運維工具-mussh工具安裝配置及簡單使用講解

cal 解壓 -i remote --help 1.0 host port href 1、先決條件：安裝pssh工具的主機針對遠程主機需要配置免秘鑰認證： ssh-keygen -t rsa ssh-copy-id [remotehost] 2、下載mussh工具安裝介質

Nginx的安裝與初步講解

可執行程序存在 ssi cif evel 對應關系是否 run source Nginx的安裝與初步講解1.2 Nginx的基本編譯安裝：編譯安裝前的準備：安裝Nginx編譯安裝需要依賴的一些包[root@localhost ~]## yum install gcc g

Linux oracle安裝內核參數講解

物理內存 1=1 cal 請求 oca 虛擬 mms 講解 lin 在安裝Oracle的時候需要調整linux的內核參數，但是各參數代表什麽含義呢，下面做詳細解析。 Linux安裝文檔中給出的最小值： fs.aio-max-nr = 1048576 fs.file-max

【Hadoop 分布式部署八：分布式協作框架Zookeeper架構功能講解及本地模式安裝部署和命令使用】

.gz 權限實現 creat info 應用 data 就是數據結構 What is Zookeeper 　　　　是一個開源的分布式的，為分布式應用提供協作服務的Apache項目　　　　提供一個簡單的原語集合，以便與分布式應用可以在他之上構建更高層次的同步服務

Nginx編譯安裝及編譯參數講解

支持 assembler 臨時文件 files sha cached erro mp4 工具實驗環境說明:操作系統:Centos 7 64位Nginx版本:Nginx 1.12.2 編譯安裝前的準備：安裝Nginx編譯安裝需要依賴的一些包yum install gcc g

詳細講解在CentOS 7上安裝oracle 12c(內含軟件包)

config 連接 run creating specific rac req ria disable Oracle Database，又名Oracle RDBMS，或簡稱Oracle。是甲骨文公司的一款關系數據庫管理系統。它是在數據庫領域一直處於領先地位的產品。可以說Or

linux系統MySQL的安裝和hive叢集安裝詳細步驟及講解

此安裝步驟是多年經驗總結,一定要嚴格按照步驟進行,一定要細心!!! MySQL的安裝是重中之重!!!出現錯誤很難修改!!! 另外安裝命令不要複製!!!自己手敲!!!不要複製!!!複製可能導致出錯!!! 空格，小數點要格外注意，都不能少一、先刪除Linux自帶的MySQL 1、找到

Hadoop叢集配置安裝,詳細步驟及講解

**涉及linux命令一定要注意大小寫和空格,linux系統對此敏感** **hadoop叢集的安裝一定要靜下心一步一步來** 1、關閉防火牆(防火牆最好關閉,不然以後linux操作會有很多麻煩) 1)輸入命令: vi etc/selinux/config 其中改為 SELINU

centos 7 linux系統預設ftp安裝配置和部署（詳細講解）

轉載自：https://www.cnblogs.com/mujingyu/p/7677273.html 小生接觸 Linux 系統時間不長，想解決linux系統ftp安裝及部署問題，折騰了大半天，終於弄出來了，將各路高手的配置方法綜合了一下，如有不對之處，歡迎各位看客指正，感謝！一、

Pig安裝講解

相關推薦