大資料_資料採集引擎(Sqoop和Flume)

阿新 • • 發佈：2019-01-03

一、資料採集引擎

    1、準備實驗環境: 準備Oracle資料庫
                      使用者：sh  表：sales 訂單表（92萬）

    2、Sqoop：採集關係型資料庫中的資料
               用在離線計算的應用中
               強調：批量
               （1）資料交換引擎： RDBMS  <--->  Sqoop <---> HDFS、HBase、Hive
               （2）底層依賴MapReduce
               （3）依賴JDBC
               （4 
）安裝：tar -zxvf sqoop-1.4.5.bin__hadoop-0.23.tar.gz -C ~/training/
                    設定環境變數：
                    SQOOP_HOME=/root/training/sqoop-1.4.5.bin__hadoop-0.23
                    export SQOOP_HOME

                    PATH=$SQOOP_HOME/bin:$PATH
                    export PATH

                注意：如果是Oracle資料庫，大寫：使用者名稱、表名、列名

          （*）codegen            Generate code to 
 interact with database records
                根據表結構自動生成對應Java類
                sqoop codegen --connect jdbc:oracle:thin:@192.168.157.163:1521/orcl --username SCOTT --password tiger --table EMP --outdir /root/sqoop


          （*）create-hive-table  Import a table definition into Hive

          （*）eval               Evaluate a 
 SQL statement and display the results
                在Sqoop中執行SQL
                sqoop eval --connect jdbc:oracle:thin:@192.168.157.163:1521/orcl --username SCOTT --password tiger --query 'select * from emp'

          （*）export             Export an HDFS directory to a database table

          （*）help               List available commands

          （*）import             Import a table from a database to HDFS
                匯入資料
                (1)匯入EMP表的所有資料(HDFS上)
                sqoop import --connect jdbc:oracle:thin:@192.168.157.163:1521/orcl --username SCOTT --password tiger --table EMP --target-dir /sqoop/import/emp1    

                (2)匯入指定的列
                    sqoop import --connect jdbc:oracle:thin:@192.168.157.163:1521/orcl --username SCOTT --password tiger --table EMP --columns ENAME,SAL  --target-dir /sqoop/import/emp2   

                (3) 匯入訂單表
                sqoop import --connect jdbc:oracle:thin:@192.168.157.163:1521/orcl --username SH --password sh --table SALES --target-dir /sqoop/import/sales -m 1
                錯誤：ERROR tool.ImportTool: Error during import: No primary key could be found for table SALES. Please specify one with --split-by or perform a sequential import with '-m 1'.


          （*）import-all-tables  Import tables from a database to HDFS
                匯入某個使用者下所有的表，預設路徑：/user/root
                sqoop import-all-tables --connect jdbc:oracle:thin:@192.168.157.163:1521/orcl --username SCOTT --password tiger       

          （*）job                Work with saved jobs

          （*）list-databases     List available databases on a server
                (*) MySQL資料庫：就是資料庫的名字
                (*) Oracle資料庫：是資料庫中所有使用者的名字
                sqoop list-databases --connect jdbc:oracle:thin:@192.168.157.163:1521/orcl --username SYSTEM --password password


          （*）list-tables        List available tables in a database
          （*）merge              Merge results of incremental imports
          （*）metastore          Run a standalone Sqoop metastore
          （*）version            Display version information

    3、Flume：採集日誌
               用在實時計算（流式計算）的應用中
               強調：實時

#bin/flume-ng agent -n a4 -f myagent/a4.conf -c conf -Dflume.root.logger=INFO,console
#定義agent名， source、channel、sink的名稱
a4.sources = r1
a4.channels = c1
a4.sinks = k1

#具體定義source
a4.sources.r1.type = spooldir
a4.sources.r1.spoolDir = /root/training/logs

#具體定義channel
a4.channels.c1.type = memory
a4.channels.c1.capacity = 10000
a4.channels.c1.transactionCapacity = 100

#定義攔截器，為訊息新增時間戳
a4.sources.r1.interceptors = i1
a4.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Builder


#具體定義sink
a4.sinks.k1.type = hdfs
a4.sinks.k1.hdfs.path = hdfs://192.168.157.11:9000/flume/%Y%m%d
a4.sinks.k1.hdfs.filePrefix = events-
a4.sinks.k1.hdfs.fileType = DataStream

#不按照條數生成檔案
a4.sinks.k1.hdfs.rollCount = 0
#HDFS上的檔案達到128M時生成一個檔案
a4.sinks.k1.hdfs.rollSize = 134217728
#HDFS上的檔案達到60秒生成一個檔案
a4.sinks.k1.hdfs.rollInterval = 60

#組裝source、channel、sink
a4.sources.r1.channels = c1
a4.sinks.k1.channel = c1

Flume的體系結構

這裡寫圖片描述


二、HUE

三、ZooKeeper

Oracle和Mysql的區別

這裡寫圖片描述

大資料_資料採集引擎(Sqoop和Flume)

一、資料採集引擎 1、準備實驗環境: 準備Oracle資料庫使用者：sh 表：sales 訂單表（92萬） 2、Sqoop：採集關係型資料庫中的資料用在離線計算的

資料採集引擎Sqoop

Sqoop概述官網 http://sqoop.apache.org/ 場景傳統型缺點，分散式儲存。把傳統型資料庫資料遷移。 Apache Sqoop（TM）是一種用於在Apache Hadoop和結構化資料儲

大資料知識體系_探索資料_資料彙總_視覺化_多維資料分析

探索資料彙總統計頻率和眾數分類屬性的眾數是具有最高頻率的值百分位數位置度量：均值和中位數截斷均值散佈度量：極差和方差標準差絕對平均偏差 ADD 中位數絕對偏差 MAD 四分位數極差 IQR 多元彙總統計

詳解大資料採集引擎之Sqoop&採集Oracle資料庫中的資料

歡迎關注大資料和人工智慧技術文章釋出的微信公眾號：清研學堂，在這裡你可以學到夜白（作者筆名）精心整理的筆記，讓我們每天進步一點點，讓優秀成為一種習慣！詳解大資料採集引擎之Sqoop&採集oracle資料庫中的資料一、Sqoop的簡介： Sqoo

帶你看懂大資料採集引擎之Flume&採集目錄中的日誌

歡迎關注大資料和人工智慧技術文章釋出的微信公眾號：清研學堂，在這裡你可以學到夜白（作者筆名）精心整理的筆記，讓我們每天進步一點點，讓優秀成為一種習慣！帶你看懂大資料採集引擎之Flume&採集目錄中的日誌一、Flume的介紹： Flume由Clo

關於大資料統計大量股票開盤平均價和收盤價的簡單程式程式

1.需要統計的檔案 2.單個檔案的內容 3.程式內容 package com.test4; import java.io.IOException; import java.util.Iterator; import org.apache.hadoop.conf.Configurat

大資料的簡介及Hadoop單機和分散式安裝方法1

hadoop：開源軟體，可靠的、分散式、可伸縮的大資料軟體（是一個生態體系包括但不限於：hive、spark、MR、persto、kylin）國家提出去IOE戰略： IBM &nb

大資料求索(4)：Hive安裝和使用

Hive安裝和使用 Hive環境搭建 Hive下載 wget https://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz 解壓 tar -zxvf hive-1.1.00cdh5.7.0

大資料平臺hbase,phoenix,spark搭建和研發問題和解決方式彙總

#Q Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.tracing.SpanReceiverHost.get $A <hadoop.version>2.7.3</hadoop.version>

人工智慧和大資料有什麼相似之處和不同之處，之間有什麼共同點嗎?

大資料vs.人工智慧是一種公平的比較嗎?在某種程度上，它是，但首先讓我們先釐清它們之間的區別。人工智慧和大資料是人們耳熟能詳的流行術語，但也可能會有一些混淆。人工智慧和大資料有什麼相似之處和不同之處?它們有什麼共同點嗎?它們是否相似?

大資料入門（25）sqoop快速入門

sqoop的使用 ----sqoop是一個用來在hadoop體系和關係型資料庫之間進行資料互導的工具 ----實質就是將匯入匯出命令轉換成mapreduce程式來實現 sqoop安裝：安裝在一臺節點上就可以了。 1.上傳sqoop 2.安裝和配置 (1)修改配置檔案 sqoop-env.

大資料入門（24）kafka和storm的結合例項

1、原理： storm的lib下的jar, external\storm-kafka\storm-kafka-0.9.2-incubating.jar 此jar中的sqout已經寫好 2、/********** KafkaTopoMain ：執行，在本地生成檔案***************

大資料入門（21）storm和kafka結合的例項

1、原理： storm的lib下的jar, external\storm-kafka\storm-kafka-0.9.2-incubating.jar 此jar中的sqout已經寫好 2、/********** KafkaTopoMain ：執行，在本地生成檔案******

Flume+Kafka雙劍合璧玩轉大資料平臺日誌採集

概述大資料平臺每天會產生大量的日誌，處理這些日誌需要特定的日誌系統。一般而言，這些系統需要具有以下特徵：構建應用系統和分析系統的橋樑，並將它們之間的關聯解耦；支援近實時的線上分析系統和類似於Hadoop之類的離線分析系統；具有高可擴充套件性。即：當資料量增加時，可以通過增加節點

Sqoop資料遷移工具之簡單介紹和安裝（一）

1、概述 sqoop 是 apache 旗下一款“Hadoop 和關係資料庫伺服器之間傳送資料”的工具。匯入資料：MySQL，Oracle 匯入資料到 Hadoop 的 HDFS、HIVE、HBASE 等資料儲存系統匯出資料：從 Hadoop 的檔案系統中匯出資料到

NLPIR-KGB知識圖譜大資料語義挖掘新引擎

　　近些年，由於以社交網站、基於位置的服務LBS 等為代表的新型資訊產生方式的湧現，以及雲端計算、移動和物聯網技術的迅猛發展，無處不在的移動、無線感測器等裝置無時不刻都在產生資料，數以億計使用者的網際網路服務時時刻刻都在產生著資料互動，大資料時代已經到來。在當下，大資料炙手可熱，不管是企業還是個人都在談論或者

用C語言實現線性表歸併_含原始碼和執行結果_資料結構（C語言版）

採用動態分配順序儲存結構實現採用單鏈表結構實現 1.採用動態分配實現 #include<stdio.h> #include<stdlib.h> #define LIST_INIT_SIZE 100 #define LISTINCREM

一個月能入門Python嗎？月薪25K的大佬給我整理了函式和模組資料

函式在這裡相信有許多想要學習Python的同學，大家可以+下Python學習分享裙：叄零肆+零伍零+柒玖玖，即可免費領取一整套系統的 Python學習教程 103456743 4、內建函式模組一、模組簡介

大資料領域兩大最主流叢集管理工具Ambari和Cloudera Manger

目前啊，都知道，大資料叢集管理方式分為手工方式（Apache hadoop）和工具方式（Ambari + hdp 和Cloudera Manger + CDH）。　手工部署呢，需配置太多引數，但是，好理解其原理，建議初學這樣做，能學到很多。該方式啊，均得由使用者執

Python練習_資料型別和編碼_day6

1. 1.作業 1，使用迴圈列印以下效果: 1: * ** *** **** ***** 2: ***** **** *** ** * 3: * *** ***** ******* ********* 2, 輸入一個廣告標

大資料_資料採集引擎(Sqoop和Flume)

相關推薦