Hbase基礎（十八）：億級資料從 MySQL 到 Hbase 的三種同步方案與實踐（二）億級MySQL資料插入

阿新 • • 發佈：2020-12-13

原文：https://blog.csdn.net/rlnlo2pnefx9c/article/details/108288956

本節題目為：億級資料從 MySQL 到 Hbase 的三種同步方案與實踐，首先需要了解如何快速插入MySQL。

那麼MySQL資料插入將會從以下幾個方法入手：

load data infile
Python 單條插入
Python 多執行緒插入

當然也可以使用其他語言進行實現！！！

下面來逐步談談資料插入！

資料插入之前，需要了解我們的資料，先來看一下資料欄位描述：

資料以ASCII文字表示，以逗號為分隔符，以回車換行符(0x0D 0x0A)結尾。資料項及順序：車輛標識、觸發事件、運營狀態、GPS時間、GPS經度、GPS緯度,、GPS速度、GPS方向、GPS狀態
車輛標識：6個字元
觸發事件：0 
=變空車，1=變載客，2=設防，3=撤防，4=其它
運營狀態：0=空車，1=載客，2=駐車，3=停運，4=其它
GPS時間：格式yyyymmddhhnnss，北京時間
GPS經度：格式ddd.ddddddd，以度為單位。
GPS緯度：格式dd.ddddddd，以度為單位。
GPS速度：格式ddd，取值000-255內整數，以公里/小時為單位。
GPS方位：格式ddd，取值000-360內整數，以度為單位。
GPS狀態：0=無效，1=有效
結束串:回車符+換行符

資料舉例：

154747,4,2,20121130001607,116.6999512,39.9006233,0,128,1
078245,4,0,20121130001610,116.3590469,39.9909782,0,92,1
194086,4,1,20121130001610,116.5017776,40.0047951,25,220,1

那麼只需要將上述的資料欄位與資料對上就行了，一行為一條資料記錄。

首先編寫建立資料庫與表命令：

create database loaddb;
CREATE TABLE loadTable(id int primary key not null auto_increment,
carflag VARCHAR(6),touchevent CHAR(1),opstatus CHAR(1),gpstime DATETIME,
gpslongitude DECIMAL(10,7),gpslatitude DECIMAL(9,7),gpsspeed TINYINT,
gpsorientation SMALLINT,gpsstatus CHAR( 
1))engine=MyISAM;

注意：上述選擇了MyISAM引擎是因為load命令使用的時候，保證資料插入的效率！

3.1 load data infile

load data infile在匯入大資料場景下非常的快！具體的說明後面會在比較的時候詳細說，這裡說一下使用語法，如下：

load data local infile "/home/light/mysql/gps1.txt" into table loadTable fields terminated by ',' lines terminated by "\n"  (carflag, touchevent, opstatus,gpstime,gpslongitude,gpslatitude,gpsspeed,gpsorientation,gpsstatus);

在使用這個命令的時候，是在MySQL的clinet端使用，登陸後敲這個命令即可！在資料欄位描述中大家會看到幾個關鍵點：以逗號為分隔符，以回車換行符，對應於上述程式碼是：

fields terminated by ',' lines terminated by "\n"

注意：更換自己的資料集路徑！

3.2 Python 批量插入

Python單條插入使用的是pymysql庫。下面是部分程式碼，完整程式碼見：

批量提交原始碼

with open('/home/light/mysql/gps1.txt', 'r') as fp:
    for line in fp:
        ...
        ...
        ...
        count += 1
        if count and count%70000==0:
            # 執行多行插入，executemany(sql語句,資料(需一個元組型別))
            self.cur.executemany(sql, data_list)
            # 提交資料,必須提交，不然資料不會儲存
            self.conn.commit()
            data_list = []
            print("提交了：" + str(count) + "條資料")
 
if data_list:
    # 執行多行插入，executemany(sql語句,資料(需一個元組型別))
    self.cur.executemany(sql, data_list)
    # 提交資料,必須提交，不然資料不會儲存
    self.conn.commit()
    print("提交了：" + str(count) + "條資料")
self.cur.close()  # 關閉遊標
self.conn.close()  # 關閉pymysql連線

上述有個關鍵點需要說明一下：

（1）使用executemany而非execute，這個提交速度要快！（2）使用批量插入，而非單條插入提交，這樣會提升效率！

3.3 Python 多執行緒插入

原始資料為一個gps1.txt檔案，這個資料太大，如果直接使用多執行緒插入，不太方便，所以先使用檔案切分方法，然後進行多執行緒的插入。

關於檔案切分，可以點選這裡：檔案切分原始碼。

Python中使用多執行緒原始碼

def multicore(self):
    file_list = [1,2324,4648,6972,9298]
    m1 = mp.Process(target=self.run, args=(file_list[0],file_list[1],'m1',))
    m2 = mp.Process(target=self.run, args=(file_list[1]+1,file_list[2],'m2',))
    m3 = mp.Process(target=self.run, args=(file_list[2]+1,file_list[3],'m3',))
    m4 = mp.Process(target=self.run, args=(file_list[3]+1,file_list[4],'m4',))
    m1.start()
    m2.start()
    m3.start()
    m4.start()
    m1.join()
    m2.join()
    m3.join()
    m4.join()

具體插入思路是使用四個執行緒分別讀取每個區間段的資料，然後再對資料進行批量插入！如果這一塊不懂的夥伴，歡迎留言哈~

3.4 MySQL資料匯入方法對比

★
load命令與普通的insert區別
”

相同點	不同點
兩者都是通過讀取本地txt檔案，按照相同的分隔來讀取進行插入。	程式插入法實質為insert語句間接執行。load data設計用於在單個操作中大量載入表格資料。

★
效率比較
”

兩者耗時如下：

第一種：load data (這裡擷取的是Innodb引擎表的插入結果，當使用MyISAM時，會比現在還快！)

enter image description here

用時1h11分。

第二種：程式插入法(這裡只截取了批量插入的！)

用時：27322.45/36=7.58h

上述對比可知，load data效率非常高，原因在於使用的是load data infile方式，而第二種則為傳統的insert方式。

究其根源主要是MySQL內部對於load 和 insert的處理機制不同。

Load的處理機制是:在執行load之前,會關掉索引,當load全部執行完成後,再重新建立索引.

Insert的處理機制是:每插入一條則更新一次資料庫,更新一次索引.

另外,load與insert的不同還體現在load省去了sql語句解析,sql引擎處理,而是直接生成檔案資料塊,所以會比Insert快很多.

Hbase基礎（十八）：億級資料從 MySQL 到 Hbase 的三種同步方案與實踐（二）億級MySQL資料插入

原文：https://blog.csdn.net/rlnlo2pnefx9c/article/details/108288956 本節題目為：億級資料從 MySQL 到 Hbase 的三種同步方案與實踐，首先需要了解如何快速插入MySQL。

Hbase基礎（十七）：億級資料從 MySQL 到 Hbase 的三種同步方案與實踐（一）環境搭建

原文：https://blog.csdn.net/rlnlo2pnefx9c/article/details/108288956 1.導語大家好，我是光城，下面是我之前在gitchat上釋出的一個資料，今天全部開源！原始碼全部存放在本人github倉庫，地址：https://github.c

Hbase基礎（十九）：億級資料從 MySQL 到 Hbase 的三種同步方案與實踐（三）同步利器

原文：https://blog.csdn.net/rlnlo2pnefx9c/article/details/108288956 4.1 簡單粗暴Sqoop 首先來回顧一下Sqoop架構圖：

Mysql基礎（十八)：mysql效能優化（三）

Mysql效能優化三（分表、增量備份、還原）接上篇Mysql效能優化二對錶進行水平劃分

Hive基礎（十八）：hive動態分割槽

往hive分割槽表中插入資料時，如果需要建立的分割槽很多，比如以表中某個欄位進行分割槽儲存，則需要複製貼上修改很多sql去執行，效率低。因為hive是批處理系統，所以hive提供了一個動態分割槽功能，其可以基於查詢

C#資料結構與算法系列（十八）：氣泡排序演演算法（BubbleSort）

1.介紹氣泡排序的基本思想就是：通過對待排序序列從前向後（從下標較小的元素開始），依次比較相鄰元素的值，若發現逆序則交換，使值較大的元素逐漸從前移向後部，就像水底的氣泡一樣逐漸向上冒泡。

【018期】JavaSE面試題（十八）：JVM之垃圾回收

開篇介紹大家好，我是Java最全面試題庫的提褲姐，今天這篇是JavaSE系列的第十八篇，主要總結了JVM中的垃圾回收，在後續，會沿著第一篇開篇的知識線路一直總結下去，做到日更！如果我能做到百日百更，希望你也可以跟

設計模式學習筆記（十八）：直譯器模式

1 概述 1.1 引言直譯器模式是一種使用頻率較低但是學習難度較大的設計模式，用於描述如何使用面嚮物件語言構成一個簡單的語言直譯器。某些情況下可能需要自定義一個新語言，這種語言具有自己的文法規則，這時可以使

資料結構與演算法（十八）：圖

一、什麼是圖 1.概述首先，我們已經在之前學習過了樹這種資料結構，樹能反映一對多的關係，但是卻無法反映多對多的關係，因此我們引入了圖這種資料結構。

大資料實戰（十八）：電商數倉（十一）之使用者行為資料採集（十一）元件安裝（七）kafka manager

kafka-manager安裝一.kafka-manager簡介 kafka-manager是目前最受歡迎的kafka叢集管理工具，最早由雅虎開源，使用者可以在Web介面執行一些簡單的叢集管理操作。具體支援以下內容：

大資料實戰（二十五）：電商數倉（十八）之使用者行為資料採集（十八）ODS層建立

0 簡介 1 建立資料庫 1）建立gmall資料庫 hive (default)> create database gmall; 說明：如果資料庫存在且有資料，需要強制刪除時執行：drop database gmall cascade;

大資料實戰（三十九）：電商數倉（三十二）之使用者行為資料倉庫（十八）每個使用者累計訪問次數

0 每個使用者累計訪問次數結果如下使用者日期小計總計 mid1 2019-12-14 10 10 mid1 2019-02-11 12 22

ElasticSearch（十八）：解決org.elasticsearch.cluster.block.ClusterBlockException: blocked by: [FORBIDDEN/12/index read-only / allow delete (api)];

ES部署一段時間後，今天釋出內容發現後臺報錯 2020-09-16 03:02:33.530 ERROR 9 --- [nio-9080-exec-8] o.a.c.c.C.[.[.[.[dispatcherServlet] : Servlet.service() for servlet [dispatcherServlet] in context wit

Hbase基礎（十八）：億級資料從 MySQL 到 Hbase 的三種同步方案與實踐（二）億級MySQL資料插入

3.1 load data infile

3.2 Python 批量插入

3.3 Python 多執行緒插入

3.4 MySQL資料匯入方法對比

Hbase基礎（十八）：億級資料從 MySQL 到 Hbase 的三種同步方案與實踐（二）億級MySQL資料插入

Hbase基礎（十七）：億級資料從 MySQL 到 Hbase 的三種同步方案與實踐（一）環境搭建

Hbase基礎（十九）：億級資料從 MySQL 到 Hbase 的三種同步方案與實踐（三）同步利器

Mysql基礎（十八)：mysql效能優化（三）

Hive基礎（十八）：hive動態分割槽

C#資料結構與算法系列（十八）：氣泡排序演演算法（BubbleSort）

【018期】JavaSE面試題（十八）：JVM之垃圾回收

設計模式學習筆記（十八）：直譯器模式

資料結構與演算法（十八）：圖

大資料實戰（十八）：電商數倉（十一）之使用者行為資料採集（十一）元件安裝（七）kafka manager

大資料實戰（二十五）：電商數倉（十八）之使用者行為資料採集（十八）ODS層建立

大資料實戰（三十九）：電商數倉（三十二）之使用者行為資料倉庫（十八）每個使用者累計訪問次數

ElasticSearch（十八）：解決org.elasticsearch.cluster.block.ClusterBlockException: blocked by: [FORBIDDEN/12/index read-only / allow delete (api)];

leetcode演算法題基礎（十八）分治法（四）240. 搜尋二維矩陣 II

pytorch（十八）：啟用函式與GPU加速

Flink實戰（110）：flink-sql使用（十八）connector（十九）Flink Hive Connector 使用

前端基礎（十八、JS BOM）

機器學習sklearn（十八）：特徵工程（九）特徵編碼（三）類別特徵編碼（一）標籤編碼 LabelEncoder

Dubbo原始碼解析（十八）遠端通訊——Zookeeper

跟我學SpringCloud | 第十八篇：微服務 Docker 化之基礎環境

Hbase基礎（十八）：億級資料從 MySQL 到 Hbase 的三種同步方案與實踐（二）億級MySQL資料插入

3.1 load data infile

3.2 Python 批量插入

3.3 Python 多執行緒插入

3.4 MySQL資料匯入方法對比

相關推薦