Sqoop分批匯入Mysql上億條資料的表到HDFS

阿新 • • 發佈：2019-01-25

因資料量過大，執行sqoop跑不動或者卡記憶體，於是通過寫指令碼分批匯入到HDFS，然後再載入到Hive表中。
shell指令碼如下：

#!/bin/bash
source /etc/profile

host=127.0.0.1

for((i=1; i<=100; i++))
do   
    start=$(((${i} - 1) * 100000 + 1))
    end=$((${i} * 100000))

    sql="select person_id,capture_time,write_time,capture_resource_id,major_capture_image_url,minor_capture_image_url,sex,age,orientation,glasses,knapsack, bag,messenger_bag,shoulder_bag,umbrella,hair,hat,mask,upper_color,upper_type,upper_texture,bottom_color,bottom_type,trolley_case,barrow,baby,feature_type,feature_code from big_data.pedestrian_sm where person_id>=${start} 
 and person_id<=${end} and \$CONDITIONS";  

    sqoop import --connect jdbc:mysql://${host}:3306/big_data \
    --username root \
    --password 123456 \
    --query "${sql}" \
    --fields-terminated-by '\001' \
    --delete-target-dir \
    --target-dir hdfs://hsmaster:9000/tmp/big_data/pedestrian_sm/${start} 
-${end}/ \
    --split-by person_id \
    -m 8

    echo Sqoop import from: ${start} to: ${end} success....................................


    hive -e "
        use big_data;
        load data inpath 'hdfs://master:9000/tmp/big_data/pedestrian_sm/${start}-${end}' into table big_data.pedestrian_sm;
    "

    echo 
 Hive load from: ${start}-${end} success....................................

done

Sqoop分批匯入Mysql上億條資料的表到HDFS

因資料量過大，執行sqoop跑不動或者卡記憶體，於是通過寫指令碼分批匯入到HDFS，然後再載入到Hive表中。 shell指令碼如下： #!/bin/bash source /etc/profi

使用hbase來解決上億條資料的準實時響應

使用hbase來解決億級資料的準實時響應專案中的app行為日誌，使用者授權收集的通訊錄、通話記錄、簡訊和聯絡人資訊，隨著時間的推進，資料量進入億資料級，千萬級的建立索引，來加快查詢速度的優化方式，此時可能已經不起作用了。為解決信審階段實時的查詢請求，引入hbase來解決響應

【資料庫】load data infile上億條的海量資料匯入mysql的那些事

因為做股票金融的，每天產生的資料量是很大的，一個月幾十億的交易記錄，也常有出現，特別是今年大跌之前大漲那會。作為程式設計師，問題來了，有時需要將一些並不是特別符合規範的csv檔案匯入資料庫中，而且每個檔案有十幾萬行，而這樣的檔案幾萬個，於是幾十億的記錄如何匯入資料庫呢？

我分析了上億條“絕地求生”比賽資料，找到了最強“吃雞”攻略！

最近迷上了吃雞，整天捧著手機戰戰兢兢，一會兒激動地起飛、一會兒手抖的歷害。在嚐到了落地 3 分鐘就被斃、跑不過毒倒在半路上失血致死、站在草叢中被不明方向的子彈狙擊而亡、出門舔箱被豬隊友當作敵人幹掉等 100 種死法之後，我突發奇想：我做資料分析的，怎麼就不能給自己弄個獨家吃雞攻略呢？！

java 使用jdbc向mysql資料庫中插入1億條資料

<span style="font-size:14px;"><span style="font-size:14px;">package com.ddx.zhang; import java.sql.SQLException; import java

我們如何用Cassandra每天儲存上億條線上資料

譯者注：Discord 是一款國外的類似 YY 的語音聊天軟體。 Discord 語音聊天軟體及我們的 UGC 內容的增長速度比想象中要快得多。隨著越來越多使用者的加入，帶來了更多聊天訊息。 2016 年 7 月，每天大約有 4 千萬條訊息； 2016 年 12 月，每天超過億條。當寫這篇文章

Java+MySQL:插入一條資料並刪除上一條

大致過程:1.向資料庫中插入一條資料,並獲取新增資料的id-currentId2.找到id為 (currentId-1) 的資料,如果存在則將它刪除,如果不存在繼續將id減一,知道能夠刪除一條資料package jdbc; import java.sql.Connectio

Discord 公司如何使用 Cassandra 儲存上億條線上資料

Discord 是一款國外的類似 YY 的語音聊天軟體。Discord 語音聊天軟體及我們的 UGC 內容的增長速度比想象中要快得

騰訊守護者計劃協助警方再破上億條個人資訊被黑客售賣案

9 月 18 日，在騰訊守護者計劃安全團隊的協助下，深圳警方破獲了一宗侵犯公民個人資訊案。警方通過大資料分析等技術手段，鎖定並抓獲了犯罪嫌疑人肖某軒，繳獲多種作案工具，其私自搭建的資料庫中非法儲存了上億條公民個人資訊。　手法隱蔽難追蹤黑客獲取隱私資訊上億條　　在網際網路時代，個人資訊的安全

mysql如何查詢某個資料表中時間最新的多條資料

通過t_test表的time欄位來比較。 SELECT a.* FROM t_test a WHERE NOT EXISTS(SELECT 1 FROM t_test b WHERE b.tim

net.sz.framework 框架 ORM 消消樂超過億條資料排行榜分析天王蓋地虎

序言天王蓋地虎，老婆馬上生孩子了，在家待產，老婆喜歡玩消消樂類似的休閒遊戲，閒置狀態，無聊的分析一下消消樂遊戲的一些技術問題；由於我主要是伺服器研發，客戶端屬於半吊子，所以就分析一下消消樂排行榜問題；第一章消消樂排行榜大致分為好友排行榜和全國排行榜；好友排行榜和全國排行榜的其實是重合的只是需要

JAVA向Mysql插入億級別資料---測評

利用JAVA向Mysql插入一億數量級資料—效率測評前景：這幾天研究mysql優化中查詢效率時，發現測試的資料太少（10萬級別），利用 EXPLAIN 比較不同的 SQL 語句，不能夠得到比較有效的測評資料，大多模稜兩可，不敢通過這些資料下

Mysql將多條資料的某個欄位合併

sql語句將多條資料的某個欄位的多條資料合併為一個欄位場景：簡歷標籤表中一條簡歷有多個標籤，將簡歷的多條標籤合併為一個欄位使用sql的GROUP_CONCAT() 實現合併 SELECT GROUP_CONCAT(tag_code) AS tag_code,fk_resume

如何實現上億級資料的精準計數？

文章內容背景關係型資料庫在執行計數任務時，其執行效率會隨著資料量級的增長而降低；當資料量達到億級別時，計數任務的執行效率已經低到令人不忍直視。在閒魚團隊的關係系統中，我們採用了這樣一種方式來實現億級別資料的毫秒級計數。挑戰閒魚現有的業務場景中，使用者收藏寶貝、關注他人的資料量

使用Sqoop實現RDS MySQL到Redshift的資料同步

希臘有一個著名的谷堆悖論。“如果１粒穀子落地不能形成谷堆，２粒穀子落地不能形成谷堆，３粒穀子落地也不能形成谷堆，依此類推，無論多少粒穀子落地都不能形成谷堆。但是，事實並非如此。” 這個悖論說的，就是告訴我們量變產生質變，需要一個明顯的分割線。如果說，量是一個量化的資料，質是一個結論的話。那麼

有一個擁有1億條資料的表，只需要保留其中的5條，其他刪除，如何做？

DELETE語句可以通過WHERE對要刪除的記錄進行選擇。而使用TRUNCATE TABLE將刪除表中的所有記錄。因此，DELETE語句更靈活。如果DELETE不加WHERE子句， DELETE可以返回被刪除的記錄數，而TRUNCATE TABLE返回的是0。如果一個表中有自增欄位，使用TRUNCATE T

上億個資料儲存在硬碟中，找出最大的N個。

（1）先選N個元素組成一個小根堆，然後遍歷剩下的資料，如果第i個元素M大於小根堆的根結點，就刪除這個根結點，並將元素M插入這個小根椎，最後，小根堆中的元素就是最大的N個元素。（2）只要開闢一個稍微大一點的緩衝區存放大於某選定值的資料即可，當緩衝滿時,重新整理選定值為緩衝區

2018上半年約26億條資料洩露

網路威脅情報公司Risk Based Security的一份報告顯示，在2018年上半年，2308起資料洩露事件被公開披露，約26億條使用者記錄被曝光。據該公司的“2018年中資料洩露QuickView”報告資料，我們可以看到與2017年上半年報告的2439起資料洩露事件

一億條資料的排序處理

假設場景：某大型網站，活躍使用者上億個。（當然不是指同時線上人數，這裡指的是再一段時間內有訪問操作的使用者數量，比如一個小時內）。現在要每隔1小時，統計一次活躍使用者排行榜（使用者點選本網站的一個連線，活躍度就加1，按活躍度進行排名）。首先，在此場景下，解決此問題不

mysql 插入多條資料如何使用INSERT插入多條記錄

看到這個標題也許大家會問，這有什麼好說的，呼叫多次INSERT語句不就可以插入多條記錄了嗎！但使用這種方法要增加伺服器的負荷，因為，執行每一次 SQL伺服器都要同樣對SQL進行分析、優化等操作。幸好M

Sqoop分批匯入Mysql上億條資料的表到HDFS

相關推薦