關於百萬級資料轉存令人崩潰的操作

阿新 • • 發佈：2019-01-16

這兩天接到一個任務，大概目標是要將現有的客戶提供的資料（Access資料庫）全部轉存到我們本地的mysql中，然後後期寫一個定期檢查原表是否更新，如果更新，則更新本地資料庫。

我一開始寫了一個小的程式碼，是利用陣列的方式，先把Aceess某一個目標表中的每一列都用list[]陣列讀出來，又N個列就newN個數組來存，然後用for迴圈，把數組裡每一列的資料寫入mysql中對應的表中的列，思路是這樣，效率不高，但是能實現，有一個目標表大概只有5000多條資料，我用這個程式碼，大概10秒鐘左右完成所有的讀和寫入操作。

具體程式碼：

string connstr = ConfigurationManager.AppSettings["connectionstring"];
            OleDbConnection conn = new OleDbConnection(connstr);
            conn.Open();
            Console.WriteLine("開啟資料庫成功");
            string sql = "select * from lwmain";
            OleDbCommand cmd = new OleDbCommand(sql, conn);
            OleDbDataReader reader = cmd.ExecuteReader();
            ArrayList listid = new ArrayList();
            ArrayList listnumberId = new ArrayList();
            ArrayList listperson = new ArrayList();
            ArrayList listlocation = new ArrayList();
            ArrayList listpartoltime = new ArrayList();
            ArrayList listnameAttrib = new ArrayList();
            ArrayList listitemname = new ArrayList();
            ArrayList listitemvalue = new ArrayList();
            ArrayList listnumber = new ArrayList();
            ArrayList listplantime = new ArrayList();
            ArrayList listequipment = new ArrayList();
            while (reader.Read())
            {
                listid.Add(reader["ID"].ToString());
                listnumberId.Add(reader["nh"].ToString());
                listperson.Add(reader["ry"].ToString());
                listlocation.Add(reader["dd"].ToString());
                listpartoltime.Add(reader["xjsj"].ToString());
                listnameAttrib.Add(reader["bhsx"].ToString());
                listitemname.Add(reader["sj"].ToString());
                listitemvalue.Add(reader["sjsz"].ToString());
                listnumber.Add(reader["bh"].ToString());
                listplantime.Add(reader["jhmc"].ToString());
                listequipment.Add(reader["sblb"].ToString());
            }
            Console.WriteLine("讀出並存儲陣列完畢。");
            conn.Close();
            string mysqlstr = ConfigurationManager.AppSettings["constr"];
            MySqlConnection mysqlconn = new MySqlConnection(mysqlstr);
            mysqlconn.Open();
            for (int i = 0; i < listid.Count; i++)
            {
                string sqlInsert = String.Format("INSERT INTO patrol_records(id,numberId,person,location,patrol_time,numAtrrib,item_name,item_value,number,plan_name,equipment)" +
                                                "VALUES "+
                                                 "({0},'{1}','{2}','{3}','{4}','{5}','{6}','{7}','{8}','{9}','{10}');", listid[i], listnumberId[i], listperson[i], listlocation[i], listpartoltime[i], listnameAttrib[i], listitemname[i], listitemvalue[i], listnumber[i], listplantime[i],listequipment[i]);
                //Console.WriteLine(sqlInsert);
                MySqlCommand cmdInsert = new MySqlCommand(sqlInsert, mysqlconn);
                cmdInsert.ExecuteNonQuery();                
            }
            Console.WriteLine("資料插入完畢");
            Console.ReadLine();

程式碼也很簡單，利用陣列先讀再寫，沒有進行優化。

但是在處理另外一個主要表，這個表的行數達到110萬餘條，如果用我這個程式碼，而且不修改的話，最少，3個小時，而且不能終端，否則就主鍵重複，可怕。Teamleader給的意見是，先介面匯入那個表的全部內容，然後更新的部分再來寫程式碼，不然效率太低，我一想也是哦，反正這些已經有的資料都是死的，Access原資料也是隻會發生Add操作而已。

基本思路就是Access->Excel->mysql

首先就是把Access資料庫裡的那張百萬級的錶轉存到excel裡面，這裡注意，傳統的Office Excel裡的單個Sheet只能存65535條資料，2007以上版本可以存到100萬多一點的量，所以注意要選07以上版本，字尾是xlsx的，不是xls。

這是匯出介面，注意，如果你勾選了第一項，匯出資料時包含格式和佈局，那麼你就算是07版本以上的office也依舊只能存65535條，遠遠不夠100萬。成功匯出到excel檔案之後，再匯入到mysql裡面。

因為本地mysql對應表的要求是所有欄位名都要改，按照公司規定的命名方式，資料型別不改，改完之後進行匯入資料，從excel裡面導。

匯入的時候，記得將excel檔案處於開啟狀態，要不然再navicat裡面是打不開excel的，在選擇了對應檔案，把欄位都一個一個對應之後就可以進行匯入了，但是，我悲劇的發現，一次還是隻能匯入65535條資料，excel檔案裡是有一百多萬條資料的，但是匯入mysql的時候，又變成了65535這個神奇的數量級。然後我就上網查，很多方法我都試過了，什麼改成csv格式，改成txt格式，用load import語句等等。

csv格式改完之後，原資料出現了問題，比如000000FF876F,這種型別的資料，如果是00000012314234這種不帶字元只有純數字的，那前面的0就沒了，就變成了12314234，這不符合要求，而且，在匯入的時候，就算我開著csv檔案，在navicat裡也打不開。

TXT方法，匯入之後有3好些個欄位直接亂碼，匯入倒是匯入了100多萬條，浪費我10多分鐘。

剛才在等待txt的時候，以為終於匯入成功了，終於有100多萬條了，就在匯入的等待時間來寫篇部落格吐槽一下，結果部落格還沒寫完，看了一眼亂碼資料，腦殼疼，今天完不成這個事不回家。

我目前懷疑是excel和navicat的操作位數不同，可能一個是64位一個是32位，能解釋為啥我每次直接讀excel都是65535條，明明excel裡有100多萬

2018/1/17 16:30更新

直接從Aceess裡面把表匯出成txt,用逗號分隔欄位，不再帶出成excel，然後在mysql裡找txt來匯入，注意分隔欄位符號選擇逗號，欄位對應之後開始匯入。

失敗，出現亂碼。

2018/1/17 17:20更新

匯入的時候編碼從“utf-8”改成GB2312(simplified chinese ),將mysql資料庫表和txt檔案編碼一致化

成功

上圖是mysql新增完後的，總共1199750條資料，全部寫入mysql

上圖是Access中的源資料，共1199750條，一條不差。

關於百萬級資料轉存令人崩潰的操作

關於百萬級資料轉存令人崩潰的操作

Java 輸入一行以空格分隔字元作為輸入資料轉存為陣列形式並輸出

SQL Server 百萬級資料提高查詢速度的方法

php - 從資料庫匯出百萬級資料(CSV檔案)

sqlserver百萬級資料高效能分頁

百萬級資料下的mysql深度解析

Python指令碼：將Redis資料轉存到Mysql列表中

poi實現百萬級資料匯出

POI匯出時寫一份到ftp伺服器，一份下載給客戶端 ftp伺服器搭建(離線安裝vsftpd)，配置 poi實現百萬級資料匯出 oi實現百萬級資料匯出

百萬級資料多表同步

Flume將 kafka 中的資料轉存到 HDFS 中

解決mongod百萬級資料去重

PHP百萬級資料匯出csv格式OR文字格式

如何在不停機的情況下，完成百萬級資料跨表遷移？

如何在不停機的情況下，完成百萬級資料跨表遷移

微博爬蟲，每日百萬級資料

百萬級資料導致查詢緩慢的問題解決方式-給SQL 新增索引

java實現如何將百萬級資料高效的匯出到Excel表單

Access資料庫資料轉存到MySql資料庫中

oracle 海量資料轉存插入分割槽表

關於百萬級資料轉存令人崩潰的操作

相關推薦