mysql資料遷徙詳解
阿新 • • 發佈:2019-11-04
資料遷徙是每個後端都會遇到的工作之一,本文介紹了一些常見的資料遷徙方法與工具
mysqldump:資料結構不變的資料遷徙
匯出資料
mysqldump -u root -p DATABASE_NAME table_name > dump.sql
恢復資料
mysql -u root -p DATABESE_NAME < dump.sql
或者連線mysql客戶端
mysql> source dump.sql
使用pymysql連線資料庫
可以直接用使用者名稱密碼連線的資料庫
class GeneralConnector: def __init__(self, config, return_dic=False): self.return_dic = return_dic self.config = config def __enter__(self): self.conn = pymysql.connect(**self.config, port=3306) if self.return_dic: # 一行資料會變成一個字典 self.cursor = self.conn.cursor(pymysql.cursors.DictCursor) else: self.cursor = self.conn.cursor() return self.cursor def __exit__(self, *args): self.cursor.close() self.conn.commit() self.conn.close()
使用:
# local_db = { # 'user': 'root', # 'passwd': '', # 'host': '127.0.0.1', # 'db': 'local_db' # } with GeneralConnector(const.local_db, return_dic=True) as cursor: cursor.execute('SELECT `col1`, `col2` FROM test;') return cursor.fetchall()
連線處於需要SSH連線的伺服器的資料庫
class SSHConnector: def __init__(self, server, config, return_dic=False): self.return_dic=return_dic self.server = server self.config = config def __enter__(self): self.conn = pymysql.connect(**self.config, port=self.server.local_bind_port) if self.return_dic: # 一行資料會變成一個字典 self.cursor = self.conn.cursor(pymysql.cursors.DictCursor) else: self.cursor = self.conn.cursor() return self.cursor def __exit__(self, *args): self.cursor.close() self.conn.commit() self.conn.close()
使用:
# SERVER = SSHTunnelForwarder( # (remote_host, ssh_port), # ssh_username=USERNAME, # ssh_pkey=SSH_KEY, # ssh_private_key_password=SSH_KEY_PASSWD, # remote_bind_address=('127.0.0.1', 3306) # mysql服務位置 # ) # server_db = { # 'user': 'root', # 'passwd': '', # 'host': '127.0.0.1', # 'db': 'server_db' # } # 建立一個隧道將服務端的mysql繫結到本地3306埠 with const.SERVER as server: with SSHConnector(server, const.server_db) as cursor: cursor.execute('show tables;') data = cursor.fetchall() print(data)
cursor的各種操作
cursor.execute(sql_statement)
執行一條sql語句
cursor.fetchall()
獲取cursor的所有結果,常跟在select語句後使用
cursor.fetchone()
獲取cursor的第一條結果
cursor.lastrowid
最後一條資料的id
cursor.executemany(insert_statement, data_list)
批量插入一批資料,如
with const.SERVER as server: with connector.Connector(server, const.db_1) as cursor: cursor.execute('select * from preference') preferences = cursor.fetchall() with connector.Connector(server, const.db_2) as cursor: cursor.executemany('insert into preference (`id`,`theme`,`user_id`) values (%s,%s,%s)',preferences)
從cursor獲取list型別的結果
cursor.execute('SELECT `name` FROM user;')
直接使用fetchall(),只能得到tuple包裹的資料
cursor.fetchall()
# (('Jack',), ('Ben'))
現在希望得到一個list結果集,做到像Django中flat=True那樣的效果
有兩種方法
列表解析式(list comprehension)
這個方法的缺點在於會先使用fetchall()將結果集讀到記憶體,再做列表轉換,並不高效。name_list = [x[0] for x in cursor.fetchall()]
itertools工具
name_list = list(itertools.chain.from_iterable(cursor))
推薦使用這個方式,第一它不會將所有結果fetch到記憶體中,第二使用itertools生成列表比列表解析式要快
如何在資料遷徙中使用Django的model
- 需要拷貝Django的settings檔案,刪掉不需要的配置,並設定好遷徙目標資料庫
- 需要拷貝用到此model的檔案
- 需要在settings.INSTALLED_APPS中引入models.py檔案所在的目錄
在遷徙指令碼頭部啟動Django
import os import django import sys sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__)))) os.environ.setdefault("DJANGO_SETTINGS_MODULE", "translate.settings") django.setup()
通過SSH隧道的本地轉發實現Django連線遠端資料庫
建立一個ssh隧道,將遠端資料庫對映到本地埠
ssh -L local_port:localhost:<remote mysql port> <username>@<remote host>
ssh連線進行時,可以通過訪問本地埠來訪問遠端資料庫
在Django的settings中配置資料庫
DATABASES = { 'default': { 'ENGINE': 'django.db.backends.mysql', 'NAME': db_name, 'USER': remote_mysql_user, # 遠端資料庫賬號密碼 'PASSWORD': remote_mysql_password, 'HOST': "localhost", 'PORT': local_port, # 遠端資料庫對映到本地的埠 'OPTIONS': {'init_command': 'SET default_storage_engine=INNODB;'} } }
至此,在使用Django的model時,將通過ssh隧道訪問遠端資料庫
注意事項
- 事先了解遷徙資料量,並且取5%~10%的資料測試遷徙速度
- 由測試資料預估總遷徙用時,如果總遷徙用時大於一小時,一定要把遷徙指令碼放到伺服器執行,這樣遷徙過程不易中斷,且伺服器效能遠比個人電腦更優
- 儘量使用批量插入減少寫資料庫的次數,使用cursor.executemany或者Django的bulk_create
- 遷徙過程要寫好log,這樣能夠知道資料遷徙到了哪一步,如意外終端也能找到斷點繼續執行
- 建立時間欄位加上auto_add_now會自動記錄資料的建立時間,在插入資料的時候對這個欄位賦值無效