1. 程式人生 > >mysql資料遷徙詳解

mysql資料遷徙詳解

資料遷徙是每個後端都會遇到的工作之一,本文介紹了一些常見的資料遷徙方法與工具

mysqldump:資料結構不變的資料遷徙

  1. 匯出資料

    mysqldump -u root -p DATABASE_NAME table_name > dump.sql
  2. 恢復資料

    mysql -u root -p DATABESE_NAME < dump.sql

    或者連線mysql客戶端

    mysql> source dump.sql

使用pymysql連線資料庫

  1. 可以直接用使用者名稱密碼連線的資料庫

    class GeneralConnector:
        def __init__(self, config, return_dic=False):
            self.return_dic = return_dic
            self.config = config
    
        def __enter__(self):
            self.conn = pymysql.connect(**self.config, port=3306)
            if self.return_dic:
                # 一行資料會變成一個字典
                self.cursor = self.conn.cursor(pymysql.cursors.DictCursor)
            else:
                self.cursor = self.conn.cursor()
            return self.cursor
    
        def __exit__(self, *args):
            self.cursor.close()
            self.conn.commit()
            self.conn.close()

    使用:

    # local_db = {
    #     'user': 'root',
    #     'passwd': '',
    #     'host': '127.0.0.1',
    #     'db': 'local_db'
    #     }
    with GeneralConnector(const.local_db, return_dic=True) as cursor:
        cursor.execute('SELECT `col1`, `col2` FROM test;')
        return cursor.fetchall()
  2. 連線處於需要SSH連線的伺服器的資料庫

    class SSHConnector:
        def __init__(self, server, config, return_dic=False):
            self.return_dic=return_dic
            self.server = server
            self.config = config
    
        def __enter__(self):
            self.conn = pymysql.connect(**self.config, port=self.server.local_bind_port)
            if self.return_dic:
                # 一行資料會變成一個字典
                self.cursor = self.conn.cursor(pymysql.cursors.DictCursor)
            else:
                self.cursor = self.conn.cursor()
            return self.cursor
    
        def __exit__(self, *args):
            self.cursor.close()
            self.conn.commit()
            self.conn.close()

    使用:

    # SERVER = SSHTunnelForwarder(
    #         (remote_host, ssh_port),
    #         ssh_username=USERNAME,
    #         ssh_pkey=SSH_KEY,
    #         ssh_private_key_password=SSH_KEY_PASSWD,
    #         remote_bind_address=('127.0.0.1', 3306) # mysql服務位置
    #     )
    # server_db = {
    #     'user': 'root',
    #     'passwd': '',
    #     'host': '127.0.0.1',
    #     'db': 'server_db'
    #     }
    # 建立一個隧道將服務端的mysql繫結到本地3306埠
    with const.SERVER as server:
        with SSHConnector(server, const.server_db) as cursor:
            cursor.execute('show tables;')
            data = cursor.fetchall()
            print(data)
    

cursor的各種操作

  1. cursor.execute(sql_statement)

    執行一條sql語句

  2. cursor.fetchall()

    獲取cursor的所有結果,常跟在select語句後使用

  3. cursor.fetchone()

    獲取cursor的第一條結果

  4. cursor.lastrowid

    最後一條資料的id

  5. cursor.executemany(insert_statement, data_list)

    批量插入一批資料,如

    with const.SERVER as server:
        with connector.Connector(server, const.db_1) as cursor:
            cursor.execute('select * from preference')
            preferences = cursor.fetchall()
    
        with connector.Connector(server, const.db_2) as cursor:
            cursor.executemany('insert into preference (`id`,`theme`,`user_id`) values (%s,%s,%s)',preferences)

從cursor獲取list型別的結果

cursor.execute('SELECT `name` FROM user;')

直接使用fetchall(),只能得到tuple包裹的資料

cursor.fetchall()
# (('Jack',), ('Ben'))

現在希望得到一個list結果集,做到像Django中flat=True那樣的效果

有兩種方法

  1. 列表解析式(list comprehension)

    name_list = [x[0] for x in cursor.fetchall()]
    這個方法的缺點在於會先使用fetchall()將結果集讀到記憶體,再做列表轉換,並不高效。
  2. itertools工具

    name_list = list(itertools.chain.from_iterable(cursor))

    推薦使用這個方式,第一它不會將所有結果fetch到記憶體中,第二使用itertools生成列表比列表解析式要快

如何在資料遷徙中使用Django的model

  1. 需要拷貝Django的settings檔案,刪掉不需要的配置,並設定好遷徙目標資料庫
  2. 需要拷貝用到此model的檔案
  3. 需要在settings.INSTALLED_APPS中引入models.py檔案所在的目錄
  4. 在遷徙指令碼頭部啟動Django

    import os
    import django
    import sys
    sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
    os.environ.setdefault("DJANGO_SETTINGS_MODULE", "translate.settings")
    django.setup()

通過SSH隧道的本地轉發實現Django連線遠端資料庫

  1. 建立一個ssh隧道,將遠端資料庫對映到本地埠

    ssh -L local_port:localhost:<remote mysql port> <username>@<remote host>

    ssh連線進行時,可以通過訪問本地埠來訪問遠端資料庫

  2. 在Django的settings中配置資料庫

    DATABASES = {
        'default': {
            'ENGINE': 'django.db.backends.mysql',
            'NAME': db_name,
            'USER': remote_mysql_user, # 遠端資料庫賬號密碼
            'PASSWORD': remote_mysql_password,
            'HOST': "localhost",
            'PORT': local_port, # 遠端資料庫對映到本地的埠
            'OPTIONS': {'init_command': 'SET default_storage_engine=INNODB;'}
            }
    }

至此,在使用Django的model時,將通過ssh隧道訪問遠端資料庫

注意事項

  1. 事先了解遷徙資料量,並且取5%~10%的資料測試遷徙速度
  2. 由測試資料預估總遷徙用時,如果總遷徙用時大於一小時,一定要把遷徙指令碼放到伺服器執行,這樣遷徙過程不易中斷,且伺服器效能遠比個人電腦更優
  3. 儘量使用批量插入減少寫資料庫的次數,使用cursor.executemany或者Django的bulk_create
  4. 遷徙過程要寫好log,這樣能夠知道資料遷徙到了哪一步,如意外終端也能找到斷點繼續執行
  5. 建立時間欄位加上auto_add_now會自動記錄資料的建立時間,在插入資料的時候對這個欄位賦值無效