1. 程式人生 > 資料庫 >一文帶你用 SQL 征服數學建模資料處理

一文帶你用 SQL 征服數學建模資料處理

一文帶你領略 SQL 的強大

1. SQL 簡介

SQL (Structured Query Language:結構化查詢語言) 是用於用於管理關係資料庫管理系統(RDBMS)。 SQL 的範圍包括資料插入、查詢、更新和刪除,資料庫模式建立和修改,以及資料訪問控制。

2.優勢

​ SQL 面向資料庫進行 增刪查改,在我們沒有接觸資料庫的時候,如果要對資料進行處理,一般會用到 for 迴圈進行遍歷。比如,我們有一個結構體陣列(下文稱為表),裡面包含著名字,年齡和性別。如果我們要把性別為女的同學查找出來,我們需要使用 for 迴圈一遍,訪問每一個結構體中的性別,進行甄別。這種方法對於幾百幾千條資料來說耗費時間看似沒有差別,但如果是幾十萬,幾百萬條資料,時間的耗費則越來越重。

​ 再者,如果存在另外一個表,裡面記錄著每一同學每次考試的成績,我們現在需要將兩個表進行合併,成為一條包含著名字,性別,年齡以及成績(假設名字唯一)的資料,這時我們就需要使用兩個 for 迴圈來處理,並構造新的結構體來進行儲存,即便其他語言比如 Python 等 不需要構造結構體,但兩層的 for 迴圈帶來的時間耗費的提高也是不容小覷的,更何況會存在更多層 for 迴圈的情形

​ 筆者曾參加過 2020年 的數模國賽,選擇的就是大資料問題,說實話,當時沒有用到過資料庫,用的雖然是 Python 但 處理資料的時候,使用了許多 for 迴圈,耗費了許多時間,只水了個省二。貼一下當時處理處理資料的一小部分程式碼,可以看出,不僅資料量大而且處理邏輯複雜,還很容易出錯。比賽完之後就覺得如果使用資料庫來進行處理,定會有奇效的。果然,幾分鐘 for 才得到的資料 SQL 一兩秒秒了。所以筆者很推薦準備參加數學建模並且選擇大資料題目的同學,加強一下資料庫的學習以及練習。

# Dep_In_Profit 企業進貨稅價和
# Dep_In_Price  企業進貨價格和
# Dep_In_Rex  企業進貨稅收和
# Dep_In_Tic_T 企業進貨有效發票
# Dep_In_Tic_T_R 負數票據
# Dep_In_Tic_T_S 正數票據
# Dep_In_Tic_F 企業進貨無效發票
Dep_In_Profit_M = np.zeros(302)
Dep_In_Price_M = np.zeros(302)
Dep_In_Rex_M  = np.zeros(302)
Dep_In_Profit_N = np.zeros(302)
Dep_In_Price_N = np.zeros(302)
Dep_In_Rex_N  = np.zeros(302)
Dep_In_Tic_T = np.zeros(302)
Dep_In_Tic_F = np.zeros(302)
Dep_In_Tic_T_R = np.zeros(302)
Dep_In_Tic_T_S = np.zeros(302)
for i in range(0,395175):
    if In_items.iloc[i,9] == 1:
        Dep_In_Tic_T[In_items.iloc[i, 8]-124] = Dep_In_Tic_T[In_items.iloc[i, 8]-124] + 1
        if In_items.iloc[i, 6] < 0:
            Dep_In_Profit_N[In_items.iloc[i, 8]-124] = Dep_In_Profit_N[In_items.iloc[i, 8]-124] + In_items.iloc[i, 6]
            Dep_In_Price_N[In_items.iloc[i, 8]-124] = Dep_In_Price_N[In_items.iloc[i, 8]-124] + In_items.iloc[i, 4]
            Dep_In_Rex_N[In_items.iloc[i, 8]-124] = Dep_In_Rex_N[In_items.iloc[i, 8]-124] + In_items.iloc[i, 5]
            Dep_In_Tic_T_R[In_items.iloc[i, 8]-124] = Dep_In_Tic_T_R[In_items.iloc[i, 8]-124] + 1
        else:   
            Dep_In_Profit_M[In_items.iloc[i, 8]-124] = Dep_In_Profit_M[In_items.iloc[i, 8]-124] + In_items.iloc[i, 6]
            Dep_In_Price_M[In_items.iloc[i, 8]-124] = Dep_In_Price_M[In_items.iloc[i, 8]-124] + In_items.iloc[i, 4]
            Dep_In_Rex_M[In_items.iloc[i, 8]-124] = Dep_In_Rex_M[In_items.iloc[i, 8]-124] + In_items.iloc[i, 5]
            Dep_In_Tic_T_S[In_items.iloc[i, 8]-124] = Dep_In_Tic_T_S[In_items.iloc[i, 8]-124] + 1
    else:
        Dep_In_Tic_F[In_items.iloc[i, 8]-124] = Dep_In_Tic_F[In_items.iloc[i, 8]-124] + 1

3.用武之處

​ 首先是數學建模以及大資料處理方面的應用,當然這方面的應用是 SQL 相較於一般處理方法的優勢所在,並且在處理多表級聯關係時,SQL 顯得更加簡潔,for 迴圈或其他一般方式顯得更加複雜以及更容易出錯。

​ 其次在應用開發時,無論是 web 應用還是移動端 ,資料庫肯定是需要的,用於前後端資料的聯絡,雖然平時並不會設計很大的資料量,但熟悉 SQL 的基本增刪改查也是很有必要噠。

4.入門

1. 增
1.1 增加資料庫
create database learn; # learn 為資料庫的名稱 
use learn; # 使用此資料庫
set names utf8; # 設定編碼
1.2 增加表
CREATE TABLE Persons # 括號裡包含著每一個鍵的名稱以及資料型別用逗號隔開
(
    PersonID  int,
    LastName  varchar(255),
    FirstName varchar(255),
    Address   varchar(255),
    City      varchar(255)
    # 可在定義之後加上一些約束,之後會提到
);
1.3 增加表中的資料
1.3.1 插入整條資料
insert into Persons # 插入整條資料的時候要與表中的鍵一一對應 
values (1, 'mary', 'Smith', '127.0.0.1', 'Beijing');
insert into Persons
values (3, 'mar', 'Smith', '127.0.4.1', 'Beijing');
insert into Persons
values (4, 'max', 'Smith', '127.0.6.1', 'Tianjin');
insert into Persons
values (5, 'mute', 'Rio', '127.0.6.1', 're');
insert into Persons
values (6, 'mate', 'Linda', '127.1.6.1', 'Tianjin');
insert into Persons
values (2, 'mario', 'Smith', '127.1.0.1', 'Nanjing');
1.3.2 插入指定鍵的資料
INSERT INTO Persons (PersonID,LastName,City) # 括號中的便是 表中的鍵 下面插入的 value 需要與之對應
VALUES ('mirry','Smith','Hangzhou');
2. 刪
2.1 刪除資料庫
drop database learn; # 刪庫需謹慎
2.2 刪除表
drop TABLE website; # 刪除表
TRUNCATE TABLE table_name # 刪除表的資料,表本身存在
2.3 刪除索引
ALTER TABLE table_name DROP INDEX index_name; # 適用於MySQL 
DROP INDEX index_name; # 適用於 DB2/Oracle
DROP INDEX table_name.index_name; # 適用於 MS SQL Server
3. 改
3.1 表中增加列
ALTER TABLE table_name 				# 需要指定 表的名稱,列的名稱 以及 資料型別
ADD column_name datatype

alter table ts
add sex nvarchar(10);
3.2 表中刪除列
ALTER TABLE table_name         		# 需要指定 表的名稱,列的名稱
DROP COLUMN column_name

alter table ts
drop column sex;
3.3 表中修改列的資料型別
# SQL Server / MS Access 適用
ALTER TABLE table_name         		# 需要指定 表的名稱,列的名稱,列要修改成的資料型別	
ALTER COLUMN column_name datatype

# My SQL / Oracle 適用
ALTER TABLE table_name				# 需要指定 表的名稱,列的名稱,列要修改成的資料型別	
MODIFY COLUMN column_name datatype

alter table ts
modify column sex nvarchar(100);
4. 查
4.1 查詢所有記錄
select * 				# * 便是指代所有鍵
from Persons;
4.2 查詢指定行的記錄
# 先指定資料庫
use learn;
select PersonID,City from Persons;
# 直接訪問
select PersonID,City from learn.Persons;
4.3 查詢資料庫
show databases;
4.4 查詢資料庫中表的名稱
show tables;
5. 主鍵,外來鍵,UNIQUE 約束

​ 主鍵是約束標識表中每一條記錄的,就相當於我們的身份證,不能為 NULL , 也不能重複,在插入資料的時候必須為之指定,每一個表都有且僅有一個主鍵。

create table ts(
    id int,
    name varchar(25),
    primary key (id) # 指定主鍵 
);

​ 外來鍵是一個表指向另一個表中的 UNIQUE KEY(唯一約束的鍵),假設有 每個班任課老師的表 和 每個教職工的表 這兩張表。

班級任課老師表

任課老師教職工號(外來鍵)老師班級
03C二班
01A一班
03C三班
02B四班

教職工表

老師教職工號(主鍵)
C03
B02
A01

​ 班級任課老師表中的 任課老師教職工號 指向 教職工表的教職工號。

​ 因此,教職工號作為 教職工的主鍵(PRIMARY KEY),任課老師教職工號 作為 班級任課老師表 的 外來鍵(FOREIGN KEY)。

# 適用於 MySQL
CREATE TABLE TS
(
    id int NOT NULL,
    name varchar(25),
    P_Id int,
    primary key (id), # 指定主鍵 
    FOREIGN KEY (P_Id) REFERENCES TES(P_Id)
)
# 適用於SQL Server / Oracle / MS Access
CREATE TABLE TS
(
	id int NOT NULL PRIMARY KEY,
    name varchar(25),
    P_Id int NOT NULL FOREIGN KEY REFERENCES TES(P_Id)
)

​ UNIQUE 約束唯一標識資料庫表中的每條記錄,和主鍵不同,表中允許多個UNIQUE 約束出現,PRIMARY KEY 約束擁有自動定義的 UNIQUE 約束,這地方在處理資料的時候用到的時候沒有太多,就當瞭解一下。

​ 約束的建立

create table ts(
    id int NOT NULL,
    name varchar(25),
    UNIQUE (id) # UNIQUE 約束
);
或者
create table ts(
    id int NOT NULL UNIQUE,# UNIQUE 約束
    name varchar(25)
);

​ 約束的刪除

# MySQL
ALTER TABLE ts
DROP INDEX id

# SQL Server / Oracle / MS Access
ALTER TABLE Persons
DROP CONSTRAINT id

5.進階

1. 操作符
1.1 WHERE(無法與聚合函式一起使用)

​ 之前舉的一個查詢為女生的同學的例子,傳統方法為 for 迴圈,這樣耗時耗力,使用 where 我們可以很簡單的秒了

# 基本語法
SELECT column_name,column_name   # 需要查詢的列
FROM table_name
WHERE column_name operator value;   # 這裡為一些條件語句,接下來會提及
1.2 IN

​ 當我們需要查詢某一鍵符合多個值的時候,這個便派上了用場

create table grade(
    name nchar(10),
    grade int
);
insert into grade values ('a', 100);
insert into grade values ('b', 100);
insert into grade values ('c', 90);
insert into grade values ('a', 100);
insert into grade values ('b', 95);
insert into grade values ('c', 93);

# 基本語法
SELECT column_name(s)
FROM table_name
WHERE column_name IN (value1,value2,...);
# 查詢名字是a,b,c中間一人的資料
select * from grade
where name in ('a','b','c');  # 括號裡的元素要與鍵的資料型別相同
# 查詢成績是 90 93 100 之間的同學資料
select * from grade
where grade in (90, 93 ,100);
1.3 BETWEEN

​ 我們需要查詢某一鍵符合在某一範圍時,這個便派上了用場

# 基本語法
SELECT column_name(s)
FROM table_name
WHERE column_name BETWEEN value1 AND value2;

select * from grade
where grade between 95 and 100;
1.4 LIKE

​ LIKE 操作符用於在 WHERE 子句中搜索列中的指定模式,主要就是匹配模式的書寫,可能會涉及到正則表示式,下面給出 菜鳥課程 總結的萬用字元,對正則不熟悉的同學可參考我的另外一篇博文。

萬用字元匹配物件
%替代 0 個或多個字元
_替代一個字元
[charlist]字元列中的任何單一字元
[^charlist] 或 [!charlist]不在字元列中的任何單一字元

​ MySQL 中使用 REGEXPNOT REGEXP 運算子 (或 RLIKE 和 NOT RLIKE) 來操作正則表示式

# 查詢以 c或d或e開頭的同學名字的資料
select * from grade
where name REGEXP '^[cde]';

# 查詢以 c到e字母開頭的同學名字的資料
select * from grade
where name REGEXP '^[c-e]';

# 查詢 不以 c到e字母開頭的同學名字的資料
select * from grade
where name REGEXP '^[^c-e]';

# 查詢一個字母的同學名字的資料
select * from grade
where name like '_';
2. SELECT DISTINCT

​ 以上面 班級任課老師表 為例,如果我們想要任課老師的教職工號,我們可以用 select 來只對 任課老師教職工號 進行選擇,但查詢的結果會有重複,C 的教職工號出現兩次,我們可以使用 SELECT DISTINCT 進行查詢而不會出現重複的情況。一個重要的特點就是每一條查詢結果都各不相同。

# 查詢參加考試的同學
select distinct name
from grade;

# 查詢考試分數的種類
select distinct grade
from grade;

# 查詢學生及其分數的種類
select distinct grade,name
from grade;
3. JOIN

​ join 用於將多個表聯絡在一起,大致可分為四種join方法

join 型別描述
INNER JOIN如果表中有至少一個匹配,則返回行
LEFT JOIN即使右表中沒有匹配,也從左表返回所有的行
RIGHT JOIN即使左表中沒有匹配,也從右表返回所有的行
FULL JOIN只要其中一個表中存在匹配,則返回行

create table TeaNo(
    name varchar(5) NOT NULL,
    Tno varchar(5) NOT NULL ,
    sex varchar(5) NOT NULL ,
    PRIMARY KEY (Tno)
);
create table Teach(
    Tno varchar(5) NOT NULL ,
    Teacher varchar(2) NOT NULL ,
    Class varchar(3) NOT NULL ,
    FOREIGN KEY (Tno) references TeaNo(Tno)

);

insert into TeaNo values ('C','03','男');
insert into TeaNo values ('B','02','男');
insert into TeaNo values ('A','01','女');
insert into TeaNo values ('D','04','女');

insert into Teach values ('03', 'C', '二班');
insert into Teach values ('01', 'A', '一班');
insert into Teach values ('03', 'C', '三班');
insert into Teach values ('03', 'B', '四班');

# inner join

select TeaNo.name,TeaNo.sex,Teach.Class
from TeaNo inner join Teach
on TeaNo.Tno = Teach.Tno;
# A,女,一班
# C,男,二班
# C,男,三班
# C,男,四班

# LEFT JOIN  B 和 D 老師都在右邊找不到對應的資訊但仍返回左邊一行,空缺地方為NULL

select TeaNo.name,TeaNo.sex,Teach.Class
from TeaNo left outer join Teach
on TeaNo.Tno = Teach.Tno;
# A,女,一班
# B,男,
# C,男,二班
# C,男,三班
# C,男,四班
# D,女,

# Right JOIN
select TeaNo.name,TeaNo.sex,Teach.Class
from TeaNo right outer join Teach
on TeaNo.Tno = Teach.Tno;
# C,男,二班
# A,女,一班
# C,男,三班
# C,男,四班

# FULL JOIN 似乎語法並不支援
4. 別名

​ 在進行查詢時,可以通過建立別名讓列名稱或者表名稱的可讀性更強。

# 列的別名
SELECT name AS TeacherName
FROM TeaNo;

# 表的別名 多用於多表查詢時
SELECT name
FROM TeaNo AS TeacherName;
5. SQL 函式

​ 在資料處理上,正是由於這些可以直接使用的函式,讓資料處理更加簡便,下列是菜鳥課程上總結的函式

函式名作用
FORMAT()格式化某個欄位的顯示方式
LEN()返回某個文字欄位的長度
ROUND()對某個數值欄位進行指定小數位數的四捨五入
UCASE()將某個欄位轉換為大寫
LCASE()將某個欄位轉換為小寫
AVG()返回平均值
COUNT()返回行數
NOW()返回當前的系統日期和時間
FIRST()返回第一個記錄的值
LAST()返回最後一個記錄的值
MAX()返回最大值
MID()從某個文字欄位提取字元,MySql 中使用
SubString(欄位,1,end)從某個文字欄位提取字元
MIN()返回最小值
SUM()返回總和
# FORMAT() 括號裡的元素都是必須的
SELECT FORMAT(column_name,format) FROM table_name; 

# 得到系統時間
select date_format(NOW(),'%Y-%m-%d') As data;
6. HAVING

​ 由於WHERE 關鍵字無法與聚合函式一起使用,因此引入Having,HAVING 子句可以讓我們篩選分組後的各組資料。

# 基本語法
SELECT column_name, aggregate_function(column_name)
FROM table_name
WHERE column_name operator value
GROUP BY column_name
HAVING aggregate_function(column_name) operator value;

# aggregate_function(column_name) 為聚合函式,不能與 where 連用
7. Union 與 Union All

​ 二者用於合併兩個或多個 SELECT 語句的結果。

​ 注意事項:UNION 內部的每個 SELECT 語句必須擁有相同數量的列。列也必須擁有相似的資料型別。同時,每個 SELECT 語句中的列的順序必須相同。

​ 二者不同之處:Union 用於取並集去重,Union All 用於取並集不去重。

create table country1(
    Name varchar(10),
    Eng varchar(10)
);
create table country2(
    Name varchar(10),
    Eng varchar(10),
    amount int
);
insert into country1 values ('中國', 'CN');
insert into country1 values ('美國', 'USA');
insert into country1 values ('英國', 'UK');
insert into country1 values ('日本', 'Japan');
insert into country2 values ('德國','German',100);
insert into country2 values ('澳大利亞','Australia',100);
insert into country2 values ('俄羅斯','Russia',100);
insert into country2 values ('德國','German',100);
# 取並集 去重
select Name,Eng
from country1
UNION
select Name,Eng
from country2;
# 取並集不去重
select Name,Eng
from country1
UNION ALL
select Name,Eng
from country2;
8.日期問題

​ 日期處理問題是對資料進行提取,分類的重要環節,比如,在數學建模中,我們經常需要對一家公司的收入按月份或者年份進行提取,資料庫內建的函式就會有奇效。下列是菜鳥課程總結的一些函式。

函式名稱函式用處
DATE(date)提取 date 中的日期部分
DATE_ADD(date,INTERVAL expr type)從日期加上指定的時間間隔。date 為 合法的日期 ,expr 為 指定的時間間隔
DATE_FORMAT()用於以不同的格式顯示日期/時間資料。
DATE_SUB(date,INTERVAL expr type)從日期減去指定的時間間隔。date 為 合法的日期 ,expr 為 指定的時間間隔
DATEDIFF(date1,date2)返回兩個日期之間的天數date1 和 date2 引數是合法的日期或日期/時間表達式
EXTRACT()用於返回日期/時間的單獨部分,如年,月,日
9. 檢視

​ 根據本人的理解,檢視就是將一個或者多個表之間關聯起來並作為一個虛擬表返回,這個虛擬表是動態改變的,我們下次再次將多個表關聯起來時只需要操作檢視即可。

​ 在 SQL 中,檢視是基於 SQL 語句的結果集的視覺化的表。檢視包含行和列,就像一個真實的表。檢視中的欄位就是來自一個或多個數據庫中的真實的表中的欄位。您可以向檢視新增 SQL 函式、WHERE 以及 JOIN 語句,也可以呈現資料,就像這些資料來自於某個單一的表一樣。

​ 檢視總是顯示最新的資料!每當使用者查詢檢視時,資料庫引擎通過使用檢視的 SQL 語句重建資料。

​ 檢視所查詢出來的資料只能進行檢視,不能增刪改。

# 基本語法
CREATE VIEW view_name AS
SELECT column_name(s)
FROM table_name
WHERE condition
10. AND OR

​ 將多個條件結合進行篩選

​ and : 連線的條件都需要滿足

​ or : 連線的條件有一個滿足就可

11. GROUP BY 和 ORDER BY

​ ORDER BY 為排序操作,根據指定的屬性來進行排序,可以指定升序以及降序

# 預設為升序排列
select *
from grade
order by grade;

# 降序排列,先按成績,成績一樣再按分數
select *
from grade
order by grade,name desc;
12. EXISTS
SELECT column_name(s)
FROM table_name
WHERE EXISTS
(SELECT column_name FROM table_name WHERE condition);

# 首先執行 外部查詢 SELECT column_name(s) FROM table_name
# 將查詢到的每一條資料傳給內查詢,看內查詢能否查詢到結果,查詢不到返回Flase,反之為True
# 內查詢返回為 True 則保留外查詢這一條記錄
13.SELECT TOP

​ 用於規定要返回的記錄的數目,如果查詢返回的結果很多,輸出花費比較多,我們可以使用此語句來限定數目

# 適用於 SQL Server / MS Access
SELECT TOP number|percent column_name(s)
FROM table_name;
# 適用於 MySQL
SELECT column_name(s)
FROM table_name
LIMIT number;
# 適用於 Oracle
SELECT column_name(s)
FROM table_name
WHERE ROWNUM <= number;

select *
from Teach
limit 3;

6. 資料匯出

# 匯出資料
select * from table into outfile '路徑';

# 匯入資料
load data local infile '路徑' into table 表名 fields terminated by ‘\t’

​ 在此之前,需要修改一下資料匯出的預設路徑

使用 show variables like '%secure%'; 檢視secure-file-priv設定,
  			2. secure_file_prive=null ––限制mysqld 不允許匯入匯出
     secure_file_priv=/path/ – --限制mysqld的匯入匯出只能發生在預設的/path/目錄下
     secure_file_priv=’’ – --不對mysqld 的匯入 匯出做限制
  			3. 在 mysql 的安轉目錄下找到 my.ini 檔案,修改secure_file_prive 為 '' 使其不對mysqld 的匯入 匯出做限制
  			4. 開啟計算機管理>>服務與應用程式>>服務>>mysql(版本不同名字可能不同)>>右鍵重新啟動>>完成重啟
  			5. 重複 1 步驟,看看修改是否成功,若沒有成功可以試試重啟電腦。
  			6. 之後再進行匯入匯出操作