一文帶你用 SQL 征服數學建模資料處理
一文帶你領略 SQL 的強大
1. SQL 簡介
SQL (Structured Query Language:結構化查詢語言) 是用於用於管理關係資料庫管理系統(RDBMS)。 SQL 的範圍包括資料插入、查詢、更新和刪除,資料庫模式建立和修改,以及資料訪問控制。
2.優勢
SQL 面向資料庫進行 增刪查改,在我們沒有接觸資料庫的時候,如果要對資料進行處理,一般會用到 for 迴圈進行遍歷。比如,我們有一個結構體陣列(下文稱為表),裡面包含著名字,年齡和性別。如果我們要把性別為女的同學查找出來,我們需要使用 for 迴圈一遍,訪問每一個結構體中的性別,進行甄別。這種方法對於幾百幾千條資料來說耗費時間看似沒有差別,但如果是幾十萬,幾百萬條資料,時間的耗費則越來越重。
再者,如果存在另外一個表,裡面記錄著每一同學每次考試的成績,我們現在需要將兩個表進行合併,成為一條包含著名字,性別,年齡以及成績(假設名字唯一)的資料,這時我們就需要使用兩個 for 迴圈來處理,並構造新的結構體來進行儲存,即便其他語言比如 Python 等 不需要構造結構體,但兩層的 for 迴圈帶來的時間耗費的提高也是不容小覷的,更何況會存在更多層 for 迴圈的情形
筆者曾參加過 2020年 的數模國賽,選擇的就是大資料問題,說實話,當時沒有用到過資料庫,用的雖然是 Python 但 處理資料的時候,使用了許多 for 迴圈,耗費了許多時間,只水了個省二。貼一下當時處理處理資料的一小部分程式碼,可以看出,不僅資料量大而且處理邏輯複雜,還很容易出錯。比賽完之後就覺得如果使用資料庫來進行處理,定會有奇效的。果然,幾分鐘 for 才得到的資料 SQL 一兩秒秒了。所以筆者很推薦準備參加數學建模並且選擇大資料題目的同學,加強一下資料庫的學習以及練習。
# Dep_In_Profit 企業進貨稅價和 # Dep_In_Price 企業進貨價格和 # Dep_In_Rex 企業進貨稅收和 # Dep_In_Tic_T 企業進貨有效發票 # Dep_In_Tic_T_R 負數票據 # Dep_In_Tic_T_S 正數票據 # Dep_In_Tic_F 企業進貨無效發票 Dep_In_Profit_M = np.zeros(302) Dep_In_Price_M = np.zeros(302) Dep_In_Rex_M = np.zeros(302) Dep_In_Profit_N = np.zeros(302) Dep_In_Price_N = np.zeros(302) Dep_In_Rex_N = np.zeros(302) Dep_In_Tic_T = np.zeros(302) Dep_In_Tic_F = np.zeros(302) Dep_In_Tic_T_R = np.zeros(302) Dep_In_Tic_T_S = np.zeros(302) for i in range(0,395175): if In_items.iloc[i,9] == 1: Dep_In_Tic_T[In_items.iloc[i, 8]-124] = Dep_In_Tic_T[In_items.iloc[i, 8]-124] + 1 if In_items.iloc[i, 6] < 0: Dep_In_Profit_N[In_items.iloc[i, 8]-124] = Dep_In_Profit_N[In_items.iloc[i, 8]-124] + In_items.iloc[i, 6] Dep_In_Price_N[In_items.iloc[i, 8]-124] = Dep_In_Price_N[In_items.iloc[i, 8]-124] + In_items.iloc[i, 4] Dep_In_Rex_N[In_items.iloc[i, 8]-124] = Dep_In_Rex_N[In_items.iloc[i, 8]-124] + In_items.iloc[i, 5] Dep_In_Tic_T_R[In_items.iloc[i, 8]-124] = Dep_In_Tic_T_R[In_items.iloc[i, 8]-124] + 1 else: Dep_In_Profit_M[In_items.iloc[i, 8]-124] = Dep_In_Profit_M[In_items.iloc[i, 8]-124] + In_items.iloc[i, 6] Dep_In_Price_M[In_items.iloc[i, 8]-124] = Dep_In_Price_M[In_items.iloc[i, 8]-124] + In_items.iloc[i, 4] Dep_In_Rex_M[In_items.iloc[i, 8]-124] = Dep_In_Rex_M[In_items.iloc[i, 8]-124] + In_items.iloc[i, 5] Dep_In_Tic_T_S[In_items.iloc[i, 8]-124] = Dep_In_Tic_T_S[In_items.iloc[i, 8]-124] + 1 else: Dep_In_Tic_F[In_items.iloc[i, 8]-124] = Dep_In_Tic_F[In_items.iloc[i, 8]-124] + 1
3.用武之處
首先是數學建模以及大資料處理方面的應用,當然這方面的應用是 SQL 相較於一般處理方法的優勢所在,並且在處理多表級聯關係時,SQL 顯得更加簡潔,for 迴圈或其他一般方式顯得更加複雜以及更容易出錯。
其次在應用開發時,無論是 web 應用還是移動端 ,資料庫肯定是需要的,用於前後端資料的聯絡,雖然平時並不會設計很大的資料量,但熟悉 SQL 的基本增刪改查也是很有必要噠。
4.入門
1. 增
1.1 增加資料庫
create database learn; # learn 為資料庫的名稱
use learn; # 使用此資料庫
set names utf8; # 設定編碼
1.2 增加表
CREATE TABLE Persons # 括號裡包含著每一個鍵的名稱以及資料型別用逗號隔開
(
PersonID int,
LastName varchar(255),
FirstName varchar(255),
Address varchar(255),
City varchar(255)
# 可在定義之後加上一些約束,之後會提到
);
1.3 增加表中的資料
1.3.1 插入整條資料
insert into Persons # 插入整條資料的時候要與表中的鍵一一對應
values (1, 'mary', 'Smith', '127.0.0.1', 'Beijing');
insert into Persons
values (3, 'mar', 'Smith', '127.0.4.1', 'Beijing');
insert into Persons
values (4, 'max', 'Smith', '127.0.6.1', 'Tianjin');
insert into Persons
values (5, 'mute', 'Rio', '127.0.6.1', 're');
insert into Persons
values (6, 'mate', 'Linda', '127.1.6.1', 'Tianjin');
insert into Persons
values (2, 'mario', 'Smith', '127.1.0.1', 'Nanjing');
1.3.2 插入指定鍵的資料
INSERT INTO Persons (PersonID,LastName,City) # 括號中的便是 表中的鍵 下面插入的 value 需要與之對應
VALUES ('mirry','Smith','Hangzhou');
2. 刪
2.1 刪除資料庫
drop database learn; # 刪庫需謹慎
2.2 刪除表
drop TABLE website; # 刪除表
TRUNCATE TABLE table_name # 刪除表的資料,表本身存在
2.3 刪除索引
ALTER TABLE table_name DROP INDEX index_name; # 適用於MySQL
DROP INDEX index_name; # 適用於 DB2/Oracle
DROP INDEX table_name.index_name; # 適用於 MS SQL Server
3. 改
3.1 表中增加列
ALTER TABLE table_name # 需要指定 表的名稱,列的名稱 以及 資料型別
ADD column_name datatype
alter table ts
add sex nvarchar(10);
3.2 表中刪除列
ALTER TABLE table_name # 需要指定 表的名稱,列的名稱
DROP COLUMN column_name
alter table ts
drop column sex;
3.3 表中修改列的資料型別
# SQL Server / MS Access 適用
ALTER TABLE table_name # 需要指定 表的名稱,列的名稱,列要修改成的資料型別
ALTER COLUMN column_name datatype
# My SQL / Oracle 適用
ALTER TABLE table_name # 需要指定 表的名稱,列的名稱,列要修改成的資料型別
MODIFY COLUMN column_name datatype
alter table ts
modify column sex nvarchar(100);
4. 查
4.1 查詢所有記錄
select * # * 便是指代所有鍵
from Persons;
4.2 查詢指定行的記錄
# 先指定資料庫
use learn;
select PersonID,City from Persons;
# 直接訪問
select PersonID,City from learn.Persons;
4.3 查詢資料庫
show databases;
4.4 查詢資料庫中表的名稱
show tables;
5. 主鍵,外來鍵,UNIQUE 約束
主鍵是約束標識表中每一條記錄的,就相當於我們的身份證,不能為 NULL , 也不能重複,在插入資料的時候必須為之指定,每一個表都有且僅有一個主鍵。
create table ts(
id int,
name varchar(25),
primary key (id) # 指定主鍵
);
外來鍵是一個表指向另一個表中的 UNIQUE KEY(唯一約束的鍵),假設有 每個班任課老師的表 和 每個教職工的表 這兩張表。
班級任課老師表
任課老師教職工號(外來鍵) | 老師 | 班級 |
---|---|---|
03 | C | 二班 |
01 | A | 一班 |
03 | C | 三班 |
02 | B | 四班 |
教職工表
老師 | 教職工號(主鍵) |
---|---|
C | 03 |
B | 02 |
A | 01 |
班級任課老師表中的 任課老師教職工號 指向 教職工表的教職工號。
因此,教職工號作為 教職工的主鍵(PRIMARY KEY),任課老師教職工號 作為 班級任課老師表 的 外來鍵(FOREIGN KEY)。
# 適用於 MySQL
CREATE TABLE TS
(
id int NOT NULL,
name varchar(25),
P_Id int,
primary key (id), # 指定主鍵
FOREIGN KEY (P_Id) REFERENCES TES(P_Id)
)
# 適用於SQL Server / Oracle / MS Access
CREATE TABLE TS
(
id int NOT NULL PRIMARY KEY,
name varchar(25),
P_Id int NOT NULL FOREIGN KEY REFERENCES TES(P_Id)
)
UNIQUE 約束唯一標識資料庫表中的每條記錄,和主鍵不同,表中允許多個UNIQUE 約束出現,PRIMARY KEY 約束擁有自動定義的 UNIQUE 約束,這地方在處理資料的時候用到的時候沒有太多,就當瞭解一下。
約束的建立
create table ts(
id int NOT NULL,
name varchar(25),
UNIQUE (id) # UNIQUE 約束
);
或者
create table ts(
id int NOT NULL UNIQUE,# UNIQUE 約束
name varchar(25)
);
約束的刪除
# MySQL
ALTER TABLE ts
DROP INDEX id
# SQL Server / Oracle / MS Access
ALTER TABLE Persons
DROP CONSTRAINT id
5.進階
1. 操作符
1.1 WHERE(無法與聚合函式一起使用)
之前舉的一個查詢為女生的同學的例子,傳統方法為 for 迴圈,這樣耗時耗力,使用 where 我們可以很簡單的秒了
# 基本語法
SELECT column_name,column_name # 需要查詢的列
FROM table_name
WHERE column_name operator value; # 這裡為一些條件語句,接下來會提及
1.2 IN
當我們需要查詢某一鍵符合多個值的時候,這個便派上了用場
create table grade(
name nchar(10),
grade int
);
insert into grade values ('a', 100);
insert into grade values ('b', 100);
insert into grade values ('c', 90);
insert into grade values ('a', 100);
insert into grade values ('b', 95);
insert into grade values ('c', 93);
# 基本語法
SELECT column_name(s)
FROM table_name
WHERE column_name IN (value1,value2,...);
# 查詢名字是a,b,c中間一人的資料
select * from grade
where name in ('a','b','c'); # 括號裡的元素要與鍵的資料型別相同
# 查詢成績是 90 93 100 之間的同學資料
select * from grade
where grade in (90, 93 ,100);
1.3 BETWEEN
我們需要查詢某一鍵符合在某一範圍時,這個便派上了用場
# 基本語法
SELECT column_name(s)
FROM table_name
WHERE column_name BETWEEN value1 AND value2;
select * from grade
where grade between 95 and 100;
1.4 LIKE
LIKE 操作符用於在 WHERE 子句中搜索列中的指定模式,主要就是匹配模式的書寫,可能會涉及到正則表示式,下面給出 菜鳥課程 總結的萬用字元,對正則不熟悉的同學可參考我的另外一篇博文。
萬用字元 | 匹配物件 |
---|---|
% | 替代 0 個或多個字元 |
_ | 替代一個字元 |
[charlist] | 字元列中的任何單一字元 |
[^charlist] 或 [!charlist] | 不在字元列中的任何單一字元 |
MySQL 中使用 REGEXP 或 NOT REGEXP 運算子 (或 RLIKE 和 NOT RLIKE) 來操作正則表示式
# 查詢以 c或d或e開頭的同學名字的資料
select * from grade
where name REGEXP '^[cde]';
# 查詢以 c到e字母開頭的同學名字的資料
select * from grade
where name REGEXP '^[c-e]';
# 查詢 不以 c到e字母開頭的同學名字的資料
select * from grade
where name REGEXP '^[^c-e]';
# 查詢一個字母的同學名字的資料
select * from grade
where name like '_';
2. SELECT DISTINCT
以上面 班級任課老師表 為例,如果我們想要任課老師的教職工號,我們可以用 select 來只對 任課老師教職工號 進行選擇,但查詢的結果會有重複,C 的教職工號出現兩次,我們可以使用 SELECT DISTINCT 進行查詢而不會出現重複的情況。一個重要的特點就是每一條查詢結果都各不相同。
# 查詢參加考試的同學
select distinct name
from grade;
# 查詢考試分數的種類
select distinct grade
from grade;
# 查詢學生及其分數的種類
select distinct grade,name
from grade;
3. JOIN
join 用於將多個表聯絡在一起,大致可分為四種join方法
join 型別 | 描述 |
---|---|
INNER JOIN | 如果表中有至少一個匹配,則返回行 |
LEFT JOIN | 即使右表中沒有匹配,也從左表返回所有的行 |
RIGHT JOIN | 即使左表中沒有匹配,也從右表返回所有的行 |
FULL JOIN | 只要其中一個表中存在匹配,則返回行 |
create table TeaNo(
name varchar(5) NOT NULL,
Tno varchar(5) NOT NULL ,
sex varchar(5) NOT NULL ,
PRIMARY KEY (Tno)
);
create table Teach(
Tno varchar(5) NOT NULL ,
Teacher varchar(2) NOT NULL ,
Class varchar(3) NOT NULL ,
FOREIGN KEY (Tno) references TeaNo(Tno)
);
insert into TeaNo values ('C','03','男');
insert into TeaNo values ('B','02','男');
insert into TeaNo values ('A','01','女');
insert into TeaNo values ('D','04','女');
insert into Teach values ('03', 'C', '二班');
insert into Teach values ('01', 'A', '一班');
insert into Teach values ('03', 'C', '三班');
insert into Teach values ('03', 'B', '四班');
# inner join
select TeaNo.name,TeaNo.sex,Teach.Class
from TeaNo inner join Teach
on TeaNo.Tno = Teach.Tno;
# A,女,一班
# C,男,二班
# C,男,三班
# C,男,四班
# LEFT JOIN B 和 D 老師都在右邊找不到對應的資訊但仍返回左邊一行,空缺地方為NULL
select TeaNo.name,TeaNo.sex,Teach.Class
from TeaNo left outer join Teach
on TeaNo.Tno = Teach.Tno;
# A,女,一班
# B,男,
# C,男,二班
# C,男,三班
# C,男,四班
# D,女,
# Right JOIN
select TeaNo.name,TeaNo.sex,Teach.Class
from TeaNo right outer join Teach
on TeaNo.Tno = Teach.Tno;
# C,男,二班
# A,女,一班
# C,男,三班
# C,男,四班
# FULL JOIN 似乎語法並不支援
4. 別名
在進行查詢時,可以通過建立別名讓列名稱或者表名稱的可讀性更強。
# 列的別名
SELECT name AS TeacherName
FROM TeaNo;
# 表的別名 多用於多表查詢時
SELECT name
FROM TeaNo AS TeacherName;
5. SQL 函式
在資料處理上,正是由於這些可以直接使用的函式,讓資料處理更加簡便,下列是菜鳥課程上總結的函式
函式名 | 作用 |
---|---|
FORMAT() | 格式化某個欄位的顯示方式 |
LEN() | 返回某個文字欄位的長度 |
ROUND() | 對某個數值欄位進行指定小數位數的四捨五入 |
UCASE() | 將某個欄位轉換為大寫 |
LCASE() | 將某個欄位轉換為小寫 |
AVG() | 返回平均值 |
COUNT() | 返回行數 |
NOW() | 返回當前的系統日期和時間 |
FIRST() | 返回第一個記錄的值 |
LAST() | 返回最後一個記錄的值 |
MAX() | 返回最大值 |
MID() | 從某個文字欄位提取字元,MySql 中使用 |
SubString(欄位,1,end) | 從某個文字欄位提取字元 |
MIN() | 返回最小值 |
SUM() | 返回總和 |
# FORMAT() 括號裡的元素都是必須的
SELECT FORMAT(column_name,format) FROM table_name;
# 得到系統時間
select date_format(NOW(),'%Y-%m-%d') As data;
6. HAVING
由於WHERE 關鍵字無法與聚合函式一起使用,因此引入Having,HAVING 子句可以讓我們篩選分組後的各組資料。
# 基本語法
SELECT column_name, aggregate_function(column_name)
FROM table_name
WHERE column_name operator value
GROUP BY column_name
HAVING aggregate_function(column_name) operator value;
# aggregate_function(column_name) 為聚合函式,不能與 where 連用
7. Union 與 Union All
二者用於合併兩個或多個 SELECT 語句的結果。
注意事項:UNION 內部的每個 SELECT 語句必須擁有相同數量的列。列也必須擁有相似的資料型別。同時,每個 SELECT 語句中的列的順序必須相同。
二者不同之處:Union 用於取並集去重,Union All 用於取並集不去重。
create table country1(
Name varchar(10),
Eng varchar(10)
);
create table country2(
Name varchar(10),
Eng varchar(10),
amount int
);
insert into country1 values ('中國', 'CN');
insert into country1 values ('美國', 'USA');
insert into country1 values ('英國', 'UK');
insert into country1 values ('日本', 'Japan');
insert into country2 values ('德國','German',100);
insert into country2 values ('澳大利亞','Australia',100);
insert into country2 values ('俄羅斯','Russia',100);
insert into country2 values ('德國','German',100);
# 取並集 去重
select Name,Eng
from country1
UNION
select Name,Eng
from country2;
# 取並集不去重
select Name,Eng
from country1
UNION ALL
select Name,Eng
from country2;
8.日期問題
日期處理問題是對資料進行提取,分類的重要環節,比如,在數學建模中,我們經常需要對一家公司的收入按月份或者年份進行提取,資料庫內建的函式就會有奇效。下列是菜鳥課程總結的一些函式。
函式名稱 | 函式用處 |
---|---|
DATE(date) | 提取 date 中的日期部分 |
DATE_ADD(date,INTERVAL expr type) | 從日期加上指定的時間間隔。date 為 合法的日期 ,expr 為 指定的時間間隔 |
DATE_FORMAT() | 用於以不同的格式顯示日期/時間資料。 |
DATE_SUB(date,INTERVAL expr type) | 從日期減去指定的時間間隔。date 為 合法的日期 ,expr 為 指定的時間間隔 |
DATEDIFF(date1,date2) | 返回兩個日期之間的天數date1 和 date2 引數是合法的日期或日期/時間表達式 |
EXTRACT() | 用於返回日期/時間的單獨部分,如年,月,日 |
9. 檢視
根據本人的理解,檢視就是將一個或者多個表之間關聯起來並作為一個虛擬表返回,這個虛擬表是動態改變的,我們下次再次將多個表關聯起來時只需要操作檢視即可。
在 SQL 中,檢視是基於 SQL 語句的結果集的視覺化的表。檢視包含行和列,就像一個真實的表。檢視中的欄位就是來自一個或多個數據庫中的真實的表中的欄位。您可以向檢視新增 SQL 函式、WHERE 以及 JOIN 語句,也可以呈現資料,就像這些資料來自於某個單一的表一樣。
檢視總是顯示最新的資料!每當使用者查詢檢視時,資料庫引擎通過使用檢視的 SQL 語句重建資料。
檢視所查詢出來的資料只能進行檢視,不能增刪改。
# 基本語法
CREATE VIEW view_name AS
SELECT column_name(s)
FROM table_name
WHERE condition
10. AND OR
將多個條件結合進行篩選
and : 連線的條件都需要滿足
or : 連線的條件有一個滿足就可
11. GROUP BY 和 ORDER BY
ORDER BY 為排序操作,根據指定的屬性來進行排序,可以指定升序以及降序
# 預設為升序排列
select *
from grade
order by grade;
# 降序排列,先按成績,成績一樣再按分數
select *
from grade
order by grade,name desc;
12. EXISTS
SELECT column_name(s)
FROM table_name
WHERE EXISTS
(SELECT column_name FROM table_name WHERE condition);
# 首先執行 外部查詢 SELECT column_name(s) FROM table_name
# 將查詢到的每一條資料傳給內查詢,看內查詢能否查詢到結果,查詢不到返回Flase,反之為True
# 內查詢返回為 True 則保留外查詢這一條記錄
13.SELECT TOP
用於規定要返回的記錄的數目,如果查詢返回的結果很多,輸出花費比較多,我們可以使用此語句來限定數目
# 適用於 SQL Server / MS Access
SELECT TOP number|percent column_name(s)
FROM table_name;
# 適用於 MySQL
SELECT column_name(s)
FROM table_name
LIMIT number;
# 適用於 Oracle
SELECT column_name(s)
FROM table_name
WHERE ROWNUM <= number;
select *
from Teach
limit 3;
6. 資料匯出
# 匯出資料
select * from table into outfile '路徑';
# 匯入資料
load data local infile '路徑' into table 表名 fields terminated by ‘\t’
在此之前,需要修改一下資料匯出的預設路徑
使用 show variables like '%secure%'; 檢視secure-file-priv設定,
2. secure_file_prive=null ––限制mysqld 不允許匯入匯出
secure_file_priv=/path/ – --限制mysqld的匯入匯出只能發生在預設的/path/目錄下
secure_file_priv=’’ – --不對mysqld 的匯入 匯出做限制
3. 在 mysql 的安轉目錄下找到 my.ini 檔案,修改secure_file_prive 為 '' 使其不對mysqld 的匯入 匯出做限制
4. 開啟計算機管理>>服務與應用程式>>服務>>mysql(版本不同名字可能不同)>>右鍵重新啟動>>完成重啟
5. 重複 1 步驟,看看修改是否成功,若沒有成功可以試試重啟電腦。
6. 之後再進行匯入匯出操作