sql中條件放在on後面和where後面的區別
資料庫在通過連線兩張或多張表來返回記錄時,都會生成一張中間的臨時表,然後再將這張臨時表返回給使用者。
在使用left jion時,on和where條件的區別如下:
1、 on條件是在生成臨時表時使用的條件,它不管on中的條件是否為真,都會返回左邊表中的記錄。
2、where條件是在臨時表生成好後,再對臨時表進行過濾的條件。這時已經沒有left join的含義(必須返回左邊表的記錄)了,條件不為真的就全部過濾掉。
假設有兩張表:
表1:tab2
id |
size |
1 |
10 |
2 |
20 |
3 |
30 |
表2:tab2
size |
name
|
10 |
AAA |
20 |
BBB |
20 |
CCC |
兩條SQL: 1、select * form tab1 left join tab2 on (tab1.size = tab2.size) where tab2.name=’AAA’
2、select * form tab1 left join tab2 on (tab1.size = tab2.size and tab2.name=’AAA’)
第一條SQL的過程:
|
第二條SQL的過程:
|
其實以上結果的關鍵原因就是left join,right join,full join的特殊性,不管on上的條件是否為真都會返回left或right表中的記錄,full則具有left和right的特性的並集。 而inner jion沒這個特殊性,則條件放在on中和where中,返回的結果集是相同的。
可以這樣理解:on是在生成連線表的起作用的,where是生成連線表之後對連線表再進行過濾。
當使用left join時,無論on的條件是否滿足,都會返回左表的所有記錄,對於滿足的條件的記錄,兩個表對應的記錄會連線起來,對於不滿足條件的記錄,那右表字段全部是null
當使用right join時,類似,只不過是全部返回右表的所有記錄
當使用inner join時,功能與where完全相同。
經過親測後,更加深了對on和where的理解,得出以下結論:
0. on後的條件如果有過濾主表的條件,則結果對於不符合該條件的主表資料也會原條數保留,只是不匹配右表資料而已。對於on後面對右表的過濾條件,連線時會用該條件直接過濾右表資料後再和左邊進行左連線。總之,對於不滿足on後面的所有條件的資料,左表會在結果資料中原條數保留資料,只是不匹配右表資料而已。不滿足條件的右表資料各欄位會直接以NULL連線主表。
1.ON後對左表的篩選條件對於結果行數會被忽略,但會影響結果中的匹配右表資料,因為只有符合左表條件的資料才會去和符合條件的右表資料進行匹配,不符合條件的左表資料會保留在最後結果中,但匹配的右表資料都是NULL.因此,對於需要過濾左表資料的話,需要把過濾條件放到where後面。
2.ON後的左表條件(單獨對左表進行的篩選條件)對於結果行數無影響,還是會返回所有左表的資料,但和右表匹配資料時,系統只會拿左表符合條件(ON後的對左表過濾條件)的資料去和右表符合條件(ON後的對右表過濾條件)的資料進行匹配抓取資料,而不符合條件的左表資料還是會出現在結果列表中,只是對應的右表資料都是NULL。
3.ON後的右表條件(單獨對右表進行的篩選條件)會先對右表進行資料篩選後再和左表做連線查詢,對結果行數有影響(當左表對右表是一對多時),但不會影響左表的顯示行數,然後拿符合條件的右表資料去和符合條件的左表資料進行匹配。
4.Where還是對連線後的資料進行過濾篩選,這個無異議。
5.匹配資料時無論左右表,都是拿符合ON後的過濾條件去做資料匹配,不符合的會保留左表資料,用NULL填充右表資料。
綜上得出,ON後面對於左表的過濾條件,在最後結果行數中會被忽略,並不會先去過濾左表資料再連線查詢,但是ON後的右表條件會先過濾右表資料再連線左表進行查詢。
連線查詢時,都是用符合ON後的左右表的過濾條件的資料進行連線查詢,只有符合左右表過濾條件的資料才能正確匹配,剩下的左表資料會正常出現在結果集中,但匹配的右表資料是NULL。因此對於左表的過濾條件切記要放到Where後,對於右表的過濾條件要看情況了。如果需要先過濾右表資料就把條件放到ON後面即可。
on、where、having的區別
on、where、having這三個都可以加條件的子句中,on是最先執行,where次之,having最後。有時候如果這先後順序不影響中間結果的話,那最終結果是相同的。但因為on是先把不符合條件的記錄過濾後才進行統計,它就可以減少中間運算要處理的資料,按理說應該速度是最快的。 根據上面的分析,可以知道where也應該比having快點的,因為它過濾資料後才進行sum,所以having是最慢的。但也不是說having沒用,因為有時在步驟3還沒出來都不知道那個記錄才符合要求時,就要用having了。 在兩個表聯接時才用on的,所以在一個表的時候,就剩下where跟having比較了。在這單表查詢統計的情況下,如果要過濾的條件沒有涉及到要計算欄位,那它們的結果是一樣的,只是where可以使用rushmore技術,而having就不能,在速度上後者要慢。 如果要涉及到計算的欄位,就表示在沒計算之前,這個欄位的值是不確定的,根據上篇寫的工作流程,where的作用時間是在計算之前就完成的,而having就是在計算後才起作用的,所以在這種情況下,兩者的結果會不同。 在多表聯接查詢時,on比where更早起作用。系統首先根據各個表之間的聯接條件,把多個表合成一個臨時表後,再由where進行過濾,然後再計算,計算完後再由having進行過濾。由此可見,要想過濾條件起到正確的作用,首先要明白這個條件應該在什麼時候起作用,然後再決定放在那裡
笛卡爾乘積:
單純的select * from a,b是笛卡爾乘積。
但是如果對兩個表進行關聯:select * from a,b where a.id = b.id 意思就變了,此時就等價於:
select * from a inner join b on a.id = b.id。即就是內連線。