① 求sql語句, 按一個關聯欄位 查詢表1在表2中沒有的記錄 ,表2是表1的子集,想把補集查出來,謝謝!
select t1.id from t1 right outer join t2 on t1.id=t2.id where t2.id=null
② sql資料庫中把兩個表中的差集數據插入到第3個表,怎麼寫
insert into table_3 (column_1,column_2,column_3) select column_1,column_2,column_3 from table_1 minus select column_1,column_2,column_3 from table_2;
要點就是保持欄位一致。
③ 關於sql查詢b表中存在,a表中不存在的數據
這實際上是求非交集(差集)問題,sql語句求差集相對於求交集的辦法要少得多。
求差集方法中,使用not in關鍵字進行篩選在邏輯上最容易理解,很多人都會想到利用到它,數據量不大時還行,但是它有個重大缺陷,那就是在碰到大數據表的情況下其運行效率極低,有沒有可被利用的索引效率都一樣極差。我曾在利用大數據表的測試中,發現not in 語句常常要花費數小時才能返回結果,最誇張的例子耗時竟然超過一天!在返回結果前數據查詢會處在"假死"狀態,讓人感覺是返回了空集似的,其實不是那樣的,只是資料庫引擎尚未完成運算而已。
在有可被利用的索引情況下,我們可以利用非存在not exists子句來篩選出兩表之間的差集,其運行效率是非常高的。以題主的語句為例可改寫如下:
原來使用not in篩選差集,大數據表效率極差:
SELECT ipdz FROM ipdz_b WHERE ipdz not in(select ipdz_d from zj_b);
而使用not exists篩選差集,大數據表有索引可利用時返回結果酒快多了:
select b.ipdz from ipdz_b b where not exists(
select 1 from zj_b a where a.ipdz_d=b.ipdz);
請留意不要踩not exists的坑!盡管它在有可被利用的索引時運行效率極高,但是如果沒可利用的索引它會跟not in一樣在遇到大數據表時, 運行運行效率也很糟!
在沒有索引可被利用的情況下,建議利用左(右)聯接出現的null值來求出差集,但是需要留意並小心處理因兩表連接所導致的記錄行變多問題。
下面是以題主的表結構為例的sql語句寫法,其返回結果集的速度還是很不錯的:
left join 篩選差集:
select b.ipdz from ipdz_b b left join zj_b a on
a.ipdz_d=b.ipdz where a.ipdz_d is null;
這里假設a表的ipdz_d是唯一的,如果非唯一需調整如下
select b.ipdz from ipdz_b b left join (
select distinct ipzd_d from zj_b) a on
a.ipdz_d=b.ipdz where a.ipdz_d is null;
總結:
小數據量not in隨便用,此方法邏輯簡單,語句易於編寫;
大數據量在有可利用的索引情況下,建議首選 not exists(因為效率最高);
大數據量時,有沒有可被利用的索引not in都要避免使用。而not exists 在沒索引可利用時也應避免使用,此時建議使用左left join或右連接返回差集會有比較好的表現。
後兩種方法在邏輯上不太好理解,還要處理因連接導致的記錄行變多問題,語句編寫相對麻煩。
④ SQL語句補集
update 補集 b set 電流 = (SELECT 電流 FROM(select 地區 電流 from 全集 minus select 地區 電流 from c差集 ) a WHERE b.地區= a.地區
寫3個就行了,你先試下