文章出處

一、exists的使用     

      exists對外表用loop逐條查詢,每次查詢都會查看exists的條件語句,當exists里的條件語句能夠返回記錄行時(無論記錄行是的多少,只要能返回),條件就為真,返回當前loop到的這條記錄,反之如果exists里的條件語句不能返回記錄行,則當前loop到的這條記錄被丟棄,exists的條件就像一個bool條件,當能返回結果集則為true,不能返回結果集則為 false。

如下:

select * from user where exists (select 1);

對user表的記錄逐條取出,由于子條件中的select 1永遠能返回記錄行,那么user表的所有記錄都將被加入結果集,所以與 select * from user;是一樣的。

又如下:

select * from user where exists (select * from user where userId = 0);

     可以知道對user表進行loop時,檢查條件語句(select * from user where userId = 0),由于userId永遠不為0,所以條件語句永遠返回空集,條件永遠為false,那么user表的所有記錄都將被丟棄。

not exists與exists相反,也就是當exists條件有結果集返回時,loop到的記錄將被丟棄,否則將loop到的記錄加入結果集。

總的來說,如果A表有n條記錄,那么exists查詢就是將這n條記錄逐條取出,然后判斷n遍exists條件 。

二、in 的使用

in查詢相當于多個or條件的疊加,這個比較好理解,比如下面的查詢:

select * from user where userId in (1, 2, 3);

等效于

select * from user where userId = 1 or userId = 2 or userId = 3;

not in 與 in相反,如下

select * from user where userId not in (1, 2, 3);

等效于

select * from user where userId != 1 and userId != 2 and userId != 3;

總的來說,in查詢就是先將子查詢條件的記錄全都查出來,假設結果集為B,共有m條記錄,然后再將子查詢條件的結果集分解成m個,再進行m次查詢。

值得一提的是,in查詢的子條件返回結果必須只有一個字段,例如:

select * from user where userId in (select id from B);

而不能是

select * from user where userId in (select id, age from B);

而exists就沒有這個限制。

三、exists 與 in 的比較

下面來考慮exists和in的性能,考慮如下SQL語句。

查詢1:

select * from A where exists (select * from B where B.id = A.id);

查詢2:

select * from A where A.id in (select id from B);

查詢1,可以轉化以下偽代碼,便于理解

for ($i = 0; $i < count(A); $i++) {

  $a = get_record(A, $i); #從A表逐條獲取記錄

  if (B.id = $a[id]) #如果子條件成立

    $result[] = $a;
}
return $result;

大概就是這么個意思,其實可以看到,查詢1主要是用到了B表的索引,A表如何對查詢的效率影響應該不大。

假設B表的所有id為1,2,3,查詢2可以轉換為

select * from A where A.id = 1 or A.id = 2 or A.id = 3;

這個好理解了,這里主要是用到了A的索引,B表如何對查詢影響不大。

下面再看not exists 和 not in。

查詢1:

select * from A where not exists (select * from B where B.id = A.id);

查詢2:

select * from A where A.id not in (select id from B);

看查詢1,還是和上面一樣,用了B的索引。

而對于查詢2,可以轉化成如下語句

select * from A where A.id != 1 and A.id != 2 and A.id != 3;

可以知道not in是個范圍查詢,這種!=的范圍查詢無法使用任何索引,等于說A表的每條記錄,都要在B表里遍歷一次,查看B表里是否存在這條記錄。

故not exists比not in效率高。

     mysql中的in語句是把外表和內表作hash 連接,而exists語句是對外表作loop循環,每次loop循環再對內表進行查詢。一直大家都認為exists比in語句的效率要高,這種說法其實是不準確的。這個是要區分環境的。

如果查詢的兩個表大小相當,那么用in和exists差別不大。 
如果兩個表中一個較小,一個是大表,則子查詢表大的用exists,子查詢表小的用in: 
例如:表A(小表),表B(大表)。

查詢1:

select * from A where cc in (select cc from B);

 效率低,用到了A表上cc列的索引;

select * from A where exists(select cc from B where cc=A.cc) ;

 效率高,用到了B表上cc列的索引。

相反的,查詢2: 

select * from B where cc in (select cc from A) ;

 效率高,用到了B表上cc列的索引;

select * from B where exists(select cc from A where cc=B.cc);

效率低,用到了A表上cc列的索引。 

      not in 和not exists如果查詢語句使用了not in 那么內外表都進行全表掃描,沒有用到索引;而not extsts 的子查詢依然能用到表上的索引。所以無論那個表大,用not exists都比not in要快。 
 
in 與 = 的區別 
select name from student where name in ('zhang','wang','li','zhao'); 

select name from student where name='zhang' or name='li' or name='wang' or name='zhao' ;

的結果是相同的。


exists 和 in 的效率比較

這條語句適用于a表比b表大的情況

select * from ecs_goods a where cat_id in(select cat_id from ecs_category);

 這條語句適用于b表比a表大的情況

select * from ecs_goods a where EXISTS(select cat_id from ecs_category b where a.cat_id = b.cat_id);

原因:

select * from A where id in(select id from B);

以上查詢使用了in語句,in()只執行一次,它查出B表中的所有id字段并緩存起來。之后檢查A表的id是否與B表中的id相等,如果相等則將A表的記錄加入結果集中,直到遍歷完A表的所有記錄。它的查詢過程類似于以下過程:

List resultSet=[];
Array A=(select * from A);
Array B=(select id from B);

for(int i=0;i<A.length;i++) {
   for(int j=0;j<B.length;j++) {
      if(A[i].id==B[j].id) {
         resultSet.add(A[i]);
         break;
      }
   }
}
return resultSet;

可以看出,當B表數據較大時不適合使用in(),因為它會B表數據全部遍歷一次。

如:A表有10000條記錄,B表有1000000條記錄,那么最多有可能遍歷10000*1000000次,效率很差。

再如:A表有10000條記錄,B表有100條記錄,那么最多有可能遍歷10000*100次,遍歷次數大大減少,效率大大提升。

結論:in()適合B表比A表數據小的情況。

select a.* from A a where exists(select 1 from B b where a.id=b.id);

以上查詢使用了exists語句,exists()會執行A.length次,它并不緩存exists()結果集,因為exists()結果集的內容并不重要,重要的是結果集中是否有記錄,如果有則返回true,沒有則返回false。它的查詢過程類似于以下過程:

List resultSet=[];
Array A=(select * from A)

for(int i=0;i<A.length;i++) {
   if(exists(A[i].id)) {    //執行select 1 from B b where b.id=a.id是否有記錄返回
       resultSet.add(A[i]);
   }
}
return resultSet;

當B表比A表數據大時適合使用exists(),因為它沒有那么多的遍歷操作,只需要再執行一次查詢就行。

如:A表有10000條記錄,B表有1000000條記錄,那么exists()會執行10000次去判斷A表中的id是否與B表中的id相等。

如:A表有10000條記錄,B表有100000000條記錄,那么exists()還是執行10000次,因為它只執行A.length次,可見B表數據越多,越適合exists()發揮效果。

再如:A表有10000條記錄,B表有100條記錄,那么exists()還是執行10000次,還不如使用in()遍歷10000*100次,因為in()是在內存里遍歷比較,而exists()需要查詢數據庫,我們都知道查詢數據庫所消耗的性能更高,而內存比較很快。

結論:exists()適合B表比A表數據大的情況。當A表數據與B表數據一樣大時,in與exists效率差不多,可任選一個使用。


文章列表


不含病毒。www.avast.com
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()