小溫談數據庫優化--數據設計篇

作者: 溫景良(Jason)  來源: 博客園  發布時間: 2011-09-18 18:17  閱讀: 4778 次  推薦: 4   原文鏈接   [收藏]  

  三大范式:

  第1規范:沒有重復的組或多值的列,這是數據庫設計的最低要求。

  第2規范: 每個非關鍵字段必須依賴于主關鍵字,不能依賴于一個組合式主關鍵字的某些組成部分。消除部分依賴,大部分情況下,數據庫設計都應該達到第二范式。

  第3規范: 一個非關鍵字段不能依賴于另一個非關鍵字段。消除傳遞依賴,達到第三范式應該是系統中大部分表的要求,除非一些特殊作用的表。

  更高的范式要求這里就不再作介紹了,個人認為,如果全部達到第二范式,大部分達到第三范式,系統會產生較少的列和較多的表,因而減少了數據冗余,也利于性能的提高。

  完全按照三大范式規范化設計的系統幾乎是不可能的,除非系統特別的小,在規范化設計后,有計劃地加入冗余是必要的。冗余可以是冗余數據庫、冗余表或者冗余字段,不同粒度的冗余可以起到不同的作用。冗余可以是為了編程方便而增加,也可以是為了性能的提高而增加。從性能角度來說,冗余數據庫可以分散數據庫壓力,冗余表可以分散數據量大的表的并發壓力,也可以加快特殊查詢的速度,冗余字段可以有效減少數據庫表的連接,提高效率。

  主鍵的設計 

  主鍵是必要的,SQL SERVER的主鍵同時是一個唯一索引,而且在實際應用中,我們往往選擇最小的鍵組合作為主鍵,所以主鍵往往適合作為表的聚集索引。聚集索引對查詢的影響是比較大的,這個在下面索引的敘述。

  在有多個鍵的表,主鍵的選擇也比較重要,一般選擇總的長度小的鍵,小的鍵的比較速度快,同時小的鍵可以使主鍵的B樹結構的層次更少。

  主鍵的選擇還要注意組合主鍵的字段次序,對于組合主鍵來說,不同的字段次序的主鍵的性能差別可能會很大,一般應該選擇重復率低、單獨或者組合查詢可能性大的字段放在前面。

  外鍵的設計

  外鍵作為數據庫對象,很多人認為麻煩而不用,實際上,外鍵在大部分情況下是很有用的,理由是:

  外鍵是最高效的一致性維護方法,數據庫的一致性要求,依次可以用外鍵、CHECK約束、規則約束、觸發器、客戶端程序,一般認為,離數據越近的方法效率越高。

  謹慎使用級聯刪除和級聯更新,級聯刪除和級聯更新作為SQL SERVER 2000當年的新功能,在2005作了保留,應該有其可用之處。我這里說的謹慎,是因為級聯刪除和級聯更新有些突破了傳統的關于外鍵的定義,功能有點太過強大,使用前必須確定自己已經把握好其功能范圍,否則,級聯刪除和級聯更新可能讓你的數據莫名其妙的被修改或者丟失。從性能看級聯刪除和級聯更新是比其他方法更高效的方法。

  字段數據類型設計原則:

  A、數據類型盡量用數字型,數字型的比較比字符型的快很多,尤其是作為主鍵。

  B、 數據類型盡量小,這里的盡量小是指在滿足可以預見的未來需求的前提下的,節省一個字節是一個字節,雖然硬盤便宜也不能浪費啊。

  C、 盡量不要允許NULL,除非必要,可以用NOT NULL+DEFAULT代替。

  為什么最好不要為null呢,因為在程序處理過程中,你經常要為null值進行處理,比如使用isnull進行判斷,這樣削弱查詢的速度,還有程序中需要不斷的為null值進行判斷,多寫了代碼,減少了程序的性能。

  D、少用TEXT和IMAGE,二進制字段的讀寫是比較慢的,而且,讀取的方法也不多,大部分情況下最好不用。在SQL Server 2005盡可能使用nvarchar(max), 或者varchar(max); 除非必要圖片盡量上傳到服務器,數據庫保留上傳地址。

  E、自增字段要慎用

  1. 不利于數據遷移;

  2. 不利于分布式部署;

  3. 無法預知Id,為子表數據插入造成困難;

  4. 沒有實際意義,無法讓人看出這個數字到底有什么用。

  F、盡可能使用定長數據類型,而不是變長數據類型。

  為什么不要設計過多的變長類型的數據呢?

  1. 對于 SQl Server 為說,變長類型的數據,在更新的時候,如果長度比以前的大,會進行頁拆分。會對查詢性能造成嚴重的影響。會增加查詢時,I/O 的花費 (Cost) 頁分隔越多,查詢時,I/O 的開銷就越大。對于變長的字段來說,有可能這個字符的內容存儲在不同的位置,這個字段的內容存儲在不同的位置。存儲在不同的頁中, 它們之間有指針來關聯。這種情況會造成查詢時,磁頭來回尋址,定位。可能你查一條記錄,磁頭找這條記錄的這個變長字段的內容,都要去好幾個頁里找,才能完整的找到。這樣,就造成了很大個 I/O 開銷,降低了查詢性能。從物理上來說,文件本來就經常容易產生碎片。再加上變長類型的頁拆分。

  頁是SQL Server存儲數據的基本單位,大小為8kb,可以存儲表數據、索引數據、執行計劃數據、分配位圖、可用空間信息。頁是SQL  Server可以讀寫的最小I/O單位。即便是讀取一行數據,它也要把整個頁加載到緩存并從緩存中讀取數據。

  頁拆分是這樣產生的:

  比如:有一個變長類型的字段 Content: nvarchar(512)。你添加一條記錄,給 Content 的值是 N'ABC',那么,存儲的時候,直接就存儲 N'ABC' 了。當你下次 Update 這條記錄的 Content 字段時,給的值是 N'ABCDEF',那么就會發生頁拆分。DEF 對被存儲在其它頁。因為有可能上一次分配的數據頁已經存儲了其他行的數據對吧,對,512,只是用來限制這個字段的長度。并不與頁拆分有關系。記錄的物理順序,與你 INSERT 的順序是一致。你 INSERT 了 N條,然后再去修改第一條,這時候可能不在同一個頁了。

  以上結論就是把變長字段的內容加大,就會造成頁拆分了。也就是說可變長類型是把一頁填滿,再填另一頁,影響比較大的是,每次insert的時候會增加分配數據頁的次數。

  當然有可能造成一行數據保存在2個數據頁里。但是,同樣,不但頁拆分對增加查詢時的 I/O 開銷,字符不必要的太長,也會增加 I/O 開銷。

  2. 字段大小對表總大小有影響

  SQL Server 2005單行字段總長是8060字節。

  3. 可變長類型是有長度限制的

  以上內容是第一篇,請大家多多發表意見!

4
0
 
 
 

文章列表

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()