大型網站架構演變和知識體系

來源: CSDN 發布時間: 2014-05-14 09:10 閱讀: 10021 次推薦: 24 原文鏈接 [收藏]

　　之前也有一些介紹大型網站架構演變的文章，例如LiveJournal的、ebay的，都是非常值得參考的，不過感覺他們講的更多的是每次演變的結果，而沒有很詳細的講為什么需要做這樣的演變，再加上近來感覺有不少同學都很難明白為什么一個網站需要那么復雜的技術，于是有了寫這篇文章的想法，在這篇文章中將闡述一個普通的網站發展成大型網站過程中的一種較為典型的架構演變歷程和所需掌握的知識體系，希望能給想從事互聯網行業的同學一點初步的概念，文中的不對之處也請各位多給點建議，讓本文真正起到拋磚引玉的效果。

　　架構演變第一步：物理分離webserver和數據庫

　　最開始，由于某些想法，于是在互聯網上搭建了一個網站，這個時候甚至有可能主機都是租借的，但由于這篇文章我們只關注架構的演變歷程，因此就假設這個時候已經是托管了一臺主機，并且有一定的帶寬了，這個時候由于網站具備了一定的特色，吸引了部分人訪問，逐漸你發現系統的壓力越來越高，響應速度越來越慢，而這個時候比較明顯的是數據庫和應用互相影響，應用出問題了，數據庫也很容易出現問題，而數據庫出問題的時候，應用也容易出問題，于是進入了第一步演變階段：將應用和數據庫從物理上分離，變成了兩臺機器，這個時候技術上沒有什么新的要求，但你發現確實起到效果了，系統又恢復到以前的響應速度了，并且支撐住了更高的流量，并且不會因為數據庫和應用形成互相的影響。

　　看看這一步完成后系統的圖示：

　　這一步涉及到了這些知識體系：這一步架構演變對技術上的知識體系基本沒有要求。

　　架構演變第二步：增加頁面緩存

　　好景不長，隨著訪問的人越來越多，你發現響應速度又開始變慢了，查找原因，發現是訪問數據庫的操作太多，導致數據連接競爭激烈，所以響應變慢，但數據庫連接又不能開太多，否則數據庫機器壓力會很高，因此考慮采用緩存機制來減少數據庫連接資源的競爭和對數據庫讀的壓力，這個時候首先也許會選擇采用squid等類似的機制來將系統中相對靜態的頁面（例如一兩天才會有更新的頁面）進行緩存（當然，也可以采用將頁面靜態化的方案），這樣程序上可以不做修改，就能夠很好的減少對webserver的壓力以及減少數據庫連接資源的競爭。OK，于是開始采用squid來做相對靜態的頁面的緩存。

　　看看這一步完成后系統的圖示：

　　這一步涉及到了這些知識體系：前端頁面緩存技術，例如squid，如想用好的話還得深入掌握下squid的實現方式以及緩存的失效算法等。

　　架構演變第三步：增加頁面片段緩存

　　增加了squid做緩存后，整體系統的速度確實是提升了，webserver的壓力也開始下降了，但隨著訪問量的增加，發現系統又開始變的有些慢了，在嘗到了squid之類的動態緩存帶來的好處后，開始想能不能讓現在那些動態頁面里相對靜態的部分也緩存起來呢，因此考慮采用類似ESI之類的頁面片段緩存策略。OK，于是開始采用ESI來做動態頁面中相對靜態的片段部分的緩存。

　　看看這一步完成后系統的圖示：

　　這一步涉及到了這些知識體系：頁面片段緩存技術，例如ESI等，想用好的話同樣需要掌握ESI的實現方式等；

　　架構演變第四步：數據緩存

　　在采用ESI之類的技術再次提高了系統的緩存效果后，系統的壓力確實進一步降低了，但同樣，隨著訪問量的增加，系統還是開始變慢，經過查找，可能會發現系統中存在一些重復獲取數據信息的地方，像獲取用戶信息等，這個時候開始考慮是不是可以將這些數據信息也緩存起來呢，于是將這些數據緩存到本地內存，改變完畢后，完全符合預期，系統的響應速度又恢復了，數據庫的壓力也再度降低了不少。

　　看看這一步完成后系統的圖示：

　　這一步涉及到了這些知識體系：緩存技術，包括像Map數據結構、緩存算法、所選用的框架本身的實現機制等。

　　架構演變第五步：增加webserver

　　好景不長，發現隨著系統訪問量的再度增加，webserver機器的壓力在高峰期會上升到比較高，這個時候開始考慮增加一臺webserver，這也是為了同時解決可用性的問題，避免單臺的webserver down機的話就沒法使用了，在做了這些考慮后，決定增加一臺webserver，增加一臺webserver時，會碰到一些問題，典型的有：1、如何讓訪問分配到這兩臺機器上，這個時候通常會考慮的方案是Apache自帶的負載均衡方案，或LVS這類的軟件負載均衡方案。2、如何保持狀態信息的同步，例如用戶session等，這個時候會考慮的方案有寫入數據庫、寫入存儲、cookie或同步session信息等機制等。3、如何保持數據緩存信息的同步，例如之前緩存的用戶數據等，這個時候通常會考慮的機制有緩存同步或分布式緩存。4、如何讓上傳文件這些類似的功能繼續正常，這個時候通常會考慮的機制是使用共享文件系統或存儲等。在解決了這些問題后，終于是把webserver增加為了兩臺，系統終于是又恢復到了以往的速度。

　　看看這一步完成后系統的圖示：

　　這一步涉及到了這些知識體系：負載均衡技術（包括但不限于硬件負載均衡、軟件負載均衡、負載算法、linux轉發協議、所選用的技術的實現細節等）、主備技術（包括但不限于ARP欺騙、linux heart-beat等）、狀態信息或緩存同步技術（包括但不限于Cookie技術、UDP協議、狀態信息廣播、所選用的緩存同步技術的實現細節等）、共享文件技術（包括但不限于NFS等）、存儲技術（包括但不限于存儲設備等）。

　　架構演變第六步：分庫

　　享受了一段時間的系統訪問量高速增長的幸福后，發現系統又開始變慢了，這次又是什么狀況呢，經過查找，發現數據庫寫入、更新的這些操作的部分數據庫連接的資源競爭非常激烈，導致了系統變慢，這下怎么辦呢，此時可選的方案有數據庫集群和分庫策略，集群方面像有些數據庫支持的并不是很好，因此分庫會成為比較普遍的策略，分庫也就意味著要對原有程序進行修改，一通修改實現分庫后，不錯，目標達到了，系統恢復甚至速度比以前還快了。

　　看看這一步完成后系統的圖示：

　　這一步涉及到了這些知識體系：這一步更多的是需要從業務上做合理的劃分，以實現分庫，具體技術細節上沒有其他的要求；但同時隨著數據量的增大和分庫的進行，在數據庫的設計、調優以及維護上需要做的更好，因此對這些方面的技術還是提出了很高的要求的。

　　架構演變第七步：分表、DAL和分布式緩存

　　隨著系統的不斷運行，數據量開始大幅度增長，這個時候發現分庫后查詢仍然會有些慢，于是按照分庫的思想開始做分表的工作，當然，這不可避免的會需要對程序進行一些修改，也許在這個時候就會發現應用自己要關心分庫分表的規則等，還是有些復雜的，于是萌生能否增加一個通用的框架來實現分庫分表的數據訪問，這個在ebay的架構中對應的就是DAL，這個演變的過程相對而言需要花費較長的時間，當然，也有可能這個通用的框架會等到分表做完后才開始做，同時，在這個階段可能會發現之前的緩存同步方案出現問題，因為數據量太大，導致現在不太可能將緩存存在本地，然后同步的方式，需要采用分布式緩存方案了，于是，又是一通考察和折磨，終于是將大量的數據緩存轉移到分布式緩存上了。

　　看看這一步完成后系統的圖示：

　　這一步涉及到了這些知識體系：分表更多的同樣是業務上的劃分，技術上涉及到的會有動態hash算法、consistent hash算法等；DAL涉及到比較多的復雜技術，例如數據庫連接的管理（超時、異常）、數據庫操作的控制（超時、異常）、分庫分表規則的封裝等。

　　架構演變第八步：增加更多的webserver

　　在做完分庫分表這些工作后，數據庫上的壓力已經降到比較低了，又開始過著每天看著訪問量暴增的幸福生活了，突然有一天，發現系統的訪問又開始有變慢的趨勢了，這個時候首先查看數據庫，壓力一切正常，之后查看webserver，發現apache阻塞了很多的請求，而應用服務器對每個請求也是比較快的，看來是請求數太高導致需要排隊等待，響應速度變慢，這還好辦，一般來說，這個時候也會有些錢了，于是添加一些webserver服務器，在這個添加webserver服務器的過程，有可能會出現幾種挑戰：1、Apache的軟負載或LVS軟負載等無法承擔巨大的web訪問量（請求連接數、網絡流量等）的調度了，這個時候如果經費允許的話，會采取的方案是購買硬件負載，例如F5、Netsclar、Athelon之類的，如經費不允許的話，會采取的方案是將應用從邏輯上做一定的分類，然后分散到不同的軟負載集群中；2、原有的一些狀態信息同步、文件共享等方案可能會出現瓶頸，需要進行改進，也許這個時候會根據情況編寫符合網站業務需求的分布式文件系統等；在做完這些工作后，開始進入一個看似完美的無限伸縮的時代，當網站流量增加時，應對的解決方案就是不斷的添加webserver。

　　看看這一步完成后系統的圖示：