修正版 瘋狂代碼 寫給WEB2.0的站長

作者: wangdei  來源: BlogJava  發布時間: 2008-10-05 11:17  閱讀: 2914 次  推薦: 1   原文鏈接   [收藏]  

    當互聯網吵吵嚷嚷的進入2.0時代,當互聯網的技術不再是那么高不可攀,當復制變成家常便飯,互聯網熱鬧起來了

    myspace火了,中國冒出更多的myspace

    youtube剛剛起來,中國的視頻網站就遍地開花

    51拔地而起,中國出了無數的SNS

    facebook則改變了中國站長的抄襲方式,不再學chianren了,校內火了
    ..........

    當抄襲變成習慣,我想說的是,模仿,站長,你準備好了嗎?

    如果你打算做垃圾站,或者賺點廣告費的網站,請不要點擊這篇文章,我從技術角度方面談談WEB2.0網站的模仿問題。

    當投資和流量都不是問題的時候,我想說的是,您真的一帆風順嗎?

    拿SNS網站來說,當匆匆上線的2.0,當一筆筆投資砸進去的時候,當流量上去的時候,您的困惑在什么地方?

    我做過多個2.0公司的技術顧問,簡單的談談2.0公司遇到的問題(涉及隱私,我用A B C D代替),這里就不再贅述大家眾所周知的頁面靜態化,緩存和代碼安全等問題了,有點技術的2.0公司的CTO都知道這些東西,我們談點發展之后的問題

A公司

    A公司做的是SNS網站,程序是兩個毛頭小伙子做的,目標直指51,程序開發是一帆風順,功能也比51牛多了,推廣也是一帆風順(A公司有自己獨到的推廣 方式。但是當ALEXA到2W的時候問題出來了,每天下午4點左右,網站速度慢的驚人,基本上打不開,公司三臺服務器CPU100%,讓人郁悶的是公司的 網絡配置方式,居然是雙WEB的集群,而單獨一臺DB數據庫。整個瓶頸在數據庫,于是我建議做DB的集群,分析了一下數據結構,MD,典型的WEB程序員 的作品,沒有一點數據庫設計規范,功能實現是可以,如果要擴展,不可能,集群基本上是不可能的,怎么辦?不能辦,于是,一個月的時間修改程序,數據結構基 本上換了一遍 前期砸進去的幾十萬打了水飄,用戶走光了。

    結論:WEB2.0前期設計的時候不應該只考慮功能,應該認真考慮一下底層和數據結構了。

B公司

    B公司也是做的SNS網站,程序是3個人開發的,CEO是某名牌大學的經濟學碩士,有點知己網的味道,又有一些特色出來,說實話,公司的潛力不錯,CEO 有很強的運作能力,感覺前景不錯。系統架構還行,但是---但是系統崩潰了,why?系統沒有考慮到用戶有個海量的說法,文件也有個海量的說法,用戶的相 冊,圖片全部存貯在WEB服務器的一個分區上,每個用戶一個目錄,而打開性能監視器,磁盤的IO高的驚人,基本上無暇響應。眾所周知,文件系統也是一個數 據庫,單獨大文件無所謂,關鍵是整個是300多個G的零碎文件,大量的讀寫操作,系統崩潰,數據丟失,文件系統的一個鏈斷了,用戶數據全部丟 失!!!Raid并不能解決所有問題,磁盤陣列只能保證在硬盤損壞的時候進行恢復,但是這個是文件系統的損壞,raid不能恢復。這是一個非常沉重的問 題,系統整整停了一個月來做數據恢復(單獨文件很容易,但是海量文件目前還沒有一個軟件能組織起來軟件架構,數據恢復軟件一般在建立目錄結構索引的時候就 已經死掉了,嘗試過用16G內存的服務器做恢復,無效)。解決方案:修改程序架構,做分布式文件存貯(程序修改用了8天,但是文件轉移卻又用去了將近一個 月),20萬用戶損失殆盡。

    結論:WEB2.0前期的設計應該有應付海量存貯的考慮,整個涉及了程序架構的修改,前期規劃不好的話基本上思路一條。

C公司

    C公司是一個值得尊敬的公司,CEO技術出身,和比爾蓋茨一樣,大學未畢業出來做網絡,01到03年做短信狠賺了一筆,后來做的小項目也小有所成,說實 話,我很佩服。公司做的是校友方面,但是更偏重myspace風格,注重個人主頁,推廣方面也下了大手筆。系統崩潰的原因其實很簡單,由于采用的是微軟的 SqlServer,而微軟的MSDN直接就告訴了我們,SQLSERVER不支持負載集群,只支持災難恢復的集群,他們的數據庫超負載,100%就沒有 下去過,只能橫向增加配置,采用了4路4核CPU系統,但是系統還是崩潰了... 高互動注定了高負載。解決方案: 現從基本入手,解決掉幾個程序耗能大戶,對數據庫采用橫向切割,將用戶每10萬進行分組,同時對數據庫系統進行散列,將多個表垂直分割,同時進行文件分組 ,解決問題. 因為修改了數據結構,程序也基本上大動了一下。 好在系統沒有出大錯,損失不算很大,不過對用戶體驗造成了很壞的影響。
   附注:SqlServer其實是可以實現集群的,一般是通過復制和分發的形式實現,但是應用程序需要對數據庫操作進行分類,更新和查詢。但是同時存在一個問題,在高互動下的數據庫更新操作頻繁的情況下,復制的延遲時間會很長,甚至會有5分鐘的延遲!應用程序應該有應對延遲的準備!

    結論:WEB2.0前期設計應該有良好的散列考慮,程序應該能有配合的擴充性,符合數據庫的擴充

D公司

    D公司是一個各個方面做的比較好的公司,做了CDN加速,圖片也獨立分出了N個服務器,數據庫不錯的一個,(CTO是個數據庫專家),系統崩潰的原因在于 WEB,按道理說WEB很容易做集群的,但是發現集群并解決不掉問題,他們的集群只允許做4臺的WEB集群,但是4臺都當掉了。仔細分析,找到原因,我估 計整個也是大部分CTO最容易犯的一個錯誤,或者說他們根本就想不到的問題,就是WEB上傳的問題,上傳的時候由于數據傳輸的原因,線程是保持鏈接 的,300個線程就可以把一個WEB Server當掉了。解決方案:這個最簡單,把上傳和其他耗能大戶分離出獨立出來,同時做異步分布式上傳。程序改動不是很大,但是之前半個月速度滿對用戶 體驗的損失也不可小視。

    結論:沒有什么結論了,畢竟有海量訪問經驗的CTO不多,也就是那幾個大站的。

    總結:不是潑冷水,模仿其實是很容易的,隨便找幾個WEB程序員就能做到,并且很簡單,速度可能還很高效,因為WEB2.0無非就是跟數據庫打交道,會操 作數據庫就會做。但是真正做大并不容易,因為能應付海量訪問的程序并不簡單,現在的程序員都太自命不凡,其實真正有經驗的并不多,不要相信一個月薪 5K--10K的程序員能給你多大的驚喜,能應付海量訪問的程序員不是那個價格。如果您想做2.0,想做大,有幾個個建議:

    一.找DBMS的專家設計好數據庫,大部分程序員都不知道分區視圖,數據散列,數據組的概念

    二.設計好程序架構(這個其實不難,有個高人指導就行了),保持良好的擴展性,成本考慮可以找兼職的系統架構設計師做好系統架構,確定將來的發展瓶頸。

    三.考慮好文件存貯的問題。文件存貯的技術含量看起來很低,其實是很高的,可以考慮反向代理的方案。文件存貯出問題了,站點基本上就完蛋了,不僅僅是RAID的問題和存貯服務器的問題,不過道理倒是一點就破的

    四.中國國情考慮,這個最致命,需要考慮電信和網通的問題,CDN并不能解決所有問題。互動性的東西并CDN并不是很有效。最關鍵的是,現有的雙線機房遇 到DDOS攻擊基本上都會當掉,原因很簡單,雙線機房都是私人機房,本身就不會有太高的帶寬,隨便攻擊一下就可以D掉(順帶提一個笑話,我知道一個雙線機 房的老總總共1G的帶寬卻買了4G的金盾墻,很簡單800M的攻擊就可以搞定)。

    五.網絡延遲的問題,這是分布式系統必須要考慮的,程序要能容忍0到100秒的數據延遲的功能,也就是同步的問題。不要小看這幾十秒,問題很大的,如果你 的站點有交互式功能,比如即時聊天,你可以想象一下是個什么結果。對于即時聊天的東西,可以用反向代理來解決(成本較高)。但是對于留言和評論的影響不 大,但是如果系統為了健壯做了緩存和靜態化的時候,這個東西可能就是災難性的了。靜態文件的更新和重寫需要異步的方式來做。

    六.分散你的程序,如果你沒有太多的資金構筑動輒百萬的服務器,建議把功能分散開來,比如相冊一臺服務器,留言一臺服務器

    七.看好你的程序員,如果沒有很好的激勵措施的話你的程序員很容易寫出敷衍性的代碼,而這個可能就是將來的大患,程序架構定下來后要修改可能就要費牛勁了。最好你的CTO能對你100%的衷心,100%的負責。

    八.文件同步的問題,這個問題可能你覺得沒有必要,如果你看一下網通和電信的TTL就明白了,同步要支持續傳,并且不能是持續的,否則你的成本會高出N 倍,流量大的時候需要采用同步服務器進行更新,不要期望能通過你的軟件實現,交給你的程序員吧,把上面的話告訴他他就知道怎么做了。   
 
    九.最狠的一個問題了,也是吃虧最大的問題,不管您跟網警的關系多好,看好你的用戶,審核好你的東西,一被停機可能就致命,本人就吃過N次虧。
   
    十.對于緩存和靜態文件,應該采用獨立的緩存服務器,對緩存維護和文件索引維護,并更新和刪除
 
    最后,祝各位站長一番風順,大展宏圖。
1
0
 
 
 
 

文章列表

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()


    留言列表 留言列表

    發表留言