風雨之后是彩虹,經歷了三個月的風雨之后,從6月14日起(上次故障發生于6月13日)開始享受彩虹。。。而今天突襲而來的RDS故障讓我們懂得了彩虹期間會有陣雨,但不管怎么樣,離“晴空萬里”越來越近了。
2013年7月23日10:00~11:00左右,我們使用的阿里云RDS(關系型數據庫服務)突然出現故障,造成了網站不能訪問(大家訪問時遇到的502錯誤就是故障的表現)。由此給大家帶來了很大的麻煩,我們深表歉意!望大家諒解!
這次502故障發生時,我們先從服務器上的錯誤日志下手,一下子將故障的引發點逮個正著:
System.Data.SqlClient.SqlException (0x80131904): 在從服務器接收結果時發生傳輸級錯誤。 (provider: TCP Provider, error: 0 - 遠程主機強迫關閉了一個現有的連接。)
數據庫連接被強制關閉,那問題肯定與RDS有關。
10:05聯系阿里云客戶經理,10:06提交工單。。。
接著,通過telnet至RDS的端口確認是不是網絡問題引起的,telnet正常連接,說明網絡沒問題,問題在RDS本身。
接下來就是阿里云的工程師在忙,我們只能緊張而焦急地等待。。。
11:00左右,RDS切換至鏡像節點(RDS做了數據庫鏡像)之后,網站立即恢復正常。
對于故障的真正原因,阿里云工程師接下來會進行全面的分析。多希望有一天阿里云能像Amazon一樣,將每次故障的原因及處理情況對外公開。
就這樣經歷了一場云上的陣雨,有人在微博上說我們是阿里云踩坑大師,我們希望踩一個少一個,同時希望阿里云找出所有的坑一個一個填平,只要有坑,總會被人踩著的。
文章列表