文章出處

分布式數據庫中的Paxos 算法

http://baike.baidu.com/link?url=ChmfvtXRZQl7X1VmRU6ypsmZ4b4MbQX1pelw_VenRLnFpq7rMvYfDDmg3Rg1Aw6YyobKozdN599x2sCiJNNHV_

Paxos算法是萊斯利·蘭伯特(Leslie Lamport,就是 LaTeX 中的"La",此人現在在微軟研究院)于1990年提出的一種基于消息傳遞的一致性算法。這個算法被認為是類似算法中最有效的。
中文名
Paxos 算法
創作者
萊斯利·蘭伯特
 
時    間
1982年提出理論
1990年提出解決方案
1998年論文公開發表
 
地    位
被認為類似算法中最有效的。
 

1概述編輯

Paxos算法是萊斯利·蘭伯特(Leslie Lamport,就是 LaTeX 中的"La",此人在微軟研究院于1990年提出的一種基于消息傳遞的一致性算法。[1] 這個算法被認為是類似算法中最有效的。

2背景編輯

Paxos 算法解決的問題是一個分布式系統如何就某個值(決議)達成一致。一個典型的場景是,在一個分布式數據庫系統中,如果各節點的初始狀態一致,每個節點都執行相同的操作序列,那么他們最后能得到一個一致的狀態。為保證每個節點執行相同的命令序列,需要在每一條指令上執行一個“一致性算法”以保證每個節點看到的指令一致。一個通用的一致性算法可以應用在許多場景中,是分布式計算中的重要問題。因此從20世紀80年代起對于一致性算法的研究就沒有停止過。節點通信存在兩種模型:共享內存(Shared memory)和消息傳遞(Messages passing)。Paxos 算法就是一種基于消息傳遞模型的一致性算法。
不僅只用在分布式系統,凡是多個過程需要達成某種一致性的都可以用到Paxos 算法。一致性方法可以通過共享內存(需要鎖)或者消息傳遞實現,Paxos 算法采用的是后者。下面是Paxos 算法適用的幾種情況:一臺機器中多個進程/線程達成數據一致;分布式文件系統或者分布式數據庫中多客戶端并發讀寫數據;分布式存儲中多個副本響應讀寫請求的一致性。
Lamport 最初Paxos 算法的論文The Part-Time Parliament 在理解起來比較有挑戰性,個人認為部分原因是Lamport 通過故事的方式來表述、解釋這個問題,所以在閱讀文章的時候讀者需要透過故事講的本身看到作者想說明什么。比如文章中會有很多講到Paxos 文明沒有被發現和考證的,這些映射到實際系統中往往是簡單、大家都心知肚明的基礎,但如果讀者苦于想知道這些內容是什么時,就上當了。下面章節安排如下:第二節對應原文的1.1-2.1。第三節對應原文2.2-3.2。[1] 

3數學問題編輯

問題描述

既然Lamport 是通過故事的方式提出Paxos 問題[2] ,我們就有必要簡述下這個問題:希臘島嶼Paxon 上的執法者(legislators,后面稱為牧師priest)在議會大廳(chamber)中表決通過法律,并通過服務員傳遞紙條的方式交流信息,每個執法者會將通過的法律記錄在自己的賬目(ledger)上。問題在于執法者和服務員都不可靠,他們隨時會因為各種事情離開議會大廳,并隨時可能有新的執法者(或者是剛暫時離開的)回到議會大廳進行法律表決,使用何種方式能夠使得這個表決過程正常進行,且通過的法律不發生矛盾。
說明:不難看出故事中的議會大廳就是我們的分布式系統,每個牧師就是對應的每個節點或者進程,服務員傳遞紙條的過程即通信的過程,法律即是我們需要保證一致性的值(value)。牧師和服務員的進出對應著節點/網絡的失效和加入,牧師的賬目對應節點持久化存儲設備。上面表決過程正常進行可以進一步表述為過程需求(progress requirements):當大部分牧師在議會大廳呆了足夠長時間,且期間沒有牧師進入或者退出,那么提出的法案應該被通過并被記錄在每個牧師的賬目上。

數學基礎

Paxon 中的法律通過投票(ballots,也有翻譯成選舉)完成,每次投票涉及到的一群牧師稱為法定人數(quorum),當且僅當法定人數中的所有牧師都贊成這個法案時,投票成功并通過該法律。每次投票B 包含以下內容:
B_dec 正在進行的投票
B_qrm 法定人數牧師的集合(非空牧師集合)
B_vot 贊成的牧師集合
B_bal 投票編號
有了以上定義,我們看出投票B 通過的充要條件是:B_qrm 屬于 B_vot。接著我們定義B 為一次投票的集合,并說明投票如果滿足下面三個條件,那么一致性可以得到保證。實際中每一次投票都可以看做是一次讀寫請求,所有法定人數的牧師贊成才通過法律表示:所有涉及到這次請求的節點都同時響應請求(比如更新某個值)才能保證一致性。這里選舉編號的大小在實際中并不代表選舉發起的時間。下面給出三個重要的定義:
B1(B) B 中每個選舉都有一個獨一無二的選舉編號。
B2(B) B 中每兩個選舉至少有一個共同的牧師。
B3(B) B 中每一次選舉B ,如果其法定人數中任意牧師在之前的一次選舉中贊成,那么這次選舉B 等于之前一次有B 中牧師贊成的選舉。即新的法律等于所有參與選舉牧師中投贊成票的法律。
說明:看到這里,讀者八成已經很迷糊了,下面我們以一個版本更新的分布式key-value 數據庫為例,每個key-value 有多個副本,如果客戶端發起一個update(key,vaule) 的操作,則會產生由一個節點發起、相關節點進行響應的一次一致性操作,即選舉B。對保存了該key-value 的副本進行更新。需要注意的是法定人數牧師(B_qrm)是例子中所有保存這個key-value 副本的節點的一個大部分子集,因為可能在某些時候某些保存這個key-value 副本的節點不可達。B 是關于某個key-value 的一系列更新操作,不同的法律實際上是一個key-value 的不同值。那么B1-B3就好明白了,B1指一次只進行一個更新操作;B2指每兩次更新操作必須有共同的節點參與;B3指某次key-value 操作的key-value 值與所有參與節點中之前進行投贊成票的最新值一致。這是因為如果某個節點在之前已經投票,說明它已經確認可以修改該值,而其他法定人數的牧師/節點還沒有確認該值。
下面說明為什么B1-B3 蘊含一致性!
引理1.1 如果B1(B),B2(B)$ 和B3(B) 滿足,那么對于在B中的任意B 和B’ ,有
證明略,有興趣的可以參考原文
定理1.2 如果B1(B),B2(B) 和B3(B) 滿足,那么對于在B 中的任意B 和B’ ,有
證:如果$B’_bal=B_bal 那么由B1(B) 可知B’=B 。如果B’_bal 不等于 B_bal ,那么總有一個編號大、一個小,根據引理1.1 可得。
定理1.3 b>B_bal 且對于所有B 中的B 都有Q 和 B_qrm 交集不為空。有一個選舉B’ 滿足B’_bal=b、B’_qrm=B’_vot=Q,那么如果B1(B)、B2(B)、B3(B)滿足,則B1(B并B’)、B1(B并B’)、B1(B并B’) 也滿足。
證明略,見原文。
這個定理說的是在一個選舉集合之后的每次成功選舉,只要和之前集合中每次選舉都有交集,那么這些成功的選舉合并選舉集合B 滿足一致性。

4幾種算法編輯

上面通過證明如果一個協議滿足B1-B3 約束條件,那么就可以保證一致性。直接從這些約束得到preliminary protocol ,basic protocol 是preliminary protocol 的限制版,保證了一致性。complete Synod protocol 進一步限制了basic protocol ,滿足一致性和過程需求(progress requirements)。下面將這三個算法的具體過程。

初始協議

滿足B1,牧師發起選舉的編號必須滿足偏序關系,有一個方法是每個發起牧師使用遞增的數值作為選舉編號,但這樣牧師無法立即知道他們選的數值有沒有被其他牧師選作選舉編號已經被使用。還有一個方法是使用數字+牧師姓名作為選舉編號,這樣就避免了自己的選舉編號被其他牧師使用。
滿足B2,每次選舉的法定人數必須是一個大部分集合(majority set)Q,這樣任意兩個選舉都會有一個共同的牧師。這里大部分集合是一個靈活的選擇,在原文中Lamport 使用體重打比方,體重的人更有可能呆在議會大廳,這樣就可以使用體重超過一半的牧師集合作為大部分集合。至于實際情況中的大部分集合是什么要看具體情況了。
滿足B3,要求每個牧師p 每次在發起選舉前必須找到B_qrm 中每個牧師q 的MaxVote(b,q,B)。
根據以上要求,可以得到初始協議:
1. 牧師p 選擇一個選舉編號b ,并發送NextBallot(b)送給其他牧師
2. 其他牧師q 在收到NextBallot(b) 后,返回LastVote(b,v) 給牧師p,v=MaxVote(b,q,B)$是小于b 編號的q 投的最大的贊成票。為了保證B3,q 不能在b 和b_bal 之間的選舉投贊成票。(如果q 在發送了LastVote(b,v)又對新的選舉投票了那么v 也就不是q 投的最大贊成票)
3. 牧師p 從一個大部分集合Q 中每個牧師q 中都收到LastVote(b,v) 后,發起一個新的選舉,編號為b,法定人數為Q,法律d滿足B3。然后牧師p 將這個法律寫在自己賬目的背面,發送BeginBallot(b,d)給Q 中每個牧師。
4. 牧師q 收到BeginBallot(b,d) 后決定是否為這次選舉投贊成票,如果贊同,則他將發送Vote(b,q) 給牧師p。
5. 如果牧師p 收到Q 中每個牧師q 發來的贊成票Vote(b,q),則將法律d 寫入他的賬目中,并向所有q發送Success(d) 消息。
6. 收到Success(d) 消息后,牧師q 將法律d 寫入到自己的賬目中。
說明:第一步表示發起法律的牧師p 希望下一個選舉的編號是b 。牧師q 用LastVote(b,v) 回應了牧師p 的請求,也就是向牧師p 通過法律時保證了v=MaxVote(b,q,B) 的被改變,具體來說就是不在b 和b_bal 之間的選舉投贊成票。
第三步要求法律d 需要滿足B3,這里我開始有點迷糊,實際系統中的值是客戶端決定的,而不應該是B3 決定的。這里我們還是用上面的key-value 數據庫的例子來理清下思路:當某個節點/牧師第一次發起更新前相當于B為空集,發起更新/選舉的操作不斷進行,直至所有法定人數(quorum)都對法律投了贊成票(即majority set 的節點都更新了該key-value 的值則認為更新成功),B3對應的就是之前的更新沒有成功,那么新的選舉值需要保持的情況。第四步允許牧師可以不發送Vote(b,q) 或者發送幾次,對應的是發送的信息可能因為通信而失敗而未發送或者被多次發送。一旦牧師投了贊成票則確認可以修改該值。
考慮到最后第六步法律d 才被牧師q 寫入到賬目,有可能出現的情況就是在第五步的時候牧師p 將法律寫入到了自己賬目中,接著發送Success(d) 給其他牧師,其中因為通信或者牧師離開議會大廳而沒有被寫入到自己的賬目中,導致不一致。所以真正寫入到賬目時機應該是在第四步牧師q 在發送給牧師p 贊成票的同時就法律寫入到了各自賬目中。而不用考慮如何保證牧師q 第四步寫入的法律會導致不一致,因為法律如果沒有通過則還有更多的選舉來保證一致性。后面也談到了當法律第一次別寫入到賬目中算通過法律。

基礎協議

初始協議(Preliminary Protocol)要求每個牧師都保存 (i) 他發起的每個選舉; (ii) 他投的每個贊成票; (iii) 他發送的每個$LastVote$。為了簡化牧師需要保存的數據,我們對上面的協議做一個限制,得到基礎(Basic Protocol)協議。首先介紹三個新的參數:
lastTried[p] 牧師p 發起的最后一個選舉
prevVote[p] 牧師p 最近一次的投票
nextBal[p] 收到的選舉編號的b 的最大值,即牧師p參加的最大選舉編號
在初始協議中,每個牧師可以同時發起任意個選舉,在基礎協議中要求每個牧師只能發起一個選舉lastTried[p],一旦發起一個選舉,那么之前發起選舉的信息就都不重要了。在初始協議中要求每個牧師不能在b_bal 和b 之間投贊成票,在基礎協議中則更嚴格地要求不能給小于b 的選舉投贊成票。那么基礎協議可以概述為下面幾步:
1. 牧師p 選擇一個大于lastTried[p] 的選舉編號b ,發送NextBallot(b)給其他牧師
2. 牧師q 收到NextBallot(b) 且b>nextBal[q]后設置nextBal[q]=b ,接著發送LastVote(b,v) 給牧師p,其中v==prevBa[q] 。(如果b 小于或等于nextBal[q],則不回復)
3. 從滿足某個大部分集合Q 中每個牧師收到了LastVote(b,v) 信息,牧師p 發起一個編號為b ,法定人數為Q ,法律為d(滿足B3 )的選舉,并將BeginBallot(b,d) 發送給Q 中每個牧師。(如果沒有滿足任意大部分集合Q 的牧師返回,則返回第一步)
4. 牧師q 收到BeginBallot(b,d) ,決定投贊成票,設置prevVote[p] 為這次投票,并發送Vote(b,q) 給牧師p。(如果在收到BeginBallot(b,d) 后發現b 不等于nextBal[q] 則忽略這條信息,說明這期間牧師q 還收到了其他的編號更大的選舉)
5. 牧師p 從大部分集合Q 中每個牧師q 收到了Voted(b,d) ,且b==lastTried[p] ,則認為這次選舉成功,將法律d 記錄在賬目中,并向Q 中每個牧師q 發功成功消息Success(d) 。
6. 每個牧師q 收到Success(d) 消息后將法律寫入賬目。
基礎協議是初始協議的限制版,因為兩者都對牧師沒有行為要求,所以也不保證過程(QS)。下面介紹一個保證過程的協議— 完整議會協議(complete Synode protocol)。

完整議會協議

基礎協議保證了一致性卻沒有保證任何過程,因為它只闡述了牧師可能做什么,沒有要求牧師應該做什么。為了達到之前談到的過程需求(Qrogress Requirements),我們需要添加一些額外的要求使得牧師們盡快執行完2-6 步。
考慮一種情況如果牧師q 第二步收到的選舉編號b 都比之前收到的要大,那么他就要放棄之前收到的所有選舉。可是在選舉編號為b 的選舉在未確認前,可能又會收到更大編號的選舉b’ ,這樣就無法通過任何法律,過程也不能保證。所以為了達到過程需求則需要一個選舉成功后再發起另一個選舉。而首先應該知道服務員傳遞消息和牧師處理消息的時間,在網絡中常常通過設置timeout 來實現,同樣的如果超過了一定時間牧師沒有收到服務員的回復,則認為該服務員或者對應的牧師離開了議會大廳。
假設牧師執行一個動作在7 分鐘以內,服務員傳遞一個消息在4 分鐘以內,那么一個牧師p 發送消息給牧師q ,希望其回復的時間應該是在22 分鐘內(7+4+7+4 分鐘)。
有了上面時間的假設,再考慮上面討論過的情況,如果發起選舉的牧師p 會在第二步和第四步期望22 分鐘內收到其他牧師的回復,如果沒有則可能是一些牧師或者服務員離開了議會大廳,或者還有一些牧師發起了編號更大的選舉。遇到這兩種情況都牧師p 應該終止本次選舉,而重新開始發起一個新的選舉,為了不至于新發起的選舉編號還是太小而仍不能執行,需要從其他牧師哪里獲取最新的選舉編號,從而選取一個更大的編號發起選舉。
進而假設牧師p 是唯一能夠發起選舉的牧師且議會大廳內有大部分集合的牧師,那么可以保證在99分鐘內通過一條法律:22 分鐘內發現了有更大編號的法律,22 分鐘內獲取最大編號并選擇個更大的編號,55 分鐘內完成1-6 步完成一次成功的選舉(疑問:既然只有牧師p 能夠發起選舉,那么編號都是由其控制的,前兩步發現并選擇更大的編號似乎就沒有必要了。答:并不是所有的選舉都是president發起的,其他牧師發起選舉,president向其他希望發起選舉的牧師配發選舉編號)。從上面的過程我們發現完整議會協議需要一個選舉president的過程,president的選舉算法不是文章重點,所以文章中僅用T 分鐘代替了選舉president的時間,這樣T+99 分鐘內可以通過一部法律。
文中選擇president的方法是誰的姓在字母表中最后,并將自己的姓發送給議會大廳內所有牧師,如果在T-11 分鐘內某個牧師沒有收到比自己姓在字母表中更靠后的姓,則認為自己是president(我覺得廣播體重也應該不錯,不是說體重更重的呆在議會大廳會更久么?^_^)。還有一個細節:在選舉president的時候每個牧師p 需要將自己的lastTried[p] 發送給其他牧師,以使得president能夠在第一次選舉時選擇一個足夠大的編號。
至此,通過選舉president和設置超時,完整議會協議就可以保證過程了。
多法律國會協議
上節的議會協議(complete Synod protocol)中,president被選舉出來后,每個希望發起選舉的牧師通知他,president給牧師配發選舉編號,每次僅通過一部法律。多法律國會協議(The Multi-Decree Parliment)選擇一個president通過一系列法律,且只需要執行前兩步一次即可。
具體方法是president第一步發送NextBallot(b,n) 代替NextBallot(b) ,表示希望通過n-b 之間的所有的法律,在president 的賬目上,編號n 之前的法律都是連續記錄了的,b>n 。其他牧師q 收到消息后將每部已經出現在其賬目中編號大于$n$的法律都返回給president,不在賬目上的返回正常的LastVote 信息。
下面談到多法律國會協議有關性質,首先是法律的順序,不同法律編號的選舉同時進行,發起選舉的每個牧師都認為自己是president(不知道president 是怎么選舉出來的,也不知道法律通過的順序)。在完整議會協議第三步中法律被提議,第一次寫入到賬目上時稱法律被通過。當一個president需要提出新的法案時,他必須從大部分集合牧師中學習到那么法律他們都投了贊成票,每部法律都被大部分集合牧師中至少一個牧師投了票,所以president發起新的選舉前總能學到所有之前通過了的法律。president不會在空缺的法律編號內填補重要的法律。,也不會亂序提議法律,所以協議滿足“法律有序性”:如果法律A 和法律B 都是重要的法律,法律A 在法律B 提議之前通過,那么法律A 有比法律B 更低的法律編號。第二點屬性是president在選舉出后且沒有人再進出議會大廳,法律是按照下面步驟不斷通過的(對應完整議會協議的3-5步):
3. president 向一個法定人數牧師中每個牧師發送BeginBallot ;
4.每個牧師向president 發送Voted 信息。
5.president向每個牧師發送Success 消息。這樣通過每部法律只需要三次消息傳遞,通過合并BeginBallot 和Success 命令可以進一步減少消息傳遞。
 

preliminary
adj. 初步的;開始的;預備的


synod
n. 大會;宗教會議;教會法院


ballot
n. 投票;投票用紙;投票總數
vi. 投票;抽簽決定
vt. 使投票表決;拉選票


tried
adj. 可靠的;試驗過的

president
n. 總統;董事長;校長


decree
n. 法令;判決

Parliment
n.國會


OceanBase引入了Paxos協議,每一筆事務,主庫執行完成后,要同步到半數以上庫(包括主庫自身),例如3個庫中的2個庫,或者5個庫中的3個庫,事務才成功。
這樣,少數庫(例如3個庫中的1個庫,或者5個庫中的2個庫)異常后業務并不受影響
 
SQL Server的AlwaysOn 也用到了Paxos協議
 
 

AlwaysOn的一些仲裁概念 

 見證磁盤:見證磁盤是群集存儲中一個磁盤,被指定用于保存群集配置數據庫的一個副本,并且被指定為仲裁配置中的一部分。
 仲裁配置:在故障轉移群集中用來確定如何計算群集中節點投票數和確定群集中允許的最多故障節點數。
 仲裁模式:
 節點多數,可以承受一半以下節點失效;
 節點與磁盤多數,見證磁盤也被視作一個節點,可承受一半節點失效;
 無多數(僅磁盤),只要磁盤聯機,便可以承受只有一個節點存活的故障;
 節點與文件共享多數,與節點與磁盤多數相似。
 在故障轉移群集中,當節點數是偶數時,推薦使用節點和文件共享多數的仲裁配置,當節點數是奇數是,推薦使用節點多數的仲裁配置。
 群集節點數和群集配置確定群集中最低有效投票數,當總投票數低于最低有效投票數是,群集將停止運行,群集上的服務和程序將被掛起(不可訪問)。
 Quorum: 多數票
 首選所有者:在故障轉移群集中,可以設定當故障發生時備用節點的選擇順序,第一個被備選節點即首選所有者。
 自動故障轉移:群集中各個節點存儲群集相關的信息,節點間相互監控并以投票方式來決定群集的運行狀態,當某個節點發生變化時,其信息會被傳播到其他節點,當主節點發生故障時,根據群集配置來選擇一個備選節點,將群集中相關的資源轉移到該備選節點,使其對外提供服務。

 

SQL Server鏡像:節點與磁盤多數,見證磁盤也被視作一個節點,可承受一半節點失效;在故障轉移群集中,當節點數是偶數時,推薦使用節點和文件共享多數的仲裁配置,最低有效投票數

在(1)和(2)這兩種情況下,沒有引入仲裁,或者仲裁模式是:無多數(僅磁盤),只要磁盤聯機,便可以承受只有一個節點存活的故障

 

(1)High Performance模式下,出現異常:MIRROR數據庫有問題,這時候PRINCIPLE數據庫會處于 (Principle, Disconnected) 狀態。Principle數據庫依舊能正常服務。


(2)High Satefy模式沒有witness,出現異常:MIRROR數據庫有問題,無法連接,PRINCIPLE數據庫會處于 (Principle, Disconnected) 狀態。Principle數據庫依舊能正常服務。

 

(3)仲裁模式是:節點與磁盤多數,見證磁盤也被視作一個節點,可承受一半節點失效,節點為奇數包括見證服務器
(3)High Satefy模式但有witness,出現異常:MIRROR數據庫有問題,PRINCIPLE數據庫會處于 (Principle, Disconnected) 狀態。在這種情況下,PRINCIPLE數據庫依舊能正常服務,PRINCIPLE數據庫服務器有問題,服務停止,這時候,witness和mirror服務器會組成新的仲裁, 由mirror數據庫轉換成Principle. 處于(Principle, Disconnected) 狀態,繼續服務。

當原先的PRINCIPLE數據庫服務器恢復正常時,鏡像會自動形成,原先的Principle數據庫會變成新的鏡像服務器,

 

 
 
參考文章:
 

文章列表


不含病毒。www.avast.com
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()