初識中間件之消息隊列

文章出處

1 消息隊列概述

消息隊列是分布式系統中的重要組件，主要解決應用耦合，異步消息，流量削鋒等問題，以實現高性能，高可用，可伸縮和最終一致性架構，是大型分布式系統中不可缺少的中間件。

目前使用較多的消息隊列有ActiveMQ，RabbitMQ，ZeroMQ，Kafka，MetaMQ，RocketMQ等，比如我之前用過的RabbitMQ以及kafka。

2 消息隊列應用場景

在實際應用中，消息隊列常用于異步處理、應用解耦、流量削鋒和消息通訊這四個場景。

2.1 異步處理

用戶注冊后，需要發注冊郵件和注冊短信。傳統的做法有兩種：1.串行；2.并行。

串行：將注冊信息寫入數據庫成功后，發送注冊郵件，再發送注冊短信。以上三個任務全部完成后，再返回結果給客戶端，如圖所示：

并行：將注冊信息寫入數據庫成功后，發送注冊郵件的同時，發送注冊短信。以上三個任務完成后，返回給客戶端。與串行的差別是，并行的方式可以提高處理的時間，如圖所示：

假設三個業務節點，每個使用50ms，不考慮網絡等其他開銷，則串行方式的時間是150ms，并行的時間可能是100ms。

因為CPU在單位時間內處理的請求數是一定的，假設CPU1秒內吞吐量是1次，則串行方式1秒內CPU可處理的請求量是7次（1000/150），并行方式處理的請求量是10次（1000/100）。

小結：如以上案例描述，傳統方式系統的性能（并發量，吞吐量，響應時間）會有瓶頸。如何解決這個問題呢？

引入消息隊列，將不是必須的業務邏輯進行異步處理。改造后的架構如下：

注冊郵件和發送短信寫入消息隊列后，直接返回，因此寫入消息隊列的速度很快，基本可以忽略，預估為5ms，再加上注冊信息寫入數據庫的時間50ms，總體響應時間就只有55ms。可見架構改變后，系統的TPS提高到了20（1000/55），比串行提高了3倍，比并行提高了2倍。

2.2 應用解耦

用戶下單后，訂單系統需要通知庫存系統。傳統的做法是，訂單系統調用庫存系統的接口，如圖所示：

傳統模式的缺點：

假如庫存系統無法訪問，則訂單減庫存將失敗，從而導致下單失敗；
訂單系統與庫存系統耦合。

如何解決以上問題呢？引入消息隊列后的方案如下圖所示：

訂單系統：用戶下單后，訂單系統完成持久化處理，將消息寫入消息隊列，返回用戶訂單下單成功；
庫存系統：訂閱下單的消息，采用拉/推的方式，獲取下單信息，庫存系統根據下單信息，進行庫存操作；
假如在下單時庫存系統不能正常使用，也不影響正常下單，因為下單后，訂單系統寫入消息隊列就不再關心其他的后續操作了。實現訂單系統與庫存系統的應用解耦。

2.3 流量削鋒

流量削鋒也是消息隊列中的常用場景，一般在秒殺或團搶活動中使用廣泛。

秒殺活動，可能會因為流量暴增而導致應用掛掉。為了解決這個問題，一般需要在應用前端加入消息隊列，這樣做的用處有：

可以控制參加活動的人數；
可以緩解短時間內流量增長的速度，避免壓垮應用；
服務器接收用戶的請求后，首先寫入消息隊列。假如消息隊列長度超過最大數量，則直接拋棄用戶請求或跳轉到錯誤頁面；
秒殺業務根據消息隊列中的請求信息，再做后續處理。

2.4 日志處理

日志處理是指將消息隊列用在日志處理中，比如Kafka的應用，解決大量日志傳輸的問題。架構簡化如下：

日志采集客戶端：負責日志數據采集，定時寫入Kafka隊列；
Kafka消息隊列：負責日志數據的接收、存儲和轉發；
日志處理業務：訂閱并消費Kafka隊列中的日志數據。

以下是新浪的Kafka日志處理應用案例：

Kafka：接收用戶日志的消息隊列；
Logstash：做日志解析，統一成JSON輸出給Elasticsearch；
Elasticsearch：實時日志分析服務的核心技術，由Schemaless提供實時的數據存儲服務，通過index組織數據，兼具強大的搜索和統計功能；
Kibana：基于Elasticsearch的數據可視化組件，超強的數據可視化能力是眾多公司選擇ELK stack的重要原因。

2.5 消息通訊

消息隊列一般都內置了高效的通信機制，因此也可以用于單純的消息通訊，比如實現點對點消息隊列或者聊天室等。

點對點通訊：

客戶端A和客戶端B使用同一隊列，進行消息通訊。

聊天室通訊：

客戶端A，客戶端B，客戶端N訂閱同一主題，進行消息發布和接收，即可實現類似聊天室的效果。

3 消息中間件示例

3.1 電商系統

消息隊列采用高可用，可持久化的消息中間件，比如Active MQ，Rabbit MQ以及Rocket Mq。

應用將主干邏輯處理完成后，寫入消息隊列。消息發送是否成功可以開啟消息的確認模式。（消息隊列返回消息接收成功狀態后，應用再返回，這樣保障消息的完整性）；
擴展流程（發短信，進銷存處理）訂閱隊列消息，采用推或拉的方式獲取消息并處理；
消息將應用解耦的同時，帶來了數據一致性問題，可以采用最終一致性方式解決。比如主數據寫入數據庫，擴展應用根據消息隊列，并結合數據庫方式實現基于消息隊列的后續處理。

3.2日志收集系統

分為Zookeeper注冊中心、日志收集客戶端、Kafka集群和Storm集群（OtherApp）四部分組成。

Zookeeper注冊中心，提出負載均衡和地址查找服務；
日志收集客戶端，用于采集應用系統的日志，并將數據推送到kafka隊列；
Kafka集群：接收，路由，存儲，轉發等消息處理；
Storm集群：與OtherApp處于同一級別，采用拉的方式消費隊列中的數據。

4 JMS消息服務

講消息隊列就不得不提JMS 。JMS（JAVA Message Service,Java消息服務）API是一個消息服務的標準/規范，允許應用程序組件基于JavaEE平臺創建、發送、接收和讀取消息。它使分布式通信耦合度更低，消息服務更加可靠以及異步性。

在EJB架構中，有消息Bean可以無縫地與JM消息服務集成。在J2EE架構模式中，有消息服務者模式，用于實現消息與應用直接的解耦。

4.1消息模型

在JMS標準中，有兩種消息模型P2P（Point to Point）和Publish/Subscribe(Pub/Sub)。

4.1.1 P2P模式

P2P模式包含三個角色：消息隊列（Queue），發送者(Sender)以及接收者(Receiver)。每個消息都被發送到一個特定的隊列，接收者從隊列中獲取消息。隊列保留著消息，直到他們被消費或超時。我們的跨境電商項目目前用的就是這種模式。

P2P的特點：

每個消息只有一個消費者（Consumer）(即一旦被消費，消息就不再在消息隊列中)；
發送者和接收者之間在時間上沒有依賴性，也就是說當發送者發送了消息之后，不管接收者有沒有正在運行，它不會影響到消息被發送到隊列；
接收者在成功接收消息之后需向隊列應答成功。

如果希望發送的每個消息都會被成功處理的話，那么需要P2P模式。

4.1.2 Pub/Sub模式

包含三個角色：主題（Topic），發布者（Publisher）以及訂閱者（Subscriber）。多個發布者將消息發送到Topic,系統將這些消息傳遞給多個訂閱者。

Pub/Sub的特點：

每個消息可以有多個消費者；
發布者和訂閱者之間有時間上的依賴性。針對某個主題（Topic）的訂閱者，它必須創建一個訂閱者之后，才能消費發布者的消息；
為了消費消息，訂閱者必須保持運行的狀態。

為了緩和這樣嚴格的時間相關性，JMS允許訂閱者創建一個可持久化的訂閱。這樣，即使訂閱者沒有被激活（運行），它也能接收到發布者的消息。

如果希望發送的消息可以不被做任何處理、或者只被一個消息者處理、或者可以被多個消費者處理的話，那么可以采用Pub/Sub模型。

4.2 消息消費

在JMS中，消息的產生和消費都是異步的，JMS的消費者可以通過兩種方式來消費消息。

同步：訂閱者或接收者通過Receive方法來接收消息，Receive方法在接收到消息之前（或超時之前）將一直阻塞；
異步：訂閱者或接收者可以注冊為一個消息監聽器，當消息到達之后，系統自動調用監聽器的onMessage方法。

JNDI：Java命名和目錄接口,是一種標準的Java命名系統接口。可以在網絡上查找和訪問服務。通過指定一個資源名稱，該名稱對應于數據庫或命名服務中的一個記錄，同時返回資源連接建立所必須的信息。

JNDI在JMS中起到查找和訪問發送目標或消息來源的作用。

4.3 JMS編程模型

(1) ConnectionFactory

創建Connection對象的工廠，針對兩種不同的JMS消息模型，分別有QueueConnectionFactory和TopicConnectionFactory兩種。可以通過JNDI來查找ConnectionFactory對象。

(2) Destination

Destination的意思是消息生產者的消息發送目標或者說消息消費者的消息來源。對于消息生產者來說，它的Destination是某個隊列（Queue）或某個主題（Topic）;對于消息消費者來說，它的Destination也是某個隊列或主題（即消息來源）。

所以，Destination實際上就是兩種類型的對象：Queue、Topic可以通過JNDI來查找Destination。

(3) Connection

Connection表示在客戶端和JMS系統之間建立的鏈接（對TCP/IP Socket的包裝）。Connection可以產生一個或多個Session。跟ConnectionFactory一樣，Connection也有兩種類型：QueueConnection和TopicConnection。

(4) Session

Session是操作消息的接口。可以通過Session創建生產者、消費者、消息等。Session提供了事務的功能。當需要使用Session發送/接收多個消息時，可以將這些發送/接收動作放到一個事務中。同樣，也分QueueSession和TopicSession。

(5) 消息的生產者

消息生產者由Session創建，并用于將消息發送到Destination。同樣，消息生產者分兩種類型：QueueSender和TopicPublisher。可以調用消息生產者的方法（send或publish方法）發送消息。

(6) 消息消費者

消息消費者由Session創建，用于接收被發送到Destination的消息。兩種類型：QueueReceiver和TopicSubscriber。可分別通過Session的createReceiver(Queue)或createSubscriber(Topic)來創建。當然，也可以使用Session的creatDurableSubscriber方法來創建持久化的訂閱者。

(7) MessageListener

消息監聽器。如果注冊了消息監聽器，一旦消息到達，將自動調用監聽器的onMessage方法。EJB中的MDB（Message-Driven Bean）就是一種MessageListener。

5 常用消息隊列

一般商用的容器，比如WebLogic，JBoss，都支持JMS標準，開發上很方便。但免費的比如Tomcat，Jetty等則需要使用第三方的消息中間件。本部分內容介紹常用的消息中間件（Rabbit MQ,Rabbit MQ，Zero MQ,Kafka）以及它們的特點。

5.1 RabbitMQ

RabbitMQ是流行的開源消息隊列系統，用erlang語言開發。RabbitMQ是AMQP（高級消息隊列協議）的標準實現，支持多種客戶端，如：Python、Ruby、.NET、Java、JMS、C、PHP、ActionScript、XMPP、STOMP等，支持AJAX，持久化。用于在分布式系統中存儲轉發消息，在易用性、擴展性、高可用性等方面表現不俗。我們的跨境電商項目選用的消息隊列就是RabbitMQ。

結構圖如下：

幾個重要概念：

Broker：簡單來說就是消息隊列服務器實體；
Exchange：消息交換機，它指定消息按什么規則，路由到哪個隊列；
Queue：消息隊列載體，每個消息都會被投入到一個或多個隊列；
Binding：綁定，它的作用就是把Exchange和Queue按照路由規則綁定起來；
Routing Key：路由關鍵字，Exchange根據這個關鍵字進行消息投遞；
Vhost：虛擬主機，一個Broker里可以開設多個Vhost，用作不同用戶的權限分離；
Producer：消息生產者，就是投遞消息的程序；
Consumer：消息消費者，就是接受消息的程序；
Channel：消息通道，在客戶端的每個連接里，可建立多個Channel，每個Channel代表一個會話任務。

消息隊列的使用過程如下：

（1）生產者和消費者連接到消息隊列服務器，打開一個Channel；

（2）生產者和消費者聲明一個Exchange，并設置相關屬性；

（3）生產者和消費者聲明一個Queue，并設置相關屬性；

（4）生產者和消費者使用Routing Key，在Exchange和Queue之間建立好綁定關系；

（5）生產者投遞消息到Exchange。Exchange接收到消息后，就根據消息的Key和已經設置的Binding進行消息路由，將消息投遞到一個或多個隊列里；

（6）消費者從隊列讀取消息進行消費。

5.2 ActiveMQ

ActiveMQ 是Apache出品，最流行的，能力強勁的開源消息總線。ActiveMQ 是一個完全支持JMS1.1和J2EE 1.4規范的 JMS Provider實現，盡管JMS規范出臺已經是很久的事情了，但是JMS在當今的J2EE應用中仍然扮演著特殊的地位。

ActiveMQ特性如下：

多種語言和協議編寫客戶端。語言: Java,C,C++,C#,Ruby,Perl,Python,PHP。應用協議： OpenWire,Stomp REST,WS Notification,XMPP,AMQP；
完全支持JMS1.1和J2EE 1.4規范（持久化，XA消息，事務)；
對Spring的支持，ActiveMQ可以很容易內嵌到使用Spring的系統里面去，而且也支持Spring2.0的特性；
通過了常見J2EE服務器（如 Geronimo,JBoss 4,GlassFish,WebLogic)的測試，其中通過JCA 1.5 Resource Adaptors的配置，可以讓ActiveMQ可以自動地部署到任何兼容J2EE 1.4 商業服務器上；
支持多種傳送協議：in-VM,TCP,SSL,NIO,UDP,JGroups,JXTA；
支持通過JDBC和Journal提供高速的消息持久化；
從設計上保證了高性能的集群，客戶端-服務器，點對點；
支持Ajax；
支持與Axis的整合；
可以很容易地調用內嵌JMS provider，進行測試。

5.3 ZeroMQ

號稱史上最快的消息隊列，它實際類似于Socket的一系列接口，跟Socket的區別是：普通的Socket是端到端的（1:1的關系），而ZeroMQ卻是可以N：M 的關系，人們對BSD套接字的了解較多的是點對點的連接，點對點連接需要顯式地建立連接、銷毀連接、選擇協議（TCP/UDP）和處理錯誤等，而ZeroMQ屏蔽了這些細節，讓網絡編程更為簡單。ZeroMQ用于Node與Node間的通信，Node可以是主機或者是進程。

引用官方的說法： “ZeroMQ是一個簡單好用的傳輸層，像框架一樣的一個Socket Library，它使得Socket編程更加簡單、簡潔和高性能。同時也是一個消息處理隊列庫，可在多個線程、內核和主機盒之間彈性伸縮。ZeroMQ的明確目標是“成為標準網絡協議棧的一部分，之后進入Linux內核”。現在還未看到它們的成功。但是，它無疑是極具前景的、并且是人們更加需要的“傳統”BSD套接字之上的一層封裝。ZeroMQ讓編寫高性能網絡應用程序極為簡單和有趣。”

特點如下：

高性能，非持久化；
跨平臺：支持Linux、Windows、OS X等；
多語言支持： C、C++、Java、.NET、Python等30多種開發語言；
可單獨部署或集成到應用中使用；
可作為Socket通信庫使用。

與RabbitMQ相比，ZeroMQ并不像是一個傳統意義上的消息隊列服務器，事實上，它也根本不是一個服務器，更像一個底層的網絡通訊庫，在Socket API之上做了一層封裝，將網絡通訊、進程通訊和線程通訊抽象為統一的API接口。支持“Request-Reply “，”Publisher-Subscriber“，”Parallel Pipeline”三種基本模型和擴展模型。

ZeroMQ高性能設計要點：

無鎖的隊列模型：對于跨線程間的交互（用戶端和Session）之間的數據交換通道Pipe，采用無鎖的隊列算法CAS；在Pipe兩端注冊有異步事件，在讀或者寫消息到Pipe的時，會自動觸發讀寫事件；
批量處理的算法：對于傳統的消息處理，每個消息在發送和接收的時候，都需要系統的調用，這樣對于大量的消息，系統的開銷比較大，zeroMQ對于批量的消息，進行了適應性的優化，可以批量地接收和發送消息；
多核下的線程綁定，無須CPU切換：區別于傳統的多線程并發模式，信號量或者臨界區，ZeroMQ充分利用多核的優勢，每個核綁定運行一個工作者線程，避免多線程之間的CPU切換開銷。

5.4 Kafka

Kafka是一種高吞吐量的分布式發布訂閱消息系統，它可以處理消費者規模的網站中的所有動作流數據。這種動作（網頁瀏覽，搜索和其他用戶的行動）是在現代網絡上的許多社會功能的一個關鍵因素。這些數據通常是由于吞吐量的要求而通過日志聚合和分析來解決。對于像Hadoop一樣的日志數據離線分析系統，如果有實時處理的需求，Kafka就是一個可行的解決方案。Kafka的目的是通過Hadoop的并行加載機制來統一線上和離線的消息處理，也是為了通過集群機來提供實時的消費。

Kafka是一種高吞吐量的分布式發布訂閱消息系統，有如下特性：

通過O(1)的磁盤數據結構提供消息的持久化，這種結構對于即使數以TB的消息存儲也能夠保持長時間的穩定性能。（文件追加的方式寫入數據，過期的數據定期刪除）；
高吞吐量：即使是非常普通的硬件Kafka也可以支持每秒數百萬的消息；
支持通過Kafka服務器和消費機集群來分區消息；
支持Hadoop并行數據加載。

Kafka相關概念：

Broker：Kafka集群包含一個或多個服務器，這種服務器被稱為Broker；
Topic：每條發布到Kafka集群的消息都有一個類別，這個類別被稱為Topic（物理上不同Topic的消息分開存儲，邏輯上一個Topic的消息雖然保存于一個或多個Broker上，但用戶只需指定消息的Topic即可生產或消費數據，而不必關心數據存于何處）；
Partition：Parition是物理上的概念，每個Topic包含一個或多個Partition；
Producer：負責發布消息到Kafka Broker；
Consumer：消息消費者，即向Kafka Broker讀取消息的客戶端；
Consumer Group：每個Consumer屬于一個特定的Consumer Group（可為每個Consumer指定Group Name，若不指定Group Name則屬于默認的Group）。