文章出處

問題描述

在C/S模式中,有時我們會長時間保持一個連接,以避免頻繁地建立連接,但同時,一般會有一個超時時間,在這個時間內沒發起任何請求的連接會被斷開,以減少負載,節約資源。并且該機制一般都是在服務端實現,因為client強制關閉或意外斷開連接,server端在此刻是感知不到的,如果放到client端實現,在上述情況下,該超時機制就失效了。本來這問題很普通,不太值得一提,但最近在項目中看到了該機制的一種糟糕的實現,故在此深入分析一下。

問題分析及解決方案

服務端一般會保持很多個連接,所以,一般是創建一個定時器,定時檢查所有連接中哪些連接超時了。此外我們要做的是,當收到客戶端發來的數據時,怎么去刷新該連接的超時信息?

最近看到一種實現方式是這樣做的

復制代碼
public class Connection {
    private long lastTime;
    public void refresh() {
        lastTime = System.currentTimeMillis();
    }

    public long getLastTime() {
        return lastTime;
    }
    //......
}
復制代碼

在每次收到客戶端發來的數據時,調用refresh方法。

然后在定時器里,用當前時間跟每個連接的getLastTime()作比較,來判定超時:

復制代碼
public class TimeoutTask  extends Runnable{
    public void run() {
        long now = System.currentTimeMillis();
        for(Connection c: connections){
            if(now - c.getLastTime()> TIMEOUT_THRESHOLD)
                ;//timeout, do something
        }
    }
}
復制代碼

看到這,可能不少讀者已經看出問題來了,那就是內存可見性問題,調用refresh方法的線程跟執行定時器的線程肯定不是一個線程,那run方法中讀到的lastTime就可能是舊值,即可能將活躍的連接判定超時,然后被干掉,而且這種誤判不會限定在某個范圍內(下文會提到一個波動范圍)。

有讀者此時可能想到了這樣一個方法,將lastTime加個volatile修飾,是的,這樣確實解決了問題,不過,作為服務端,很多時候對性能是有要求的,下面來看下在我電腦上測出的一組數據,測試代碼如下,供參考

復制代碼
public class PerformanceTest {
    private static long i;
    private volatile static long vt;
    private static final int TEST_SIZE = 10000000;

    public static void main(String[] args) {
        long time = System.nanoTime();
        for (int n = 0; n < TEST_SIZE; n++)
            vt = System.currentTimeMillis();
        System.out.println(-time + (time = System.nanoTime()));
        for (int n = 0; n < TEST_SIZE; n++)
            i = System.currentTimeMillis();
        System.out.println(-time + (time = System.nanoTime()));
        for (int n = 0; n < TEST_SIZE; n++)
            synchronized (PerformanceTest.class) {
            }
        System.out.println(-time + (time = System.nanoTime()));
        for (int n = 0; n < TEST_SIZE; n++)
            vt++;
        System.out.println(-time + (time = System.nanoTime()));
        for (int n = 0; n < TEST_SIZE; n++)
            vt = i;
        System.out.println(-time + (time = System.nanoTime()));
        for (int n = 0; n < TEST_SIZE; n++)
            i = vt;
        System.out.println(-time + (time = System.nanoTime()));
        for (int n = 0; n < TEST_SIZE; n++)
            i++;
        System.out.println(-time + (time = System.nanoTime()));
        for (int n = 0; n < TEST_SIZE; n++)
             i = n;
         System.out.println(-time + (time = System.nanoTime()));
     }
}
復制代碼

測試一千萬次,結果是(耗時單位:納秒,包含循環本身的時間):
238932949     volatile寫+取系統時間
144317590     普通寫+取系統時間
135596135     空的同步塊(synchronized)
80042382       volatile變量自增
15875140       volatile寫
6548994         volatile讀
2722555         普通自增
2949571         普通讀寫

從上面的數據看來,volatile寫+取系統時間的耗時是很高的,取系統時間的耗時也比較高,跟一次無競爭的同步差不多了,接下來分析下如何優化該超時時機。

首先:同步問題是肯定得考慮的,因為有跨線程的數據操作;另外,取系統時間的操作比較耗時,能否不在每次刷新時都取時間?因為刷新調用在高負載的情況下很頻繁。如果不在刷新時取時間,那又該怎么去判定超時?

上面的問題可以作個比喻,如果老師想知道哪些學生來上課了,要么對每張桌子掃一眼,看誰來了;要么讓來了的人,到老師那簽下到,然后老師直接查簽到表。應該沒有第三種形式了吧?
第一種方式就是我接下來采取的辦法,壞處是要全局掃描,第二種方式確實是避免了全局掃描,但壞處是,每個學生得按順序去簽到,同學間對簽到表互相競爭,前者適合大部分學生都到課的情況(在此處,也就是在高負載下,很多連接都是活躍的),后者適合,少數人到課的情況。

第一種方式的實現是,在refresh方法里,僅設置一個volatile的boolean變量reset(這應該是成本最小的了吧,因為要處理同步問題,要么同步塊,要么volatile,而volatile讀在此處是沒什么意義的),對時間的掌控交給定時器來做,并為每個連接維護一個計數器,每次加一,如果reset被設置為true了,則計數器歸零,并將reset設為false(因為計數器只由定時器維護,所以不需要做同步處理,從上面的測試數據來看,普通變量的操作,時間成本是很低的),如果計數器超過某個值,則判定超時。 下面給出具體的代碼:

復制代碼
/**
 * 
 * @author trytocatch@163.com
 * @date 2014-2-17
 */
public class Connection {
    int count = 0;
    volatile boolean reset = false;
    public void refresh() {
        if (reset == false)
            reset = true;
    }
}

public class TimeoutTask extends Runnable {
    public void run() {
        for (Connection c : connections) {
            if (c.reset) {
                c.reset = false;
                c.count = 0;
            } else if (++c.count >= TIMEOUT_COUNT)
                ;// timeout, do something
        }
    }
}
復制代碼

代碼中的TIMEOUT_COUNT 等于超時時間除以定時器的周期,周期大小既影響定時器的執行頻率,也會影響實際超時時間的波動范圍(這個波動,第一個方案也存在,也不太可能避免,并且也不需要多么精確),在這個波動范圍內,能保證一定會干掉超時連接,或一定不會干掉活躍連接。

代碼很簡潔,下面來分析一下。

reset加上了volatile,所以保證了多線程操作的可見性,雖然有兩個線程都對變量有寫操作,但無論這兩個線程怎么穿插執行,都不會影響其邏輯含義。

再說下refresh方法,為什么我在賦值語句上多加了個條件?這不是多了一次volatile讀操作嗎?我是這么考慮的,高負載下,refresh會被頻繁調用,意味著reset長時間為true,那么加上條件后,就不會執行寫操作了,只有一次讀操作,從上面的測試數據來看,volatile變量的讀操作的性能是顯著優于寫操作的。只不過在reset為false的時候,多了一次讀操作,但此情況在定時器的一個周期內最多只會發一次,而且對高負載情況下的優化顯然更有意義,所以我認為加上條件還是值得的。

最后提及一下,我有點完美主義,自認為上面的方案在我當前掌握的知識下,已經很漂亮了,如果你發現還有可優化的地方,或更好的方案,希望能分享。


文章列表




Avast logo

Avast 防毒軟體已檢查此封電子郵件的病毒。
www.avast.com


arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()