關于CLR內存管理一些深層次的討論 [下篇]
《上篇》中我們主要討論的是程序集(Assembly)和應用程序域(AppDomain)的話題,著重介紹了兩個不同的程序集加載方式——獨占方式和共享方式(中立域方式);以及基于進程范圍內的字符串駐留。這篇將關注點放在托管對象創建時內存的分配和對大對象(LO:Large Object)的回收上,不對之處,還望各位能夠及時指出。
一、從類型(Type)與實例(Instance)談起
在面向對象的世界中,類型和實例是兩個核心的要素。不論是類型和實例,相關的信息比如加載到內存中,對應著某一塊或者多塊連續或者不連續的內存。那么對類型和實例的內存分配時如何進行的呢?對象是“狀態”和“行為”的組合體,所以從.NET Framework的角度來看類型,它只具有兩種類型的成員——字段和方法(實際還有嵌套類型),前者表示狀態,后者表示行為。類型是對元數據的描述,而實例則是符合該元數據描述的單個個體。同一個類型下的所有實例具有相同的行為,它們通過狀態值的不同得以區分。所以內存中的實例(本篇所說的實例指代引用類型的實例)表示的是字段值,而內存中的類型表示的則是類型成員結構的元數據。很多人都知道,當我們創建一個對象的時候,CLR會在GC堆(Heap)中開辟一塊連續的內存空間保存字段值。那么類型信息又是保存在那塊內存上呢?
實際上,類型信息保存在“另一堆”上,我們稱之為加載器堆(Loader Heap)。每一個應用程序域都具有各自的加載器堆,即包括我們創建的普通應用程序域,也包括《上篇》中提到的三個特殊應用程序域:系統程序域、共享程序域和默認程序域。如果說GC堆是實例的容器,那么基于應用程序域的加載器堆就是類型的容器。CLR采用“按需加載(這里指的是類型,不是程序集)、及時編譯”的運行機制。當某個類型被第一次使用的時候,CLR試圖加載該類型。如果該類型對應的程序沒有獨自地加載到本應用程序域中,或者沒有通過中立域的形式加載到共享程序域中,它會按照相應的方式加載程序集(在這里我們假設采用獨占方式加載)。然后,將使用到的這個類型加載到本應用程序域的加載器堆中。
加載器堆維護著自應用程序域創建以來使用過的所有類型記錄,它們對應著一個特殊的對象——方法表(Method Table)。當程序第一次執行到某個方法的時候,CLR會定位到方法表中該條目,獲取相關信息進行JIT編譯。所以如果某個類型在加載器堆中的方法表的某個條目至少被執行一次,它就會指向一段JIT編譯后的機器指令。
二、實例內存分配不僅限于GC堆
到現在為止,我們知道了類型和實例分別分配于基于應用程序域的加載器堆和GC堆中,那么CLR的內存分配僅僅限于這“兩堆”嗎?當然不是,除了這“兩堆”以及默認的進程堆,還有額外“兩堆”,一是存放JIT編譯后機器指令的JIT堆(JIT Heap),另一個則是專門用于“大對象”的大對象堆(LOH: Large Object Heap)。下圖反映了CLR主要維護的這些個不同的“堆”。
對于大對象堆,在本文后續部分還會講述,在這里我們需要先了解CLR認為怎樣的對象是“大對象”。當我們實例化一個對象的時候,如果該對象大于或者等于85,000字節(這種對象一般是數組,一般對象不會這么大),CLR將認為是“大對象”并被放到LOH中,否則放到GC堆中。這里有一點需要讀者注意的是,作為垃圾回收器的GC并不僅僅限于針對GC堆中對象的回收,LOH中的對象的回收工作通過在GC的管轄之下。所以從某種意義上講:你可以將之前提到的GC堆理解為SOH(Small Object Heap),或者稱之為“狹義GC堆”,而將“廣義GC堆”理解為SOH+LOH。
三、實例對類型的引用
實例是類型的實例,實例和它所對應的類型需要維持一種聯系。反映在內存中,就以為著分配在GC堆或者是LOH中的對象具有一個對位于加載器堆中該類型的方法表的引用。實例對類型的引用通過一個特殊的對象來維系——TypeHandle。我們舉個例子,在如下一段簡單的對象實例化代碼中 ,我先后實例化了四個對象:字符串“ABC”、System.Object對象、自定義Bar對象和具有85000個元素的字節數組。
1: string strInstance = "ABC";
2: object objectInstance = new object();
3: Bar barInstance = new Bar()
4: byte[] largeObjInstance = new byte[85000];
當上面的程序執行后,圍繞著實例化的四個對象和類型信息,在內存中將會具有如下一個關系。最左邊的是現成調用棧中的上述四個變量,對于字符串類型的strInstance,由于《上篇》所講述的關于字符串駐留機制,最后總的字符串被分配到系統程序域中;Object和Bar類型的objectInstance與barInstance由于是小于85000字節的小對象,所以被分配到GC堆中。objectInstance通過TypeHandle指向位于共享程序域中System.Objhect類型對應的方法表(因為定義該類型的mscorlib程序集以中立域的方式加載),而barInstance得TypeHandle指向的基于Bar類型的方法表則位于默認程序域中(因為程序域默認采用獨占的方式加載)。元素個數為85000的字節數組largeObjInstance屬于大對象,直接分配到LOH中。largeObjInstance的TypeHandle指向的基于System.Byte[]類型的方法表,該System.Byte[]類型同樣定義在mscorlib程序集中,所以該方法表同樣存在于共享程序域的加載器堆。
了解GC的讀者應該都知道CLR采用基于“代齡(Generation)”的垃圾回收機制。代齡,個人覺得是一個很準確的詞語,它充分體現了設計者用于表現“不同的對象具有不同生命周期”的意思。所有對象分三代,即G0、G1和G2,這實際上代表了三個不同的連續的內存塊。“輩分”越高,表明時間越久;“輩分”越低,被掃蕩(GC回收)的頻率就越高。關于基于代齡的垃圾回收機制,限于篇幅,就說到這里。我們的重點是GC采用怎樣的機制對LOH的對象進行回收。
到目前為止,對于LOH和GC堆中的對象,除了大小之外,我們好像沒有覺得它們之間有何不同。實際上,將大對象放在LOH中,目的在于對其實施特殊的回收機制。關于垃圾收回,我們應該有這樣的認知:回收的成本是和對象的大小基本成“正向”關系,對象越大,回收成本就越大。所以我們不能對大對象頻繁地實施垃圾回收,實際上CLR是將LOH對象當成最高代齡的對象。也就是說,針對LOH的回收工作是和GC堆中G2一并進行的。換句話說,當G2或者LOH的剩余空間低于某個限度,針對它們的垃圾回收便被觸發。關于LOH的垃圾回收機制,我們可以通過一個非常簡單的程序來驗證。
1: class Program
2: {
3: static WeakReference SmallObjRef;
4: static WeakReference LargeObjRef;
5:
6: static void Main(string[] args)
7: {
8: SetValues();
9: GC.Collect(0);
10: Console.WriteLine("GC.Collect(0)");
11: Console.WriteLine("SmallObjRef.Target == null? {0}", SmallObjRef.Target == null);
12: Console.WriteLine("LargeObjRef.Target == null? {0}\n", LargeObjRef.Target == null);
13:
14: GC.Collect(1);
15: Console.WriteLine("GC.Collect(1)");
16: Console.WriteLine("LargeObjRef.Target == null? {0}\n", LargeObjRef.Target == null);
17:
18: GC.Collect(2);
19: Console.WriteLine("GC.Collect(2)");
20: Console.WriteLine("LargeObjRef.Target == null? {0}\n", LargeObjRef.Target == null);
21: }
22:
23: static void SetValues()
24: {
25: SmallObjRef = new WeakReference(new byte[84000]);
26: LargeObjRef = new WeakReference(new byte[85000]);
27: }
28: }
輸出結果:
1: GC.Collect(0)
2: SmallObjRef.Target == null? True
3: LargeObjRef.Target == null? False
4:
5: GC.Collect(1)
6: LargeObjRef.Target == null? False
7:
8: GC.Collect(2)
9: LargeObjRef.Target == null? True
在上面的代碼中沒,我創建了兩個WeakReference對象,它們的Target分別被設置成byte[84000]和byte[85000]。按照我們上面關于對“大對象”的界定,后者是大對象,前者不是。然后,我們先后三次對G0、G1和G2實施垃圾回收,我們發現“小對象”在實施針對G0的垃圾回收后就沒了;而“大對象”會一直存活直到針對G2的垃圾回收被執行。