文章出處

解剖SQLSERVER 第十六篇 OrcaMDF RawDatabase --MDF文件的瑞士軍刀（譯）

http://improve.dk/orcamdf-rawdatabase-a-swiss-army-knife-for-mdf-files/

當我最初開始開發OrcaMDF的時候我只有一個目標，比市面上大部分的書要獲取MDF文件內部的更深層次的知識

隨著時間的推移，OrcaMDF確實做到了。在我當初沒有計劃的時候，OrcaMDF 已經可以解析系統表，元數據，甚至DMVs。我還做了一個簡單UI，讓OrcaMDF 更加容易使用。

這很好，但是帶來的代價是軟件非常復雜。為了自動解析元數據例如schemas, partitions, allocation units 還有其他的東西，更不要提對于堆表和索引的細節的抽象層了，抽象層需要很多代碼并且需要更多的數據庫了解。鑒于不同SQLSERVER版本之間元數據的改變，OrcaMDF 目前僅支持SQL Server 2008 R2。然而，數據結構是相對穩定的，元數據的存儲方式只有一點不同，使用DMVs暴露數據等等。要讓OrcaMDF 正常運行，需要元數據是完好無損的，這就導致當SQLSERVER損壞的時候OrcaMDF 也是一樣的。遇到損壞的boot page嗎？無論SQLSERVER還是 OrcaMDF 都不能解析數據庫

向RawDatabase問好
我在憧憬OrcaMDF 的未來和如何使用他才是最有用的。我能夠不斷增加新的特性進去以使SQLSERVER支持什么功能他也支持，最終使得他能100%解析MDF文件。但是意義何在？當然，這是一個很好的學習機會，不過重點是，你使用軟件讀取數據，SQLSERVER能比你做得更好。所以，該如何選擇？

RawDatabase, 參照Database 類，他不會嘗試解析任何東西除非你讓他去解析。
他不會自動解析schemas。他不知道系統表。他不知道DMVs。然而他知道SQLSERVER數據結構和給他一個接口他可以直接讀取MDF文件。

讓RawDatabase 只解析數據結構意味著他可以跳過損壞的系統表或者損壞的數據

例子
這個工具還在開發的早起，不過讓我展示一下使用RawDatabase能夠做什么東西。
當我運行LINQPad上的代碼，他很容易的顯示出結果，結果只是標準的.NET 對象。
所有的例子都在AdventureWorks 2008R2 LT (Light Weight)數據庫上運行

獲取單個頁面
很多時候，我們只需要解析單個頁面

// Get page 197 in file 1
var db = new RawDatabase(@"C:\AWLT2008R2.mdf");
db.GetPage(1, 197).Dump();

解析頁頭
現在我們獲取到頁面，我們如何把頁頭dump出來

// Get the header of page 197 in file 1
var db = new RawDatabase(@"C:\AWLT2008R2.mdf");
db.GetPage(1, 197).Header.Dump();

解析行偏移陣列
就像頁頭那樣，我們也可以把頁尾的行偏移陣列條目dump出來

// Get the slot array entries of page 197 in file 1
var db = new RawDatabase(@"C:\AWLT2008R2.mdf");
db.GetPage(1, 197).SlotArray.Dump();

解析數據記錄
當獲取到行偏移條目的原始數據，你通常想看一下數據行記錄的內容。幸運的是，這也很容易做到

// Get all records on page 197 in file 1
var db = new RawDatabase(@"C:\AWLT2008R2.mdf");
db.GetPage(1, 197).Records.Dump();

從記錄中檢索數據
一旦你得到記錄，你現在可以利用FixedLengthData 或者 VariableLengthOffsetValues 屬性
去獲取原始的定長數據內容和變長數據內容。然而，你肯定只想獲取到實際的已解析的數據值。
對于解析，OrcaMDF會幫你解析，你只需要為他提供schema.

// Read the record contents of the first record on page 197 of file 1
var db = new RawDatabase(@"C:\AWLT2008R2.mdf");
RawPrimaryRecord firstRecord = (RawPrimaryRecord)db.GetPage(1, 197).Records.First();

var values = RawColumnParser.Parse(firstRecord, new IRawType[] {
    RawType.Int("AddressID"),
    RawType.NVarchar("AddressLine1"),
    RawType.NVarchar("AddressLine2"),
    RawType.NVarchar("City"),
    RawType.NVarchar("StateProvince"),
    RawType.NVarchar("CountryRegion"),
    RawType.NVarchar("PostalCode"),
    RawType.UniqueIdentifier("rowguid"),
    RawType.DateTime("ModifiedDate")
});
    
values.Dump();

RawColumnParser.Parse方法做的事情是跟他一個schema,他幫你自動將raw bytes轉換為Dictionary<string, object>，key就是從schema 那里獲取到的列名，

而value就是數據列的實際值，例如int，short，guid，string等等。讓你的用戶給定schema, OrcaMDF 可以跳過大量的依賴的元數據進行解析，因此可以忽略可能的元數據錯誤帶來的數據讀取失敗。

由于頁頭已經給出了 NextPageID 和 PreviousPageID屬性，這能夠讓軟件簡單的遍歷鏈表中的所有頁面，并解析這些頁面里面的數據 --他基本上是根據給定的allocation unit來進行掃描

過濾頁面
除非檢索一個特定的頁面，RawDatabase 也有一個頁面屬性能夠枚舉數據庫中的所有頁面。
使用這個屬性，舉個例子，獲取數據庫中所有的IAM頁面的列表

// Get a list of all IAM pages in the database
var db = new RawDatabase(@"C:\AWLT2008R2.mdf");
db.Pages
    .Where(x => x.Header.Type == PageType.IAM)
    .Dump();

并且由于這是使用LINQ技術，這很容易去設計你想要的屬性。
舉個例子，你可以獲取所有的 index pages 和他們的 slot counts 就像這樣：

// Get all index pages and their slot counts
var db = new RawDatabase(@"C:\AWLT2008R2.mdf");
db.Pages
    .Where(x => x.Header.Type == PageType.Index)
    .Select(x => new {
        x.PageID,
        x.Header.SlotCnt
    }).Dump();

或者假設你想獲得如下條件的頁面
1、頁面里面至少有一條記錄
2、free space空間至少有7000 bytes

下面是page id, free count, record count 和平均記錄大小的輸出

var db = new RawDatabase(@"C:\AWLT2008R2.mdf");
db.Pages
    .Where(x => x.Header.FreeCnt > 7000)
    .Where(x => x.Header.SlotCnt >= 1)
    .Where(x => x.Header.Type == PageType.Data)
    .Select(x => new {
        x.PageID,
        x.Header.FreeCnt,
        RecordCount = x.Records.Count(),
        RecordSize = (8096 - x.Header.FreeCnt) / x.Records.Count()
    }).Dump();

最后一個例子，,假設你只有一個MDF文件并且你已經忘記了有哪些對象存儲在MDF文件里面。
不要緊，我們只需要查詢系統表sysschobjs ！sysschobjs 系統表包含了所有對象的數據
并且幸運的是，他的object ID 是 34。利用這些信息，我們可以把所有屬于object ID 34的數據頁面
過濾出來，并且從這些頁面里讀取記錄并只需要解析這個表的前兩列（你可以定義一個分部schema, 只要你在最后忽略列）

最后我們只需要把名稱dump出來（當然我們可以把表里的所有列都查詢出來，如果我們想的話）

SELECT * FROM sys.sysschobjs

var db = new RawDatabase(@"C:\AWLT2008R2.mdf");

var records = db.Pages
    .Where(x => x.Header.ObjectID == 34 && x.Header.Type == PageType.Data)
    .SelectMany(x => x.Records);
    
var rows = records.Select(x => RawColumnParser.Parse((RawPrimaryRecord)x, new IRawType[] {
    RawType.Int("id"),
    RawType.NVarchar("name")
}));

rows.Select(x => x["name"]).Dump();

兼容性
可以看到 RawDatabase并不依賴于元數據，這很容易兼容多個版本的SQLSERVER。
因此，我很高興的宣布：RawDatabase 完全兼容SQL Server 2005, 2008, 2008R2 ， 2012.
這也有可能兼容2014，不過我還未進行測試。說到測試，所有的單元測試都是自動運行的
在測試期間使用AdventureWorksLT for 2005, 2008, 2008R2 and 2012 。
現在有一些測試demo來讓OrcaMDF RawDatabase去解析AdventureWorks LT 數據庫里面每個表的每條記錄

數據損壞
其中一個有趣的使用RawDatabase 的方法是用來附加損壞的數據庫。你可以檢索特定object id的所有頁面然后硬解析每個頁面
無論他們是否是可讀的。如果元數據損壞，你可以忽略他，你手工提供schema （輸入表的每個列的列名）并且只需要沿著頁面鏈表
或者解析IAM頁面去讀取堆表里面的數據。接下來的幾個星期我將會寫一些關于OrcaMDF RawDatabase 的使用場景的博客，其中包括數據損壞

源代碼和反饋
我非常興奮因為最新的RawDatabase 已經添加到OrcaMDF 里面并且我希望不單只只有我一個見證他的威力。
如果你也想試一試，或者有任何想法，建議或者其他反饋，我都很樂意接受。

如果你想試用，在GitHub上簽出OrcaMDF項目。一旦這個工具做得比較完美了，我會把他放上去NuGet 。
就好像OrcaMDF一樣，在GPL v3 licensed 下發布

第十六篇完

文章列表

不含病毒。www.avast.com

大師兄

IT工程師數位筆記本

大師兄發表在痞客邦留言(0) 人氣( 2 )

全站分類：數位生活
個人分類：生活學習

▲top

請先登入以發表留言。

IT工程師數位筆記本

If you give someone a program , you will frustrate them for a day; if you teach them how to program, you will frustrate them for a lifetime.IT 這段話的意思是，如果你交給某人一隻程式，你將折磨他一整天;如果你教會某人如何寫程式，你將折磨他一輩子。