下載文件時根據MIME類型自動判斷保存文件的擴展名

作者: 斯克迪亞  來源: 博客園  發布時間: 2009-11-12 09:59  閱讀: 3184 次  推薦: 0   原文鏈接   [收藏]  

mime 引言

用WebClient下載遠程資源時,經常會遇到類似這樣的網址:

http://www.uushare.com/filedownload?user=icesee&id=2205188

http://www.guaishow.com/u/luanfujie/g9675/

我們不知道這個Url具體代表的是一個網頁,還是某種類型的文件。

而有些Url雖然帶有擴展名,但可能是錯誤的擴展名,常見的比如把gif文件標上了jpg擴展名。

如果我們沒法正確判斷下載源的文件類型的話,就無法保存為正確的文件格式,會給后續操作及人工閱覽造成困擾。

所幸的是,WebRequest可以給出下載源的MIME信息,這讓我們可以確定文件的真實格式,并以此來決定最終的存儲擴展名。(MIME是什么?

 

建立MIME映射字典

我們首先需要做的工作就是建立一個MIME類型到其對應擴展名的映射字典。

我從網上找來了一個MIME類型列表,并通過正則表達式將其轉換為程序代碼,粘入了程序中:

 image

這個通過正則表達式轉換而來的代碼量非常大。

需注意的是,其中有很多MIME類型相同但擴展名不同的數據,我們在添加到字典時就將多余的不必要記錄忽略了,比如高亮處的那三條都是audio/x-aiff類型,那么后兩個擴展名都不會添加到字典中,也不會在后續的操作中被使用。

如果你覺得有些類型添加的對應擴展名不是最常見的對應類型的話,就得手動調整代碼了。(下文中就出現了這種情況,如text/html對應的是dhtml擴展名,image/jpeg對應的是jpe擴展名)

字典構建完畢之后,就可以通過這樣一個方法來獲取MIME類型所對應的擴展名了:

 

string 獲取對應擴展名(string ContentType)

{

    foreach (var f in MimeDic.Keys)

    {

        if (ContentType.ToLower().IndexOf(f) >= 0) return MimeDic[f];

    }

    return null;

}

這里之所以使用IndexOf方法判斷,是因為傳入的ContentType中可能還包含其他信息,比如編碼格式。

題外話:看到網上曾有人抱怨說WebClient下載網頁時容易產生亂碼,而且又不好讀取網頁的編碼格式,其實WebRequest的ContentType中就包含MIME和編碼格式信息:

image

 

生成下載文件路徑

現在有了上面的方法,我們就可以通過MIME類型確定文件的擴展名了。

現在我們將書寫一個用于生成下載文件路徑的方法,其功能為:

  1. 分析文件的源Url,將其文件名部分作為下載文件的文件名。
  2. 如果其Url中不含文件名部分(域名或目錄形式),則以其目錄名為下載文件的文件名。
  3. 根據傳入的MIME類型自動確定并替換Url中的原始擴展名(如果有的話),以用作下載文件的文件名。
  4. 判斷傳入的存儲目錄中是否已存在與下載文件名相同的文件,存在的話就進行重命名,直到沒有同名文件為止。

功能有點多了,不適合做范例,不過還是很實用的,所以這里就順道分享出來。

其代碼為:

 

string 生成下載文件存放路徑(string 存放目錄, Uri Uri, string ContentType)

{

    var ex = 獲取對應擴展名(ContentType);

    string up = null;

    string upne = null;

    if (Uri.LocalPath == "/")

    {

        //處理Url是域名的情況

        up = upne = Uri.Host;

    }

    else

    {

        if (Uri.LocalPath.EndsWith("/"))

        {

            //處理Url是目錄的情況

            up = Uri.LocalPath.Substring(0, Uri.LocalPath.Length - 1);

            upne = Path.GetFileName(up);

        }

        else

        {

            //處理常規Url

            up = Uri.LocalPath;

            upne = Path.GetFileNameWithoutExtension(up);

        }

    }

    var name = string.IsNullOrEmpty(ex) ? Path.GetFileName(up) : upne + "." + ex;

    var fn = Path.Combine(存放目錄, name);

    var x = 1;

    while (File.Exists(fn))

    {

        fn = Path.Combine(存放目錄, Path.GetFileNameWithoutExtension(name) + "(" + x++ + ")" + Path.GetExtension(name));

    }

    return fn;

}

為了驗證其效果,我們通過一個單元測試進行評測:

[TestMethod]

public void 文件名生成測試()

{

    var d = @"C:\Users\Public\Downloads";

    //gif格式文件,正常下載

    Assert.AreEqual(@"C:\Users\Public\Downloads\35ad5275ed17904d4a2d40f3dacea80b.gif", 生成下載文件存放路徑(d, new Uri("http://i3.6.cn/cvbnm/7c/15/a3/35ad5275ed17904d4a2d40f3dacea80b.gif"), "image/gif"));

    //url中擴展名是gif,但MIME類型實際是image/jpeg的資源。下載后的擴展名是jpe,因為字典MimeDic里存儲的對應擴展名就是jpe

    Assert.AreEqual(@"C:\Users\Public\Downloads\35ad5275ed17904d4a2d40f3dacea80b.jpe", 生成下載文件存放路徑(d, new Uri("http://i3.6.cn/cvbnm/7c/15/a3/35ad5275ed17904d4a2d40f3dacea80b.gif"), "image/jpeg"));

    //一個帶參數的網頁url。下載后的擴展名是dhtml,因為字典MimeDic里存儲的對應擴展名就是dhtml

    Assert.AreEqual(@"C:\Users\Public\Downloads\filedownload.dhtml", 生成下載文件存放路徑(d, new Uri("http://www.uushare.com/filedownload?user=icesee&id=2205188"), "text/html"));

    //一個網頁url,其格式為目錄形式的,沒有確切文件名。

    Assert.AreEqual(@"C:\Users\Public\Downloads\g9675.dhtml", 生成下載文件存放路徑(d, new Uri("http://www.guaishow.com/u/luanfujie/g9675/"), "text/html"));

    //域名形式

    Assert.AreEqual(@"C:\Users\Public\Downloads\www.g.cn.dhtml", 生成下載文件存放路徑(d, new Uri("http://www.g.cn/"), "text/html"));

    Assert.AreEqual(@"C:\Users\Public\Downloads\g.cn.dhtml", 生成下載文件存放路徑(d, new Uri("http://g.cn"), "text/html"));

}

 

文件下載

萬事俱備,只欠東風了,讓我們來完成下載方法:

 

///

/// 下載文件到指定目錄,并返回下載后存放的文件路徑

///

/// 網址

/// 存放目錄">存放目錄,如果該目錄中已存在與待下載文件同名的文件,那么將自動重命名

/// 下載文件存放的文件路徑

public string 下載文件(Uri Uri, string 存放目錄)

{

    var q = WebRequest.Create(Uri).GetResponse();

    var s = q.GetResponseStream();

    var b = new BinaryReader(s);

    var file = 生成下載文件存放路徑(存放目錄, Uri, q.ContentType);

    FileStream fs = new FileStream(file, FileMode.Create, FileAccess.Write);

    fs.Write(b.ReadBytes((int)q.ContentLength), 0, (int)q.ContentLength);

    fs.Close();

    b.Close();

    s.Close();

    return file;

}

代碼很簡單,就不多說了,我們來完成最后的測試:

[TestMethod]

public void 文件下載測試()

{

    var d = @"C:\Users\Public\Downloads";

    //首次下載

    Assert.AreEqual(@"C:\Users\Public\Downloads\filedownload.dhtml", 下載文件(new Uri("http://www.uushare.com/filedownload?user=icesee&id=2205188"), d));

    //第二次下載,遇到同名文件,自動重命名

    Assert.AreEqual(@"C:\Users\Public\Downloads\filedownload(1).dhtml", 下載文件(new Uri("http://www.uushare.com/filedownload?user=icesee&id=2205188"), d));

    //下載一個原本是gif類型的文件

    Assert.AreEqual(@"C:\Users\Public\Downloads\2naqyw8.gif", 下載文件(new Uri("http://i38.tinypic.com/2naqyw8.jpg"), d));

}

結語

相較WebClient而言,WebRequest擁有更好的可控性,在WebClient無解的時候,就嘗試讓WebRequest上場吧。

下載

范例源代碼:http://www.uushare.com/user/icesee/file/2214050

本文的XPS版本:http://www.uushare.com/user/icesee/file/2214051

0
0
 
 
 

文章列表

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()