文章出處

有時我們需要采集一些信息到自己的數據庫,本地磁盤,我們經常使用的是WebClient,WebRequest等等,今天主要說一下,對于一個URI地址,采集這個頁面上所有的圖像資源,下面是源代碼,供大家參考,學習。

   /// <summary>
    /// 下載指定URL下的所有圖片
    /// </summary>
    public class WebPageImage
    {
        /// <summary>
        /// 獲取網頁中全部圖片
        /// </summary>
        /// <param name="url">網頁地址</param>
        /// <param name="charSet">網頁編碼,為空自動判斷</param>
        /// <returns>全部圖片顯示代碼</returns>
        public string getImages(string url, string charSet)
        {
            string s = getHtml(url, charSet);
            return getPictures(s, url);
        }

        /// <summary>
        /// 獲取網頁中全部圖片
        /// </summary>
        /// <param name="url">網址</param>
        /// <returns>全部圖片代碼</returns>
        public string getImages(string url)
        {
            return getImages(url, "");
        }

        string doman(string url)
        {
            Uri u = new Uri(url);
            return u.Host;
        }

        /// <summary>
        /// 獲取網頁內容
        /// </summary>
        /// <param name="url">網站地址</param>
        /// <param name="charSet">目標網頁的編碼,如果傳入的是null或者"",那就自動分析網頁的編碼 </param>
        /// <returns></returns>
        string getHtml(string url, string charSet)
        {
            WebClient myWebClient = new WebClient();
            //創建WebClient實例myWebClient 
            // 需要注意的: 
            //有的網頁可能下不下來,有種種原因比如需要cookie,編碼問題等等 
            //這是就要具體問題具體分析比如在頭部加入cookie 
            // webclient.Headers.Add("Cookie", cookie); 
            //這樣可能需要一些重載方法。根據需要寫就可以了 

            //獲取或設置用于對向 Internet 資源的請求進行身份驗證的網絡憑據。 
            myWebClient.Credentials = CredentialCache.DefaultCredentials;
            //如果服務器要驗證用戶名,密碼 
            //NetworkCredential mycred = new NetworkCredential(struser, strpassword); 
            //myWebClient.Credentials = mycred; 
            //從資源下載數據并返回字節數組。(加@是因為網址中間有"/"符號) 
            byte[] myDataBuffer = myWebClient.DownloadData(url);
            string strWebData = Encoding.Default.GetString(myDataBuffer);

            //獲取網頁字符編碼描述信息 
            Match charSetMatch = Regex.Match(strWebData, "<meta([^<]*)charset=([^<]*)\"", RegexOptions.IgnoreCase | RegexOptions.Multiline);
            string webCharSet = charSetMatch.Groups[2].Value.Replace("\"", "");
            if (charSet == null || charSet == "")
                charSet = webCharSet;

            if (charSet != null && charSet != "" && Encoding.GetEncoding(charSet) != Encoding.Default)
                strWebData = Encoding.GetEncoding(charSet).GetString(myDataBuffer);
            return strWebData;
        }

        string getPictures(string data, string url)
        {
            MatchCollection ps = Regex.Matches(data, @"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>");
            string s = string.Empty;
            for (int i = 0; i < ps.Count; i++)
            {
                pictures p = new pictures(ps[i].Value, url);
                s += p.GetHtml + "<br />" + Environment.NewLine;
            }
            return s;
        }

        /// <summary>
        /// 圖片實體
        /// 圖片文件屬性處理類
        /// </summary>
        public class pictures
        {
            public pictures(string strHtml, string baseUrl)
            {
                _html = strHtml;
                Uri u1 = new Uri(baseUrl);
                _doman = u1.Host;
                _baseUrl = u1.Scheme + "://" + _doman;
                setSrc();
            }

            private string _html = string.Empty;
            private string _baseUrl = string.Empty;
            private string _doman = string.Empty;

            public string GetHtml
            {
                get { return _html; }
            }

            public string Alt
            {
                get
                {
                    return GetAttribute("alt")[0];
                }
            }

            public string Src
            {
                get
                {
                    string s = GetAttribute("src")[0];
                    return s;
                }
            }

            /// <summary>
            /// 根據基路徑把相對路徑轉換成絕對徑
            /// </summary>
            /// <param name="baseUrl">基礎路徑</param>
            /// <param name="u">待轉換的相對路徑</param>
            /// <returns>絕對路徑</returns>
            public string absUrl(string baseUrl, string u)
            {
                Uri ub = new Uri(baseUrl);
                Uri ua = new Uri(ub, u);
                return ua.AbsoluteUri;
            }

            private void setSrc()
            {
                string strPattern = @"src[\s\t\r\n]*=[\s\t\r\n]*[""']?\S+[""']?";
                string src = GetAttribute("src")[0].ToLower();
                if (!(src.IndexOf("http://") == 0 || src.IndexOf("https://") == 0) && _baseUrl.Length > 10)
                {
                    src = absUrl(_baseUrl, src);
                    string s = "src=\"" + src + "\"";
                    _html = Regex.Replace(_html, strPattern, s);
                }
            }

            /// <summary>
            /// 獲取HTML代碼中標簽屬性
            /// </summary>
            /// <param name="strHtml">HTML代碼</param>
            /// <param name="strAttributeName">屬性名稱</param>
            /// <returns>屬性值集合</returns>
            private string[] GetAttribute(string strAttributeName)
            {
                List<string> lstAttribute = new List<string>();
                string strPattern = string.Format(
                    @"{0}[\s\t\r\n]*=[\s\t\r\n]*[""']?\S+[""']?",
                    strAttributeName
                    );
                MatchCollection matchs = Regex.Matches(_html, strPattern, RegexOptions.IgnoreCase);
                foreach (Match m in matchs)
                {
                    lstAttribute.Add(m.Value.Split('=')[1].Replace("\"", "").Replace("'", ""));
                }
                if (lstAttribute.Count == 0) lstAttribute.Add("");
                return lstAttribute.ToArray();
            }
        }
    }

調用:

new WebPageImage().getImages("http://www.sina.com")

結果:


文章列表




Avast logo

Avast 防毒軟體已檢查此封電子郵件的病毒。
www.avast.com


arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()