文章出處

C#過濾html標簽

    在項目中遇到這樣一個需求,需要將一段html轉換為一般文本返回,萬能的正則表達式來了。

    正則表達式來拯救你,代碼如下:

 1 public static string Html2Text(string htmlStr)
 2 
 3 {
 4 
 5     if (String.IsNullOrEmpty(htmlStr))
 6 
 7     {
 8 
 9         return "";
10 
11     }
12 
13     string regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>"; //定義style的正則表達式 
14 
15     string regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>"; //定義script的正則表達式   
16 
17     string regEx_html = "<[^>]+>"; //定義HTML標簽的正則表達式   
18 
19     htmlStr = Regex.Replace(htmlStr, regEx_style, "");//刪除css
20 
21     htmlStr = Regex.Replace(htmlStr, regEx_script, "");//刪除js
22 
23     htmlStr = Regex.Replace(htmlStr, regEx_html, "");//刪除html標記
24 
25     htmlStr = Regex.Replace(htmlStr, "\\s*|\t|\r|\n", "");//去除tab、空格、空行
26 
27     htmlStr = htmlStr.Replace(" ", "");
28 
29     htmlStr = htmlStr.Replace(""", "");//去除異常的引號" " "
30 
31     htmlStr = htmlStr.Replace(""", "");
32 
33     return htmlStr.Trim();
34 
35 }
Html2Text

 


文章列表




Avast logo

Avast 防毒軟體已檢查此封電子郵件的病毒。
www.avast.com


arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()