提取HTML代码中文字的C#函数_C#教程-查字典教程网
提取HTML代码中文字的C#函数
提取HTML代码中文字的C#函数
发布时间:2016-12-28 来源:查字典编辑
摘要://////去除HTML标记//////包括HTML的源码///已经去除后的文字publicstaticstringStripHTML(st...

///<summary>

///去除HTML标记

///</summary>

///<paramname="strHtml">包括HTML的源码</param>

///<returns>已经去除后的文字</returns>

publicstaticstringStripHTML(stringstrHtml)

{

string[]aryReg={

@"<script[^>]*?>.*?</script>",

@"<(/s*)?!?((w+:)?w+)(w+(s*=?s*(([""'])([""'tbnr]|[^7])*?7|w+)|.{0})|s)*?(/s*)?>",

@"([rn])[s]+",

@"&(quot|#34);",

@"&(amp|#38);",

@"&(lt|#60);",

@"&(gt|#62);",

@"&(nbsp|#160);",

@"&(iexcl|#161);",

@"&(cent|#162);",

@"&(pound|#163);",

@"&(copy|#169);",

@"",

@"-->",

@"<!--.*n"

};

string[]aryRep={

"",

"",

"",

""",

"&",

"<",

">",

"",

"xa1",//chr(161),

"xa2",//chr(162),

"xa3",//chr(163),

"xa9",//chr(169),

"",

"rn",

""

};

stringnewReg=aryReg[0];

stringstrOutput=strHtml;

for(inti=0;i<aryReg.Length;i++)

{

Regexregex=newRegex(aryReg[i],RegexOptions.IgnoreCase);

strOutput=regex.Replace(strOutput,aryRep[i]);

}

strOutput.Replace("<","");

strOutput.Replace(">","");

strOutput.Replace("rn","");

returnstrOutput;

}

相关阅读
推荐文章
猜你喜欢
附近的人在看
推荐阅读
拓展阅读
  • 大家都在看
  • 小编推荐
  • 猜你喜欢
  • 最新C#教程学习
    热门C#教程学习
    编程开发子分类