我想读不带HTML标签和标题的网站的文字。 我只需要在网络浏览器中显示的文本。
我不需要这样的
<html>
<body>
bla bla </td><td>
bla bla
<body>
<html>
我只需要文本“唧唧歪歪喇嘛”。
我已经使用了Web客户端和HttpWebRequest的方法来获取HTML内容和分裂接收到的数据,但它是不可能的,因为如果我更改了网站上的标签可能会改变。
那么,有没有办法让只有在网站anagrammatically显示的文本?
我想读不带HTML标签和标题的网站的文字。 我只需要在网络浏览器中显示的文本。
我不需要这样的
<html>
<body>
bla bla </td><td>
bla bla
<body>
<html>
我只需要文本“唧唧歪歪喇嘛”。
我已经使用了Web客户端和HttpWebRequest的方法来获取HTML内容和分裂接收到的数据,但它是不可能的,因为如果我更改了网站上的标签可能会改变。
那么,有没有办法让只有在网站anagrammatically显示的文本?
这里是你将如何使用做HtmlAgilityPack 。
首先您的样本HTML:
var html = "<html>\r\n<body>\r\nbla bla </td><td>\r\nbla bla \r\n<body>\r\n<html>";
加载它(在这种情况下,一个字符串):
var doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(html);
如果从网络上获得的,相似的:
var web = new HtmlWeb();
var doc = web.Load(url);
现在选择用非空白仅文本节点,并修剪它们。
var text = doc.DocumentNode.Descendants()
.Where(x => x.NodeType == HtmlNodeType.Text && x.InnerText.Trim().Length > 0)
.Select(x => x.InnerText.Trim());
如果你喜欢,你可以得到这个作为一个单一的加入字符串:
String.Join(" ", text)
当然,这只适用于简单的网页的工作。 任何复杂的也将返回数据,你显然不希望节点,如JavaScript函数等。
您需要使用特殊的HTML解析器。 只有这样,才能得到这种非正规的语言的内容。
请参阅: 什么是用C#来解析HTML的最佳方式?
public string GetwebContent(string urlForGet)
{
// Create WebClient
var client = new WebClient();
// Download Text From web
var text = client.DownloadString(urlForGet);
return text.ToString();
}
我觉得这个链接可以帮助你。
/// <summary>
/// Remove HTML tags from string using char array.
/// </summary>
public static string StripTagsCharArray(string source)
{
char[] array = new char[source.Length];
int arrayIndex = 0;
bool inside = false;
for (int i = 0; i < source.Length; i++)
{
char let = source[i];
if (let == '<')
{
inside = true;
continue;
}
if (let == '>')
{
inside = false;
continue;
}
if (!inside)
{
array[arrayIndex] = let;
arrayIndex++;
}
}
return new string(array, 0, arrayIndex);
}
// Reading Web page content in c# program
//Specify the Web page to read
WebRequest request = WebRequest.Create("http://aspspider.info/snallathambi/default.aspx");
//Get the response
WebResponse response = request.GetResponse();
//Read the stream from the response
StreamReader reader = new StreamReader(response.GetResponseStream());
//Read the text from stream reader
string str = reader.ReadLine();
for(int i=0;i<200;i++)
{
str += reader.ReadLine();
}
Console.Write(str);