从htmlagilitypack网页提取全部`href`s /任何请求(Extract all a

2019-08-01 17:44发布

我有这个网页源:

<a href="/StefaniStoikova"><img alt="" class="head" id="face_6306494" src="http://img0.ask.fm/assets/054/771/271/thumb_tiny/sam_7082.jpg" /></a>
<a href="/devos"><img alt="" class="head" id="face_18603180" src="http://img7.ask.fm/assets/043/424/871/thumb_tiny/devos.jpg" /></a>
<a href="/frenop"><img alt="" class="head" id="face_4953081" src="http://img1.ask.fm/assets/029/163/760/thumb_tiny/dsci0744.jpg" /></a>

我想提取字符串之后的<a href-" ,但我的主要问题是,这些字符串是不同的,我似乎还没有找到一种方式。既没有agilitypack或webrequests。

也许有人有关正则表达式的想法? 分享它。

Answer 1:

它应该是很简单,让你需要用什么HtmlAgilityPack。 假设你有你的文件加载到HtmlDocument对象命名doc

HtmlNodeCollection collection = doc.DocumentNode.SelectNodes("//a[@href]");

foreach (HtmlNode node in collection)
{
    // Do what you want with the href value in here. As an example, this just
    //  just prints the value to the console.
    Console.WriteLine(node.GetAttributeValue("href", "default"));
}


文章来源: Extract all a `href`s from webpage with htmlagilitypack/requests anything