该网页是这样的:
<h2>section1</h2>
<p>article</p>
<p>article</p>
<p>article</p>
<h2>section2</h2>
<p>article</p>
<p>article</p>
<p>article</p>
我怎样才能找到在其中的文章各部分? 也就是说,找到后H2,发现nextsiblings
直到下一个H2。
如果所述网页都像:(这通常是这种情况)
<div>
<h2>section1</h2>
<p>article</p>
<p>article</p>
<p>article</p>
</div>
<div>
<h2>section2</h2>
<p>article</p>
<p>article</p>
<p>article</p>
</div>
我可以编写代码:
for section in soup.findAll('div'):
...
for post in section.findAll('p')
不过,我应该与第一网页做,如果我要得到相同的结果?