我一直有一个很大的麻烦,这个问题,我想我明白了工作,但后来我的头现在已经从敲打它在办公桌上它的凹痕。
我需要做的就是通过与美丽的汤网页擦伤的程序,但它然后获取一定的联系(任何地方从3或一页20链接),然后进入到第三个(或20,或任何数量)链接并试图找到该网页链接3,一遍又一遍,为的次数额不详(IM保持它20下解释的目的。我需要找到然而,许多搜索后的最后一个(第三)的链接。
我有我的计划,但我不能让过去的第2次迭代! 我没有找到一个办法了几个小时后,并得到我的答案,但它是一个无限循环,而这不会帮助我学习。
可以说,这是我必须做的:
查找第7位(第7链接的第一页)的链接。 按照该链接。 重复此过程5次。 答案是从您检索链接的姓氏。
我有一个方法来检索的名字,只是有麻烦搞清楚一个循环!
我也有点过分热心试图找到另一篇关于这一个小时。 还有很多类似的,但不是我发现这个确切的问题。 谢谢你的时间。 这里是我到目前为止所。
from urllib.request import urlopen
from bs4 import BeautifulSoup
#first page url
url = 'insertwebsitehere.com'
html = urlopen(url).read()
soup = BeautifulSoup(html)
# Retrieve all of the anchor tags
tags = soup('a')
taglist= []
count = 0
for tag in tags:
name = tag.contents[0]
newtag = tag.get('href',None)
#print (newtag)
# add count? count += 1 , then do something when it reaches a certain count?
#taglist.append(newtag), this method didnt really work.
我是一个新的编码,所以我想这样做没有先进的技术,并且我不一定需要的答案,只是帮助。