使用Python维基百科HTML中提取文本(Extract text from Wikipedia

2019-10-21 03:11发布

我试图寻找一种方法来提取使用python维基百科文章的主要内容。 我知道了“维基百科”库,但对我来说我已经下载了这个页面,我只需要提取文本。 因为我需要使用这是几年前下载的,所以我不能从头开始下载维基百科页面的HTML,我不能使用该库。

有没有我可以用于此目的的“现成”的解决方案?

Answer 1:

尝试BeautifulSoup:

from bs4 import BeautifulSoup
import requests

respond = requests.get("http://pl.wikipedia.org/wiki/StackOverflow")
soup = BeautifulSoup(respond.text)
l = soup.find_all('p')
print l[0].text


Answer 2:

你可以使用这个Python模块:

pip install wikipedia


文章来源: Extract text from Wikipedia html using Python