我试图寻找一种方法来提取使用python维基百科文章的主要内容。 我知道了“维基百科”库,但对我来说我已经下载了这个页面,我只需要提取文本。 因为我需要使用这是几年前下载的,所以我不能从头开始下载维基百科页面的HTML,我不能使用该库。
有没有我可以用于此目的的“现成”的解决方案?
我试图寻找一种方法来提取使用python维基百科文章的主要内容。 我知道了“维基百科”库,但对我来说我已经下载了这个页面,我只需要提取文本。 因为我需要使用这是几年前下载的,所以我不能从头开始下载维基百科页面的HTML,我不能使用该库。
有没有我可以用于此目的的“现成”的解决方案?
尝试BeautifulSoup:
from bs4 import BeautifulSoup
import requests
respond = requests.get("http://pl.wikipedia.org/wiki/StackOverflow")
soup = BeautifulSoup(respond.text)
l = soup.find_all('p')
print l[0].text
你可以使用这个Python模块:
pip install wikipedia