使用Python维基百科HTML中提取文本(Extract text from Wikipedia

2019-10-21 03:11发布

站内文章 / 后端开发

36 0

叛逆

女 | 书童

私信

我试图寻找一种方法来提取使用python维基百科文章的主要内容。我知道了“维基百科”库，但对我来说我已经下载了这个页面，我只需要提取文本。因为我需要使用这是几年前下载的，所以我不能从头开始下载维基百科页面的HTML，我不能使用该库。

有没有我可以用于此目的的“现成”的解决方案？

Answer 1:

尝试BeautifulSoup：

from bs4 import BeautifulSoup
import requests

respond = requests.get("http://pl.wikipedia.org/wiki/StackOverflow")
soup = BeautifulSoup(respond.text)
l = soup.find_all('p')
print l[0].text

Answer 2:

你可以使用这个Python模块：

pip install wikipedia

文章来源: Extract text from Wikipedia html using Python

标签： python html wikipedia

叛逆

女 | 书童

私信

收藏的人(0)

Ta的文章更多文章

0条评论

还没有人评论过~

使用Python维基百科HTML中提取文本(Extract text from Wikipedia

Answer 1:

Answer 2:

收藏的人(0)

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮