-->

有没有人解析维基? [关闭] 有没有人解析维基? [关闭](Has anyone parsed

2019-05-13 06:31发布

维基是覆盖许多语言维基词典。 它甚至有翻译。 我会感兴趣的解析,并用数据玩,有没有人做这样的事之前? 有没有我可以使用任何图书馆吗? (优选的P​​ython)。

Answer 1:

维基运行在链接到MediaWiki,它有一个API 。

其中一个子页面的API文档的是客户端的代码,其中列出了一些Python库 。



Answer 2:

我曾在同一时间下载了维基转储,试图收集词汇和定义一起斯拉夫语。 我走近它使用ElementTree的走通的XML文件,它是转储。 我将避免试图刮掉或抓取网站,只是下载XML转储维基媒体提供了维基。 转至维基媒体下载 ,查找英文维基词典转储( enwiktionary )并转到最近的转储。 你可能想要的页面,articles.xml.bz2文件,这只是文章内容,没有历史或评论。 与任何XML处理库你在Python更喜欢解析此。 我个人比较喜欢的ElementTree。 祝好运。



Answer 3:

wordnik已经做得很好解析出定义,等他们有一个伟大的API

像其他人所说的,维基是一种格式,灾难,而不是建立以计算机可读



Answer 4:

是的,很多人解析维基词典。 您通常可以找到过去的经验维基-1邮件列表归档 。

没有其他的答案中提到的一个项目是DBpedia中的维基RDF提取 。

其他几十个研究项目解析维基:你可以找到在最近的一些例子维基特殊和其它问题维基媒体研究通讯。

最近有人也提出了英语维基REST API ,其中包括维基数据不详的子集; 未来的事情计划尚不得而知。



Answer 5:

我在分析德国维基有裂纹。 最后我写它作为太困难了,但我把我的(不是全部收拾)代码了在https://github.com/benreynwar/wiktionary-parser之前,我放弃了。 虽然有被编辑使用的约定,他们不会被同行相比其他监督执行什么。 模板连同所有的错别字在页面中使用的多样性使得解析相当具有挑战性。

我认为问题是,他们已经使用了相同的系统为维基这是伟大的,便于由编辑使用的,但不适合维基的更多的结构化内容。 这是一个耻辱,因为如果维基可以很容易地分析这将是一个巨大的有用的资源。



Answer 6:

我刚才从像德国转储单词列表:

bzcat pages-articles.xml.bz2 | grep '<title>[^[:space:][:punct:]]*</title>' | sed 's:.*<title>\(.*\)</title>.*:\1:' > words


Answer 7:

欢迎您与MySQL发挥解析维基词典数据库。 有通过用Java编写的分析器建立两个数据库(英文维基和俄文维基): http://wikokit.googlecode.com

如果你喜欢PHP,那么欢迎你一起玩piwidict - PHP API这机器可读维基2



Answer 8:

您可能感兴趣的dbnary项目,而不是Python但很有趣。 声明支持解析为21种语言和它的权力wikdict 。



Answer 9:

还有JWKTL它在解析和提取维基结构化数据做了很好的工作。 它是用Java编写的,并有英语,德语和俄语版本的支持。



Answer 10:

这取决于你需要多少彻底解析它。 如果你只需要得到一个字的所有内容在一个语言(定义,语源,发音,结合等),那么它很容易。 之前,虽然我已经做到了这一点在Java中使用jsoup

然而,如果你需要分析它归结为内容的不同部件(例如刚开单词的定义),那么这将是更具挑战性。 一种用于在一个语言字A维基词典条目没有预先定义的模板,所以报头可以是任何从<h3><h6>这些部分的顺序可能混乱,它们可以是重复的,等



Answer 11:

我写了一个原始的德国维基转储分析器在Java中,仅提取名词和他们的文章,再加上他们的阿拉伯语翻译,没有任何依赖关系。 执行需要很长的时间,因此被警告。 如果有利益/需要解析更多或其它数据,请告诉我,我可能会考虑它在时间允许的。



文章来源: Has anyone parsed Wiktionary? [closed]