Apache的Nutch的REST API(Apache Nutch REST api)

2019-10-23 10:43发布

我试图通过REST API推出一个爬行。 爬网开始与注射的URL。 使用Chrome开发者工具“高级REST客户端,”我正在努力打造这个POST负载了,但我得到的响应是400错误的请求。

POST - http://localhost:8081/job/create

有效载荷

{
  "crawl-id":"crawl-01",
  "type":"INJECT",
  "config-id":"default",
  "args":{ "path/to/seedlist/directory"}
}

我的问题是在指定参数时,我觉得更多的是需要的,但我不知道。 在NutchRESTAPI页面,这是它为创造一个工作的样本。

POST /job/create
   {
      "crawlId":"crawl-01",
      "type":"FETCH",
      "confId":"default",
      "args":{"someParam":"someValue"}
   }

POST /job/create
   {
      "crawlId":"crawl-01",
      "jobClassName":"org.apache.nutch.fetcher.FetcherJob"
      "confId":"default",
      "args":{"someParam":"someValue"}
   }

我不知道什么PARAM或价值给每个命令完成一项工作。 (如进样,生成,提取,分析,并updatedb的)有人能清楚这件事? 我该如何告诉API到哪里寻找在种子列表?

UPDATE

试图完成生成命令当我走进一个classException错误,其中用于TOPN关键字的值是long类型的,但API读取它作为一个字符串或一个int。 我发现包含在2.3.1版本是应该修复(发布日期:TBA)并应用它,并重新编译我的代码。 现在可以正常工作。

Answer 1:

在此张贴的时候,REST API还没有完成。 更详细的文件存在,但它仍然是不全面的。 它与从用户的邮件列表(你可能要考虑加入)以下电子邮件:

http://www.mail-archive.com/user%40nutch.apache.org/msg13652.html

但是,为了回答你有关种子列表的问题,你可以通过REST创建种子列表,或者您也可以使用参数“seedDir”

{
    "args":{
        "seedDir":"/path/to/seed/directory"
    },
    "confId":"default",
    "crawlId":"sample-crawl-01",
    "type":"INJECT"
}


文章来源: Apache Nutch REST api