我试图通过REST API推出一个爬行。 爬网开始与注射的URL。 使用Chrome开发者工具“高级REST客户端,”我正在努力打造这个POST负载了,但我得到的响应是400错误的请求。
POST - http://localhost:8081/job/create
有效载荷
{
"crawl-id":"crawl-01",
"type":"INJECT",
"config-id":"default",
"args":{ "path/to/seedlist/directory"}
}
我的问题是在指定参数时,我觉得更多的是需要的,但我不知道。 在NutchRESTAPI页面,这是它为创造一个工作的样本。
POST /job/create
{
"crawlId":"crawl-01",
"type":"FETCH",
"confId":"default",
"args":{"someParam":"someValue"}
}
POST /job/create
{
"crawlId":"crawl-01",
"jobClassName":"org.apache.nutch.fetcher.FetcherJob"
"confId":"default",
"args":{"someParam":"someValue"}
}
我不知道什么PARAM或价值给每个命令完成一项工作。 (如进样,生成,提取,分析,并updatedb的)有人能清楚这件事? 我该如何告诉API到哪里寻找在种子列表?
UPDATE
试图完成生成命令当我走进一个classException错误,其中用于TOPN关键字的值是long类型的,但API读取它作为一个字符串或一个int。 我发现包含在2.3.1版本是应该修复(发布日期:TBA)并应用它,并重新编译我的代码。 现在可以正常工作。