在任何语言中,我能抓取网页并保存图像文件? (无需安装,没有的ActiveX)(In any l

2019-06-24 20:48发布

我听说可以通过Windows服务器上使用PHP(可能在6.0以上)来捕获网页。

我得到了一些示例代码和测试。 但目前还没有对代码进行正确。

如果你知道捕捉网页将它保存在Web应用程序中的图像文件的一些正确的方法?

请教我。

Answer 1:

您可以使用browsershots API http://browsershots.org/

与XML-RPC接口,你真的可以使用几乎任何语言来访问它。

http://api.browsershots.org/xmlrpc/



Answer 2:

虽然你已经问了PHP的解决方案,我想与大家分享的Perl另一个解决方案。 WWW ::机械化沿LWP ::用户代理和HTML解析器::可以在屏幕抓取帮助。

一些供参考的文件:

  • 与WWW网页抓取::机械化
  • 与WWW屏幕抓取::机械化


Answer 3:

下载网页的HTML通常被称为屏幕抓取。 如果你想有一个程序从给定的页面中提取数据,这可能是有用的。 请求HTTP资源,最简单的方法是使用工具的呼叫卷曲 。 卷曲来作为一个独立的UNIX工具,但也有图书馆约每编程语言来使用它。 为了捕捉从Unix命令行键入此页:

curl http://stackoverflow.com/questions/1077970/in-any-languages-can-i-capture-a-webpageno-install-no-activex-if-i-can-plz

在PHP中,你可以这样做:

<?php 
$ch = curl_init() or die(curl_error()); 
curl_setopt($ch, CURLOPT_URL,"http://stackoverflow.com/questions/1077970/in-any-languages-can-i-capture-a-webpageno-install-no-activex-if-i-can-plz"); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
$data1=curl_exec($ch) or die(curl_error()); 
echo "<font color=black face=verdana size=3>".$data1."</font>"; 
echo curl_error($ch); 
curl_close($ch); 
?>

现在,复制整个网站之前,你应该检查他们的robots.txt文件,看看他们是否允许机器人蜘蛛他们的网站,你可能要检查是否有可用的API,它可以让你无需HTML检索数据。



文章来源: In any languages, Can I capture a webpage and save it image file? (no install, no activeX)