我听说可以通过Windows服务器上使用PHP(可能在6.0以上)来捕获网页。
我得到了一些示例代码和测试。 但目前还没有对代码进行正确。
如果你知道捕捉网页将它保存在Web应用程序中的图像文件的一些正确的方法?
请教我。
我听说可以通过Windows服务器上使用PHP(可能在6.0以上)来捕获网页。
我得到了一些示例代码和测试。 但目前还没有对代码进行正确。
如果你知道捕捉网页将它保存在Web应用程序中的图像文件的一些正确的方法?
请教我。
您可以使用browsershots API http://browsershots.org/
与XML-RPC接口,你真的可以使用几乎任何语言来访问它。
http://api.browsershots.org/xmlrpc/
虽然你已经问了PHP的解决方案,我想与大家分享的Perl另一个解决方案。 WWW ::机械化沿LWP ::用户代理和HTML解析器::可以在屏幕抓取帮助。
一些供参考的文件:
下载网页的HTML通常被称为屏幕抓取。 如果你想有一个程序从给定的页面中提取数据,这可能是有用的。 请求HTTP资源,最简单的方法是使用工具的呼叫卷曲 。 卷曲来作为一个独立的UNIX工具,但也有图书馆约每编程语言来使用它。 为了捕捉从Unix命令行键入此页:
curl http://stackoverflow.com/questions/1077970/in-any-languages-can-i-capture-a-webpageno-install-no-activex-if-i-can-plz
在PHP中,你可以这样做:
<?php
$ch = curl_init() or die(curl_error());
curl_setopt($ch, CURLOPT_URL,"http://stackoverflow.com/questions/1077970/in-any-languages-can-i-capture-a-webpageno-install-no-activex-if-i-can-plz");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$data1=curl_exec($ch) or die(curl_error());
echo "<font color=black face=verdana size=3>".$data1."</font>";
echo curl_error($ch);
curl_close($ch);
?>
现在,复制整个网站之前,你应该检查他们的robots.txt文件,看看他们是否允许机器人蜘蛛他们的网站,你可能要检查是否有可用的API,它可以让你无需HTML检索数据。