在CakePHP的HTML解析(Parsing HTML in Cakephp)

2019-10-17 01:38发布

我开始在CakePHP的2.2建立一个网络爬虫。该网页，脚本爬行是HTML页面，我需要分析他们，让我的价值观。

已经尝试了一些不同的解决方案，并在一旁看着一些开源的东西藏汉，但不知道最好的办法是做这算什么。

的DomDocument :: loadHTML（） - 看起来这是解决办法，但不是100％肯定。
正则表达式 - 有点难以维持
简单HTMLDom - http://electrokami.com/coding/simple-html-dom-baked-cakephp-component （专为蛋糕1.3，它的代码的自我，是的，我不喜欢它-有严重的内存泄漏（ S））

为了弄清楚，我应该使用哪种方法，我需要你的帮助。

Answer 1:

的DomDocument是您的最佳选择。有此模块php.net文档中的一些体面的例子。如果您可以使用其他语言如Ruby我有一个角度来说，Hpricot很好的经验，一个jQuery像库解析HTML。

这个问题关系到稳健和成熟的HTML解析器PHP

文章来源: Parsing HTML in Cakephp