在CakePHP的HTML解析(Parsing HTML in Cakephp)

2019-10-17 01:38发布

我开始在CakePHP的2.2建立一个网络爬虫。 该网页,脚本爬行是HTML页面,我需要分析他们,让我的价值观。

已经尝试了一些不同的解决方案,并在一旁看着一些开源的东西藏汉,但不知道最好的办法是做这算什么。

  • 的DomDocument :: loadHTML() - 看起来这是解决办法,但不是100%肯定。
  • 正则表达式 - 有点难以维持
  • 简单HTMLDom - http://electrokami.com/coding/simple-html-dom-baked-cakephp-component (专为蛋糕1.3,它的代码的自我,是的,我不喜欢它-有严重的内存泄漏( S))

为了弄清楚,我应该使用哪种方法,我需要你的帮助。

Answer 1:

的DomDocument是您的最佳选择。 有此模块php.net文档中的一些体面的例子。 如果您可以使用其他语言如Ruby我有一个角度来说,Hpricot很好的经验,一个jQuery像库解析HTML。

这个问题关系到稳健和成熟的HTML解析器PHP



文章来源: Parsing HTML in Cakephp