我开始在CakePHP的2.2建立一个网络爬虫。 该网页,脚本爬行是HTML页面,我需要分析他们,让我的价值观。
已经尝试了一些不同的解决方案,并在一旁看着一些开源的东西藏汉,但不知道最好的办法是做这算什么。
- 的DomDocument :: loadHTML() - 看起来这是解决办法,但不是100%肯定。
- 正则表达式 - 有点难以维持
- 简单HTMLDom - http://electrokami.com/coding/simple-html-dom-baked-cakephp-component (专为蛋糕1.3,它的代码的自我,是的,我不喜欢它-有严重的内存泄漏( S))
为了弄清楚,我应该使用哪种方法,我需要你的帮助。