网络爬虫,通用的正文提取有没有好的代码或者思路

2019-01-02 21:35发布

问题:

随便发送一个链接判断

是否是正文链接,如果是提取正文,如果有图片怎么处理

回答1:

不要图片就不管,要图片的话就找到图片地址下载下来



回答2:

多写一些,写着写着,就通用了。



回答3:

试试正文密度提取算法



标签: