网络爬虫,通用的正文提取有没有好的代码或者思路

2019-01-02 21:11发布

随便发送一个链接判断

是否是正文链接,如果是提取正文,如果有图片怎么处理

标签:
3条回答
弹指情弦暗扣
2楼-- · 2019-01-02 21:46

多写一些,写着写着,就通用了。

查看更多
怪性笑人.
3楼-- · 2019-01-02 21:50

试试正文密度提取算法

查看更多
旧人旧事旧时光
4楼-- · 2019-01-02 22:08

不要图片就不管,要图片的话就找到图片地址下载下来

查看更多
登录 后发表回答