虫子,被困,自救!

爬虫引擎经常遇到的屁事,站群、泛解析、蜘蛛池、毒瘤啊。

解决方法:

1.程序判定页面相同部分超过 90% 就判断成辣鸡站存入小黑屋 。

2.记录二级域名的访问数量,然后限制每个二级域名的访问数。
3.爬到大量使用3级、4级域名的站,不爬也罢, 23333。

4.判断下域名个数,也就是根域AAA.com,超过设定的数值就放小黑屋不在爬取,同IP一个域正常情况下不会超过5000个站点,除非CDN节点。

5.爬到CDN的解决办法就是判断 Server值,Github有列表,做个白名单让CDN不受限爬,但不排除有大哥敢用CDN做站群 蜘蛛池。

6.泛解析,可以判断某主域二级域名过多时,尝试进行无意义的多个二级域名解析,如随机几位英文+数字组合,进行多次验证,可以解析且打开不是 404 等,基本都是垃圾站了

有点乱记录下~

如果有更好,更简便的方式可以留言告诉我~

更新公告 2020-05-12 23:59:59 通过 网页 浏览(104)

共有0条评论!

发表评论

更换一道题!