WebScan更新说明

1,更新Api接口的Json格式,让其更美化。2,由于采集引擎的更新,旧数据保持备份状态,启用新的数据。数据更加精准。后期可能会考虑筛选导入旧数据,毕竟库太大了耗费大量时间。最近有大量空闲时间会投入这

2个月前 (05-24) 通过网页

多线程下的libcurl超时设置Bug

Bug导致程序异常错误。解决方法:把CURLOPT_NOSIGNAL设为1就行了,这样libcurl将不会产生任何信号或者不使用超时设置,让程序自动退出。

2个月前 (05-20) 通过网页

语言选择困难症

Python与Lua的选择。从语言的设计来说:1.Lua定位就是一个胶水语言,其的语言设计极为精简,更多是为了和其他语言配合使用如C/C++。2.Python相对于Lua,语言设计更为复杂、更为完整,

2个月前 (05-13) 通过网页

虫子,被困,自救!

爬虫引擎经常遇到的屁事,站群、泛解析、蜘蛛池、毒瘤啊。解决方法:1.程序判定页面相同部分超过 90% 就判断成辣鸡站存入小黑屋 。2.记录二级域名的访问数量,然后限制每个二级域名的访问数。3.爬到大量

2个月前 (05-12) 通过网页

全球顶级域后缀列表

有需要的同学,小笔记记下哦~

2个月前 (05-12) 通过网页