下载贤集网APP入驻自媒体
很多爬虫的工作人员都知道,爬虫的速度并不是越快越好,如果采集的时候,设置了很快的速度,就很容易被目标网站发现,也就容易被封。那么,爬虫采集速度该如何控制呢?
一般情况下,可以在不同页面抓取之间,将等待时间设置为最大,这样不会给服务器造成负担,也不会因为访问频繁而被服务禁止。但这种方法抓取的速度很慢,如果大量的抓取任务,是很麻烦的。
还有一种解决办法,把等待时间的动态变化的最小间隔,减去网页的读取时间,这样就可以保证网页平均抓取时间在网络流畅和网络较差的时候,保持的一直是最小间隔。但是以上这种方法只适合单线程爬虫爬取小规模网站,如果使用分布式爬虫容易出现异常情况。
这个时候,路由尝试使用PID控制算法,来控制爬虫的速度。这种方法其实很好理解,当爬虫的过快,就会自动增加延时的时间。如果速度很慢,就会缩短延时时间。
以上介绍了爬虫采集速度该该如何控制,爬虫不能快速,也要提高工作效率。就可以使用代理IP,更换IP就可以持续的进行采集。闪云代理海量IP在线,是很多工作必不可少的工具。