教程ForeSpider(教程数据缓存策略是指)「数据缓存api描述」

今天,小编为大家详细介绍一下:前嗅ForeSpider运行设置中的采集速度,采集策略和任务装载,这三大模块
具体内容如下:一,采集速度采集速度是调节任务采集快慢的一项设置,对采集速度的影响包括线程数目和采集间隔
​【采集速度】1.线程数目线程数目是运行采集任务时,软件启用的线程资源数目
线程数目越大,采集速度越快
2.采集间隔是指任务采集链接之间时间间隔
用户可以直接滑动按钮进行设置采集间隔,也可以直接填写采集间隔的时间数
二,采集策略根据记录的采集日志,选择下次采集任务的采集策略
​【采集策略】1.采集策略​2.采集阈值阈的意思是界限,故阈值又叫临界值,是指一个效应能够产生的最低值或最高值采集阈
此处采集阈值即每个任务的上限,可以根据自己的需要设置,此处设置属于全局设置
3.数据缓存打开数据缓存可以将采集数据时的网页的源码记录下来,方便查看网页详细信息
查看步骤:①数据采集>装载记录②选中其中一条记录,右击打开缓存数据​【查看缓存数据】③网页数据缓存文本​【数据缓存文本】4.装载策略选择装载到日志列表的内容,即历史数据
含义如下:​5.加载日志宏筛选符合条件的日志,对采集策略进行补充
三,任务装载1.任务装载顺序设置采集过程中,日志列表中对于各任务排列的顺序
①顺序优先:按照采集任务列表的顺序,采集各列表任务的数据
②负载均衡:打乱任务采集顺序,同时采集各任务的数据链接
优点是可以降低被网站封锁IP的风险,同时可以提高采集效率
2.新任务装载方式新采集任务是否同步装载
即用户可以选择对新采集任务进行同步装载也可以选择异步装载
①同步:同步装载是指将所有链接加载完成之后同时采集
②异步:异步装载是指加载一部分链接采集一部分,不需要全部加载完成之后再采集
3.运行列表排重勾选可对运行列表中的采集任务进行排重,减少运行工作量,提高运行效率
4.从缓存加载网页若先前在采集策略中勾选了数据缓存,可以从中加载网页
教程ForeSpider(教程数据缓存策略是指)
(图片来源网络,侵删)

联系我们

在线咨询:点击这里给我发消息