爬虫主动WaiMao(爬虫目标列表主动内容)「爬虫说明」

Hello!WaiMao一个工具,关于爬取内容,AI重写,发布到自媒体(小红书,Facebook,Twitter, Tiktok, 头条等)功能介绍采集(Spider)爬取目标网站的列表及详情页:文章或产品等...生成(AI)设置提示语,使用AI网站来重写提供的内容(可以是爬虫爬到的也可以是你复制粘帖过来了),产生一个全新的内容
发布(Publisher)发内容到自媒体(小红书,Facebook的个人主页或小组,Twitter,Tiktok,头条 etc),你可以自行扩展要发布的内容,其中的规则就是css selector怎么使用1.使用Spider点击"自媒体",切换到"采集",如果你要爬取的内容需要登录,在"帐号"这个tab下,点击"新增",添加帐号,在后续爬取过程中使用到
a)点击“采集目标”,可以看到有很多按钮b)点击“新增”,添加目标,目标分为列表及详情,注意:选择了目标,采集的内容是详情,还需要进一步来采集详情c)字段说明: 类型:也就是要采集的平台(阿里国际c站,中国制造等你自己定义的目标)名称:自定义名称链接:要采集的链接页数:如果是列表,需要设置一下这个页页,如果是自动加载到底的,就设置为1登录:默认是不需要,如果需要,那就会自动使用前面配置过的帐号进行登录生效:默认是生效,如果是不生效,这个目标不会被采集列表:是否是列表,如果是列表,会走列表采集模式,否则是详情采集模式最后点击保存给后续配置使用d)配置采集规则 平台:也就是前面说的类型,这里没有统一说明,这个可以在字典中配置,后续会讲到 模块名称:目前系统中分为列表及详情,当然也可以扩展为多级,比如列表-列表-详情,这个模块是绑定了具体的执行代码 规则:规则是一个Json对象,每个平台对应的配置字段不一样,这个取决于网站结构及采集代码,后续会开放采集代码上传的入口,方便大家自行扩展e)配置采集任务为什么为有这一步呢?因为我们配置了帐号,采集目标,采集规则,我们需要一个逻辑来把这三者关联起来,所以就产生了这一个逻辑,当然也可以放到其他层里,但这样感觉逻辑简单一点,就任性了f)配置计划 这一步可有可无,如果只要一次一个的执行,那可以回到“采集目标”这个tab下,点击对应目标的“采集”按钮就可以了(前提上abde已经配置好) 如果需要一次或者定时执行,那这一步就需要配置,这一步提供的功能如下: 1.资源圈定:特定圈定(指定哪些),条件圈定(设置一个条件,自动查询出来) 2.执行时机:立即执行,指定时间执行(指定一个未来时间执行一次),定时执行(在满足条件的情况下循环执行)
爬虫主动WaiMao(爬虫目标列表主动内容)
(图片来源网络,侵删)

联系我们

在线咨询:点击这里给我发消息