爬虫主动WaiMao(爬虫目标列表主动内容)「爬虫说明」

Hello!WaiMao一个工具，关于爬取内容，AI重写，发布到自媒体（小红书，Facebook,Twitter, Tiktok, 头条等）功能介绍采集（Spider）爬取目标网站的列表及详情页：文章或产品等...生成（AI）设置提示语，使用AI网站来重写提供的内容（可以是爬虫爬到的也可以是你复制粘帖过来了），产生一个全新的内容
发布（Publisher）发内容到自媒体（小红书，Facebook的个人主页或小组，Twitter,Tiktok,头条 etc）,你可以自行扩展要发布的内容，其中的规则就是css selector怎么使用1.使用Spider点击"自媒体"，切换到"采集"，如果你要爬取的内容需要登录，在"帐号"这个tab下，点击"新增"，添加帐号，在后续爬取过程中使用到
a)点击“采集目标”，可以看到有很多按钮b)点击“新增”，添加目标，目标分为列表及详情，注意：选择了目标，采集的内容是详情，还需要进一步来采集详情c)字段说明：类型：也就是要采集的平台（阿里国际c站，中国制造等你自己定义的目标）名称：自定义名称链接：要采集的链接页数：如果是列表，需要设置一下这个页页，如果是自动加载到底的，就设置为1登录：默认是不需要，如果需要，那就会自动使用前面配置过的帐号进行登录生效：默认是生效，如果是不生效，这个目标不会被采集列表：是否是列表，如果是列表，会走列表采集模式，否则是详情采集模式最后点击保存给后续配置使用d)配置采集规则平台：也就是前面说的类型，这里没有统一说明，这个可以在字典中配置，后续会讲到模块名称：目前系统中分为列表及详情，当然也可以扩展为多级，比如列表-列表-详情，这个模块是绑定了具体的执行代码规则：规则是一个Json对象，每个平台对应的配置字段不一样，这个取决于网站结构及采集代码，后续会开放采集代码上传的入口，方便大家自行扩展e)配置采集任务为什么为有这一步呢？因为我们配置了帐号，采集目标，采集规则，我们需要一个逻辑来把这三者关联起来，所以就产生了这一个逻辑，当然也可以放到其他层里，但这样感觉逻辑简单一点，就任性了f)配置计划这一步可有可无，如果只要一次一个的执行，那可以回到“采集目标”这个tab下，点击对应目标的“采集”按钮就可以了（前提上abde已经配置好）如果需要一次或者定时执行，那这一步就需要配置，这一步提供的功能如下： 1.资源圈定：特定圈定（指定哪些），条件圈定（设置一个条件，自动查询出来） 2.执行时机：立即执行，指定时间执行（指定一个未来时间执行一次），定时执行（在满足条件的情况下循环执行）