1、提取规则中的代码从哪里获取?· 通过浏览器打开起始网址(也就是我们要采集的内容的页面)· 在打开的页面按F12(windows电脑)调出网页调试· 选择小箭头(mac跟windows系统有所区别,自行寻找)· 选择页面中的内容区域仔细对比一下这里的代码跟提取规则里面的代码是否一模一样?没错,提取规则就是要将这个内容作为入口同时提取这张缩略图以作为你自己网站发布的缩略图所用
注:其中【参数】标签是需要提取的信息,而()标签代表忽略信息2、设置区域从哪里获取?还是用刚才的方法,这次我们用小箭头选择整个列表页:再来对比一下而另外一个实际上是翻页标签,要知道这个列表有很多分页,采集系统需要识别从哪里翻页:除此之外,还有一些配置需要完成,但是基本的操作方法都是类似如下图:3、内容采集规则请注意上面的标签列表每个人都不同,只有标题和内容是通用的,这里我就主要讲标题和内容的提取:首先我们要进入到采集对象的文章内容页面,然后采用之前同样的方法来获取源代码部分一般标题默认都会在头部标签当中(不懂什么叫头部标签的可以翻我以前的文章关于前后端整合的有介绍):所以填入固定标签:"title": "[参数]”即可
如下图:意思是读取title:标签后面的参数,请注意这里选择的是正则提取,就是从一段特定的内容中提取我们需要的参数采集过来大家注意截图中下面有一个数据处理,是什么意思呢?截图中可以看到,毕竟是从别人的网站采集内容,难免别人会带上自己的一些网站标示,而我们要把别人的内容拿来使用自然是不希望出现别人网站的标示的,这时候就需要通过数据处理功能来自动替换一些我们想要替换的内容了可以看到里面有很多的高级替换功能,如果是要去除就采取去除规则就行了,其它规则可以自行研究一下注:数据处理可以同时添加多项规则,可以同时处理多项替换功能下面介绍内容采集,内容区域的采集我们选择前后截取,什么意思呢,就是通过定义头和尾,采集头尾中间的全部内容:上面第一个方框截取的代码是开头,而第二个方框截取的代码是结尾,由于代码被折叠了,大家可能没看到细节代码,但是也不需要,我们从上面的浏览器绿色和蓝色区域可以看到实际上已经截取了整个文章内容区域了填入到开头字符串和结尾字符串即可然后在数据替换中,为了避免采集到的信息以代码的方式被采集到自己网站,我们就需要做一些数据处理让采集到的内容变成尽可能简单的文本了
其中HTML标签排除的应用可以排除掉一些我们不希望采集到的内容:其它的采集对象就需要根据实际的发布项来采集了,大致的规则都差不多
最后进行测试采集和发布即可,会玩点电脑的小白自己都能摸吧
(反正小编以前没摸过采集,有个样板参考瞬间莫会
)四、结语小编以前也没玩过采集,第一次接触,偶感确实方便,不自觉地就分享出来了
当成教程有所不足,也就是让大家有个基础了解,如果想要系统的学习,可以自己找些采集方面的资料学习
最后说明一点,本文所演示的采集对象仅用于演示,织梦58网谅解大家请正确合理合法的应用采集功能,关注我了解更多小白可以学习的网络知识,如有疑问可以留言咨询(图片来源网络,侵删)
0 评论