将针对自动化抓取采集结合爬虫程序进行讲述。(注意,本小节所使用的爬虫程序只能针对以服装为代表的非标品类目,因为标品类目与非标品类目数据抓取技术有所不同,所以不能适用)首先下载爬虫程序“rank”,这是一个可执行文件即“EXE File”,在合适的运行条件下只需双击就可以开启爬虫程序(注意,在桌面运行该EXE文件时,需要确保在桌面上已经存在有命名为“rank”的Excel,其表格的具体使用方法:创建一个名为rank的Excel,其文件可以为xls或xlsx格式,并保证表格与exe文件在同一路径下,卖家可以将Excel表格与EXE文件一起存放于计算机桌面上。表格的第一列输入需要提取排名的商品页面网址,然后关闭Excel(表格打开时将无法存取数据,此时将会弹出一个关闭提示),打开EXE程序,处理每个数据大概需要5~8s,所有数据完成以后会弹出提示,因此打开文件后等待提示弹出即可,等待期间不要打开Excel。完成后的数据将会以rank.xls文件存在,如果原始文件格式为rank.xlsx,则会新建一个rank.xls文件。)其文件图标来源于笔者个人自媒体头像10g0,感兴趣的读者可以到“喜马拉雅FM”“知乎”“蜻蜓FM”等平台搜索“旭鹏”。如果读者想要使用名为“rank”的EXE文件,首先要下载名为“rank”的Excel文件,并将其存放在桌面上。完成所有文件的下载后,就可以尝试使用爬虫程序了。因为在原本表格中已经存放有部分链接,所以读者可以直接双击“rank”的EXE文件开启爬虫程序。需要注意的是,爬虫程序开始后,名为“rank”的Excel文件必须处于关闭状态,否则就会弹出警告页面。当数据抓取任务全部完成后,打开名为“rank”的Excel文件。名为“rank”的Excel中主要存放了三种数据:第一种为亚马逊商品链接;第二种为该链接对应的大类目排名;第三种为数据抓取时间。在名为“rank”的Excel中,第一列为亚马逊商品链接。在名为“rank”的Excel中,第二列为不同商品链接对应的大类目排名。因为本小节的爬虫程序针对的是服装类目,所以抓取的排名为大类目“Clothing, Shoes & Jewelry”的数据。在大类目排名数据中,有些数据会显示“-1”。“-1”的数据抓取错误可能是由以下几方面原因造成的:1.爬虫程序使用过于频繁,网络IP暂时被封禁;2.该商品链接还未出单,没有对应的大类日排名;3.该商品不是非标品,其数据抓取逻辑与爬虫程序不一致;4.程序运行错误,这可能是由于操作系统不匹配(例如IOS系统、XP系统),网络故障造成。在名为“rank”的Excel中,第三列为此次数据抓取的时间。如果卖家需要记录其他商品链接的排名,可以将Excel文件中第一列的链接信息进行修改,然后再次启动爬虫程序等待抓取工作完成即可。需要注意的是,爬虫程序如果在短时间内频繁使用会被亚马逊暂时封禁网络IP,这时爬取下来的排名数据会出现大量的“-1”,所以在使用过一次爬虫程序后,需要等待一段时间,再开始下一次数据抓取。连连国际平台业务专注为拥有跨境场景需求的平台业务客户提供专业便捷且高性价比的跨境全链路收付兑解决方案(本文内容根据网络资料整理,出于传递更多信息之目的,不代表连连国际赞同其观点和立场)
0 评论