跨境头条

自有编程爬虫脚本采集，是指通过爬虫流程自动抓取亚马逊平台的数据，属于技术性的数据采集方法。...

自有编程爬虫脚本采集

港勤集团 2024年01月19日跨境电商自有编程爬虫脚本采集

自有编程爬虫脚本采集，是指通过爬虫流程自动抓取亚马逊平台的数据，属于技术性的数据采集方法。这里只是对这类数据采集方法做一个基础性的介绍，不会对IT编程类相关的内容做过多讲述，感兴致的读者可以自行查阅相关材料。

自有编程爬虫脚本采集

自有编程爬虫脚本采集主要使用于量级大、重复性高的数据采集工作，比如竞争对手listing的数据监控、数据化选品等。

首先下载爬虫流程“rank”，这是一个可执行文件即“EXEFile”，在合适的运行条件下双击即可开启爬虫流程。留意，在桌面运行该BXE文件时，需要确保在桌面上已经存在有命名为“rank”的Excel表格，其表格的具体应用办法如下:创立一个名为rank的Excel表，其文件可认为xls或xlsx格式，并保证表格与exe文件在同一路径下，运营者可以将Excel表格与EXE文件一起寄存于桌面上。表格的第-列输入需要提取排名的商品页面网址，然后关闭Excel表（表格打开时将无法存取数据此时将会弹出一个关闭提醒），打开EXE流程，处置每个数据需要5~8秒，所有数据完成以后会弹出提醒，因此打开文件后期待提醒弹出即可，期待期间不要打开Excel表格完成后的数据将以rank.xls文件存在，如果原始文件格式为rank.xlsx，则会新建一个rank.xls文件。

完成所有文件的下载后，即可尝试应用爬虫流程，因为在原表格中已经寄存有部分链接，所以可以直接双击“rank”的EXE文件开启爬虫流程。需要留意的是，爬虫流程开始后，名为“rank”的Excel文件必需处于关闭状况，否则会弹出请先关闭excel文件的警告页面。

因为初始Excel表格中已经记录了100个亚马逊链接，所以当爬虫流程启动后，需要期待10~20分钟，当数据爬取全体完成后，弹出已完成总计100条数据的提醒页面。

当数据抓取任务全体完成后，打开名为“rank”的Excel文件。

名为“rank”的Excel表中主要寄存了三种数据，第一种为亚马逊商品链接，第二种为该链接对应的大类目排名，第三种为数据抓取时间。

在大类目排名数据中，有些数据会显示“-1”。

“-1”的数据抓取错误可能是由以下几方面原因造成的。

1爬虫流程应用过于频繁，网络IP暂时被封禁。

2该商品链接还未出单，没有对应的大类目排名。

3该商品不是非标品，其数据抓取逻辑与爬虫流程不一致；

4流程运行错误，这可能是由于操作系统不匹配（如OS系统、XP系统），网络故障造成的。

在名为“rank”的Excel表中，第三列为此次数据抓取的时间。

如果运营者需要记录其他商品链接的排名，可以将Excel文件中第一列的链接信息进行修改，然后再次启动爬虫流程期待抓取工作完成即可。

需要留意的是，爬虫流程如果在短时间内频繁应用会被亚马逊暂时封禁网络IP，这时爬取下来的排名数据会涌现大批的“-1”，所以在应用过一次爬虫流程后，需要期待-段时间，能力开始下一次数据抓取。

微信客服

添加客服微信，获取相关业务资料。

跨境头条

自有编程爬虫脚本采集

业务咨询

亚马逊商品画像数据的抓取办法——人工采集

数据清洗及有效数据筛选