• 4008802488
  • 香港、深圳、广州、海南、吉隆坡、华盛顿、伦敦
cr TC001716、TC006080

跨境头条

在进行数据分析前,运营者需要对收集到的数据集进行数据清洗工作,否则数据分析的结果将会因为异...

数据清洗及有效数据筛选

李小姐李小姐 2024年01月19日 跨境电商数据清洗数据筛选

在进行数据分析前,运营者需要对收集到的数据集进行数据清洗工作,否则数据分析的结果将会因为异常值的存在而发生误差。

数据清洗及有效数据筛选

以“商品画像”Excel文件中的数据为例,运营者可以通过Excel的“筛选”功能查看各个维度的数据是否存在异常值。其操作程序为:打开“商品画像”Excel表格,选择第一行数据,在菜单栏中选择“开始”选项卡,然后单击“排序和筛选”下拉按钮,在弹出的下拉菜单中选择“筛选”选项。

当Excel操作界面发生“筛选”的功能符号(一个小的向下的箭头)后,运营者可以单击各个维度数据的“筛选”符号,从而查看该维度数据是否存在异常值。以“评分数量”为例,当单击“筛选”符号后,运营者会发觉该维度数据存在“-1”的异常值,这类异常值是因为Python爬虫脚本在抓取数据时无法完成抓取导致的。

一般而言,异常值在总数据量的5%以内都不会影响数据分析的精准度,当运营者通过上述程序筛选“评分数量”的异常值时,可以发觉一共有23个异常值(Excel显示有24行,但是因为第一行是数据维度名称,所以总计异常值为24-1=23个)。

运营者可以重复上述程序,将各个维度的异常值逐一进行删除即可。需要留意的是在对排名维度进行异常值处置时,只需对“Clothing,Shoes&;Jewelry”维度进行处置而不需要对“Women’sShops”维度进行处置,这是因为后者相比于前者属于小类排名存在部分商品属于大类而不属小类的情形。因此,在进行前期的数据清洗时,只需关注大类排名的数据即可。

当对“评分数量”“曝光价钱”“商品价钱规模(最低价)”“商品价钱规模(最高价)”“Clothing,Shoes&;Jewelry”这5个维度中的异常数据进行清洗后,可以获得最终数据,将清洗后的数据保留在名为“清洗后的商品画像数据”Excel文件中。

随便单击该数据表格中的一列,可以发觉该数据集包括18660个ASIN的数据,相比于19152的原始数据,一共有492个带有异常值的ASIN被删除了。当完成了一系列数据清洗的程序后,即可开始进行数据分析。

微信客服

添加客服微信,获取相关业务资料。

业务咨询

在线咨询

上篇

自有编程爬虫脚本采集

2024年01月19日

4008802488

13823549304

微信客服

微信客服