数据分析案例：商品零售购物篮分析（二）

泰迪教育 2020-07-17

1706

还未阅读第一篇的小可爱，链接在这里哦👇

数据分析案例：商品零售购物篮分析（一）

本次数据挖掘建模的总体流程如图 1所示。

图 1 购物篮分析流程图

购物篮关联规则挖掘主要步骤如下。

1) 对原始数据进行数据探索性分析，分析商品的热销情况与商品结构。

2) 对原始数据进行数据预处理，转换数据形式，使之符合Apriori关联规则算法要求。

3) 在步骤（2）得到的建模数据基础上，采用Apriori关联规则算法，调整模型输入参数，完成商品关联性分析。

4) 结合实际业务，对模型结果进行分析，根据分析结果给出销售建议，最后输出关联规则结果。

数据探索分析

本案例的探索性分析是查看数据特征，以及对商品热销情况和商品结构分析。

探索数据特征是了解数据的第一步。分析商品热销情况和商品结构，是为了更好地实现企业的经营目标。商品管理应坚持商品齐全和商品优选的原则，产品销售基本满足“二八定律”即80%的销售额是由20%的商品创造的，这些商品是企业主要盈利商品，要作为商品管理的重中之重。商品热销情况分析和商品结构分析也是商品管理不可或缺的一部分，其中商品结构分析能够帮助保证商品的齐全性，热销情况分析可以助力于商品优选。

某商品零售企业共收集了9835个购物篮的数据，购物篮数据主要包括3个属性：id、Goods和Types。属性的具体说明如表 1所示。

表1 购物篮属性说明

*数据详见：demo/data/GoodsOrder.csv、GoodsTypes.csv。

1. 数据特征

探索数据的特征，查看每列属性、最大值、最小值，是了解数据的第一步。查看数据特征，如代码清单1所示。

代码清单1 查看数据特征

import numpy as np

import pandas as pd

inputfile = '../data/GoodsOrder.csv' # 输入的数据文件

data = pd.read_csv(inputfile,encoding='gbk') # 读取数据

data.info() # 查看数据属性

data = data['id']

description = [data.count(),data.min(), data.max()] # 依次计算总数、最小值、最大值

description = pd.DataFrame(description, index=['Count','Min', 'Max']).T # 将结果存入数据框

print('描述性统计结果：\n',np.round(description)) # 输出结果

*代码详见：demo/code/data_explore.py。

根据代码清单1可得，每列属性共有43367个观测值，并不存在缺失值。查看“id”属性的大值和最小值，可知某商品零售企业共收集了9835个购物篮的数据，其中包含169个不同的商品类别，售出商品总数为43367件。

2. 分析热销商品

商品热销情况分析是商品管理不可或缺的一部分，热销情况分析可以助力于商品优选。计算销量排行前10商品的销量及占比，并绘制条形图显示销量前10商品的销量情况，如代码清单2所示。

代码清单2 分析热销商品

# 销量排行前10商品的销量及其占比

import pandas as pd

inputfile = '../data/GoodsOrder.csv' # 输入的数据文件

data = pd.read_csv(inputfile,encoding='gbk') # 读取数据

group = data.groupby(['Goods']).count().reset_index() # 对商品进行分类汇总

sorted=group.sort_values('id',ascending=False)

print('销量排行前10商品的销量:\n', sorted[:10]) # 排序并查看前10位热销商品

# 画条形图展示出销量排行前10商品的销量

import matplotlib.pyplot as plt

x = sorted[:10]['Goods']

y = sorted[:10]['id']

plt.figure(figsize=(8, 4)) # 设置画布大小

plt.barh(x,y)

plt.rcParams['font.sans-serif'] = 'SimHei'

plt.xlabel('销量') # 设置x轴标题

plt.ylabel('商品类别') # 设置y轴标题

plt.title('商品的销量TOP10') # 设置标题

plt.savefig('../tmp/top10.png') # 把图片以.png格式保存

plt.show() # 展示图片

# 销量排行前10商品的销量占比

data_nums = data.shape[0]

for idnex, row in sorted[:10].iterrows():

print(row['Goods'],row['id'],row['id']/data_nums)

*代码详见：demo/code/data_explore.py。

根据代码清单2可得到销量排行前10商品的销量及其占比情况，如表 2和图 2所示。

表 2 销量排行前10商品的销量及其占比

图 2 销量排行前10的商品销量情况

通过分析热销商品的结果可知，全脂牛奶销售量最高，销量为2513件，占比5.795%；其次是其他蔬菜、面包卷和苏打，占比分别为4.388%、4.171%、3.955%。

3. 分析商品结构

对每一类商品的热销程度进行分析，有利于商家制定商品在货架的摆放策略和位置，若是某类商品较为热销，商场可以把此类商品摆放到商场的中心位置，方便顾客选购。或者放在商场深处位置，使顾客在购买热销商品前经过非热销商品，增加在非热销商品处的停留时间，促进非热销产品的销量。

原始数据中的商品本身已经过归类处理，但是部分商品还是存在一定的重叠，故再次对其进行归类处理。分析归类后各类别商品的销量及其占比，并绘制饼图显示各类商品的销量占比情况，如代码清单3所示。

代码清单3 各类别商品的销量及其占比

import pandas as pd

inputfile1 = '../data/GoodsOrder.csv'

inputfile2 = '../data/GoodsTypes.csv'

data = pd.read_csv(inputfile1,encoding='gbk')

types = pd.read_csv(inputfile2,encoding='gbk') # 读入数据

group = data.groupby(['Goods']).count().reset_index()

sort = group.sort_values('id',ascending=False).reset_index()

data_nums = data.shape[0] # 总量

del sort['index']

sort_links = pd.merge(sort,types) # 合并两个datafreame 根据type

# 根据类别求和，每个商品类别的总量，并排序

sort_link = sort_links.groupby(['Types']).sum().reset_index()

sort_link = sort_link.sort_values('id',ascending=False).reset_index()

del sort_link['index'] # 删除“index”列

# 求百分比，然后更换列名，最后输出到文件

sort_link['count'] = sort_link.apply(lambda line: line['id']/data_nums,axis=1)

sort_link.rename(columns={'count':'percent'},inplace=True)

print('各类别商品的销量及其占比:\n',sort_link)

outfile1 = '../tmp/percent.csv'

sort_link.to_csv(outfile1,index=False,header=True,encoding='gbk') # 保存结果

# 画饼图展示每类商品销量占比

import matplotlib.pyplot as plt

data = sort_link['percent']

labels = sort_link['Types']

plt.figure(figsize=(8, 6)) # 设置画布大小

plt.pie(data,labels=labels,autopct='%1.2f%%')

plt.rcParams['font.sans-serif'] = 'SimHei'

plt.title('每类商品销量占比') # 设置标题

plt.savefig('../tmp/persent.png') # 把图片以.png格式保存

plt.show()

*代码详见：demo/code/data_explore.py。

根据代码清单3可得各类别商品的销量及其占比情况，结果如表3、图3所示。

表3 各类别商品的销量及其占比

图 3 各类别商品的销量占比情况

通过分析各类别商品的销量及其占比情况可知，非酒精饮料、西点、果蔬三类商品销量差距不大，占总销量的50%左右，同时，根据大类划分发现和食品相关的类的销量总和接近90%，说明了顾客倾向于购买此类产品，而其余商品仅为商场满足顾客的其余需求而设定，并非销售的主力军。

进一步查看销量第一的非酒精饮料类商品的内部商品结构，并绘制饼图显示其销量占比情况，如代码清单4所示。

代码清单4 非酒精饮料内部商品的销量及其占比

# 先筛选“非酒精饮料”类型的商品，然后求百分比，然后输出结果到文件。

selected = sort_links.loc[sort_links['Types'] == '非酒精饮料'] # 挑选商品类别为“非酒精饮料”并排序

child_nums = selected['id'].sum() # 对所有的“非酒精饮料”求和

selected['child_percent'] = selected.apply(lambda line: line['id']/child_nums,axis=1) # 求百分比

selected.rename(columns={'id':'count'},inplace=True)

print('非酒精饮料内部商品的销量及其占比:\n',selected)

outfile2 = '../tmp/child_percent.csv'

sort_link.to_csv(outfile2,index=False,header=True,encoding='gbk') # 输出结果

# 画饼图展示非酒精饮品内部各商品的销量占比

import matplotlib.pyplot as plt

data = selected['child_percent']

labels = selected['Goods']

plt.figure(figsize=(8,6)) # 设置画布大小

explode = (0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.08,0.3,0.1,0.3) # 设置每一块分割出的间隙大小

plt.pie(data,explode=explode,labels=labels,autopct='%1.2f%%',

pctdistance=1.1,labeldistance=1.2)

plt.rcParams['font.sans-serif'] = 'SimHei'

plt.title("非酒精饮料内部各商品的销量占比") # 设置标题

plt.axis('equal')

plt.savefig('../tmp/child_persent.png') # 保存图形

plt.show() # 展示图形

*代码详见：demo/code/data_explore.py。

根据代码清单4可得非酒精饮料内部商品的销量及其占比情况，如表4、图4所示。

表4 非酒精饮料内部商品的销量及其占比

图 4非酒精饮料内部商品的销量占比情况

通过分析非酒精饮料内部商品的销量及其占情况可知，全脂牛奶的销量在非酒精饮料的总销量中占比超过33%，前3种非酒精饮料的销量在非酒精饮料的总销量中占比接近70%，说明了大部分顾客到店购买的饮料为这三种，需要时常注意货物的库存，定期补货必不可少。

预告：

数据分析案例：商品零售购物篮分析（三）-数据预处理及模型构建，将于下周三推送

数据库

文章转载自泰迪教育，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

数据分析案例：商品零售购物篮分析（二）

1. 数据特征

2. 分析热销商品

3. 分析商品结构

评论