本次数据挖掘建模的总体流程如图 1所示。
图 1 购物篮分析流程图
购物篮关联规则挖掘主要步骤如下。
1) 对原始数据进行数据探索性分析,分析商品的热销情况与商品结构。
2) 对原始数据进行数据预处理,转换数据形式,使之符合Apriori关联规则算法要求。
3) 在步骤(2)得到的建模数据基础上,采用Apriori关联规则算法,调整模型输入参数,完成商品关联性分析。
4) 结合实际业务,对模型结果进行分析,根据分析结果给出销售建议,最后输出关联规则结果。
本案例的探索性分析是查看数据特征,以及对商品热销情况和商品结构分析。
探索数据特征是了解数据的第一步。分析商品热销情况和商品结构,是为了更好地实现企业的经营目标。商品管理应坚持商品齐全和商品优选的原则,产品销售基本满足“二八定律”即80%的销售额是由20%的商品创造的,这些商品是企业主要盈利商品,要作为商品管理的重中之重。商品热销情况分析和商品结构分析也是商品管理不可或缺的一部分,其中商品结构分析能够帮助保证商品的齐全性,热销情况分析可以助力于商品优选。
某商品零售企业共收集了9835个购物篮的数据,购物篮数据主要包括3个属性:id、Goods和Types。属性的具体说明如表 1所示。
表1 购物篮属性说明
*数据详见:demo/data/GoodsOrder.csv、GoodsTypes.csv。
1. 数据特征
探索数据的特征,查看每列属性、最大值、最小值,是了解数据的第一步。查看数据特征,如代码清单1所示。
代码清单1 查看数据特征
import numpy as np import pandas as pd
inputfile = '../data/GoodsOrder.csv' # 输入的数据文件 data = pd.read_csv(inputfile,encoding='gbk') # 读取数据 data.info() # 查看数据属性
data = data['id'] description = [data.count(),data.min(), data.max()] # 依次计算总数、最小值、最大值 description = pd.DataFrame(description, index=['Count','Min', 'Max']).T # 将结果存入数据框 print('描述性统计结果:\n',np.round(description)) # 输出结果 |
*代码详见:demo/code/data_explore.py。
根据代码清单1可得,每列属性共有43367个观测值,并不存在缺失值。查看“id”属性的大值和最小值,可知某商品零售企业共收集了9835个购物篮的数据,其中包含169个不同的商品类别,售出商品总数为43367件。
2. 分析热销商品
商品热销情况分析是商品管理不可或缺的一部分,热销情况分析可以助力于商品优选。计算销量排行前10商品的销量及占比,并绘制条形图显示销量前10商品的销量情况,如代码清单2所示。
代码清单2 分析热销商品
# 销量排行前10商品的销量及其占比 import pandas as pd inputfile = '../data/GoodsOrder.csv' # 输入的数据文件 data = pd.read_csv(inputfile,encoding='gbk') # 读取数据 group = data.groupby(['Goods']).count().reset_index() # 对商品进行分类汇总 sorted=group.sort_values('id',ascending=False) print('销量排行前10商品的销量:\n', sorted[:10]) # 排序并查看前10位热销商品
# 画条形图展示出销量排行前10商品的销量 import matplotlib.pyplot as plt x = sorted[:10]['Goods'] y = sorted[:10]['id'] plt.figure(figsize=(8, 4)) # 设置画布大小 plt.barh(x,y) plt.rcParams['font.sans-serif'] = 'SimHei' plt.xlabel('销量') # 设置x轴标题 plt.ylabel('商品类别') # 设置y轴标题 plt.title('商品的销量TOP10') # 设置标题 plt.savefig('../tmp/top10.png') # 把图片以.png格式保存 plt.show() # 展示图片
# 销量排行前10商品的销量占比 data_nums = data.shape[0] for idnex, row in sorted[:10].iterrows(): print(row['Goods'],row['id'],row['id']/data_nums) |
*代码详见:demo/code/data_explore.py。
根据代码清单2可得到销量排行前10商品的销量及其占比情况,如表 2和图 2所示。
表 2 销量排行前10商品的销量及其占比
图 2 销量排行前10的商品销量情况
通过分析热销商品的结果可知,全脂牛奶销售量最高,销量为2513件,占比5.795%;其次是其他蔬菜、面包卷和苏打,占比分别为4.388%、4.171%、3.955%。
3. 分析商品结构
对每一类商品的热销程度进行分析,有利于商家制定商品在货架的摆放策略和位置,若是某类商品较为热销,商场可以把此类商品摆放到商场的中心位置,方便顾客选购。或者放在商场深处位置,使顾客在购买热销商品前经过非热销商品,增加在非热销商品处的停留时间,促进非热销产品的销量。
原始数据中的商品本身已经过归类处理,但是部分商品还是存在一定的重叠,故再次对其进行归类处理。分析归类后各类别商品的销量及其占比,并绘制饼图显示各类商品的销量占比情况,如代码清单3所示。
代码清单3 各类别商品的销量及其占比
import pandas as pd inputfile1 = '../data/GoodsOrder.csv' inputfile2 = '../data/GoodsTypes.csv' data = pd.read_csv(inputfile1,encoding='gbk') types = pd.read_csv(inputfile2,encoding='gbk') # 读入数据
group = data.groupby(['Goods']).count().reset_index() sort = group.sort_values('id',ascending=False).reset_index() data_nums = data.shape[0] # 总量 del sort['index']
sort_links = pd.merge(sort,types) # 合并两个datafreame 根据type # 根据类别求和,每个商品类别的总量,并排序 sort_link = sort_links.groupby(['Types']).sum().reset_index() sort_link = sort_link.sort_values('id',ascending=False).reset_index() del sort_link['index'] # 删除“index”列
# 求百分比,然后更换列名,最后输出到文件 sort_link['count'] = sort_link.apply(lambda line: line['id']/data_nums,axis=1) sort_link.rename(columns={'count':'percent'},inplace=True) print('各类别商品的销量及其占比:\n',sort_link) outfile1 = '../tmp/percent.csv' sort_link.to_csv(outfile1,index=False,header=True,encoding='gbk') # 保存结果
# 画饼图展示每类商品销量占比 import matplotlib.pyplot as plt data = sort_link['percent'] labels = sort_link['Types'] plt.figure(figsize=(8, 6)) # 设置画布大小 plt.pie(data,labels=labels,autopct='%1.2f%%') plt.rcParams['font.sans-serif'] = 'SimHei' plt.title('每类商品销量占比') # 设置标题 plt.savefig('../tmp/persent.png') # 把图片以.png格式保存 plt.show() |
*代码详见:demo/code/data_explore.py。
根据代码清单3可得各类别商品的销量及其占比情况,结果如表3、图3所示。
表3 各类别商品的销量及其占比
图 3 各类别商品的销量占比情况
通过分析各类别商品的销量及其占比情况可知,非酒精饮料、西点、果蔬三类商品销量差距不大,占总销量的50%左右,同时,根据大类划分发现和食品相关的类的销量总和接近90%,说明了顾客倾向于购买此类产品,而其余商品仅为商场满足顾客的其余需求而设定,并非销售的主力军。
进一步查看销量第一的非酒精饮料类商品的内部商品结构,并绘制饼图显示其销量占比情况,如代码清单4所示。
代码清单4 非酒精饮料内部商品的销量及其占比
# 先筛选“非酒精饮料”类型的商品,然后求百分比,然后输出结果到文件。 selected = sort_links.loc[sort_links['Types'] == '非酒精饮料'] # 挑选商品类别为“非酒精饮料”并排序 child_nums = selected['id'].sum() # 对所有的“非酒精饮料”求和 selected['child_percent'] = selected.apply(lambda line: line['id']/child_nums,axis=1) # 求百分比 selected.rename(columns={'id':'count'},inplace=True) print('非酒精饮料内部商品的销量及其占比:\n',selected) outfile2 = '../tmp/child_percent.csv' sort_link.to_csv(outfile2,index=False,header=True,encoding='gbk') # 输出结果
# 画饼图展示非酒精饮品内部各商品的销量占比 import matplotlib.pyplot as plt data = selected['child_percent'] labels = selected['Goods'] plt.figure(figsize=(8,6)) # 设置画布大小 explode = (0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.08,0.3,0.1,0.3) # 设置每一块分割出的间隙大小 plt.pie(data,explode=explode,labels=labels,autopct='%1.2f%%', pctdistance=1.1,labeldistance=1.2) plt.rcParams['font.sans-serif'] = 'SimHei' plt.title("非酒精饮料内部各商品的销量占比") # 设置标题 plt.axis('equal') plt.savefig('../tmp/child_persent.png') # 保存图形 plt.show() # 展示图形 |
*代码详见:demo/code/data_explore.py。
根据代码清单4可得非酒精饮料内部商品的销量及其占比情况,如表4、图4所示。
表4 非酒精饮料内部商品的销量及其占比
图 4非酒精饮料内部商品的销量占比情况
通过分析非酒精饮料内部商品的销量及其占情况可知,全脂牛奶的销量在非酒精饮料的总销量中占比超过33%,前3种非酒精饮料的销量在非酒精饮料的总销量中占比接近70%,说明了大部分顾客到店购买的饮料为这三种,需要时常注意货物的库存,定期补货必不可少。
预告:
数据分析案例:商品零售购物篮分析(三)-数据预处理及模型构建,将于下周三推送