暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据分析案例:商品零售购物篮分析(二)

泰迪教育 2020-07-17
1442


还未阅读第一篇的小可爱,链接在这里哦👇
数据分析案例:商品零售购物篮分析(一)

本次数据挖掘建模的总体流程如图 1所示。


1  购物篮分析流程图


购物篮关联规则挖掘主要步骤如下


1) 对原始数据进行数据探索性分析,分析商品的热销情况与商品结构。


2) 对原始数据进行数据预处理,转换数据形式,使之符合Apriori关联规则算法要求。


3) 步骤2)得到建模数据基础上,采用Apriori关联规则算法,调整模型输入参数,完成商品关联性分析。


4) 结合实际业务,对模型结果进行分析,根据分析结果给出销售建议,最后输出关联规则结果。


数据探索分析

案例的探索性分析是查看数据特征,以及对商品热销情况和商品结构分析。


探索数据特征是了解数据的第一步。分析商品热销情况和商品结构,是为了更好地实现企业的经营目标。商品管理应坚持商品齐全和商品优选的原则,产品销售基本满足“二八定律”即80%的销售额是由20%的商品创造的,这些商品是企业主要盈利商品,要作为商品管理的重中之重。商品热销情况分析和商品结构分析也是商品管理不可或缺的一部分,其中商品结构分析能够帮助保证商品的齐全性,热销情况分析可以助力于商品优选。


某商品零售企业共收集了9835个购物篮的数据,购物篮数据主要包括3个属性:idGoodsTypes。属性的具体说明如表 1所示。


表1 购物篮属性说明


*数据详见:demo/data/GoodsOrder.csvGoodsTypes.csv

1. 数据特征

探索数据特征,查看每列属性、最大值、最小值了解数据的第一步。查看数据特征,如代码清单1所示。


代码清单查看数据特征

import numpy as np

import pandas as pd

 

inputfile = '../data/GoodsOrder.csv'   # 输入的数据文件

data = pd.read_csv(inputfile,encoding='gbk')  # 读取数据

data.info()  # 查看数据属性

 

data = data['id']

description = [data.count(),data.min(), data.max()]  # 依次计算总数、最小值、最大值

description = pd.DataFrame(description, index=['Count','Min', 'Max']).T  # 将结果存入数据框

print('描述性统计结果:\n',np.round(description))  # 输出结果

*代码详见:demo/code/data_explore.py


根据代码清单1可得,每列属性共有43367个观测值,并不存在缺失值。查看id”属性值和最小值可知某商品零售企业共收集了9835个购物篮的数据,其中包含169个不同的商品类别,售出商品总数为43367件。

2. 分析热销商品

商品热销情况分析是商品管理不可或缺的一部分,热销情况分析可以助力于商品优选。计算销量排行10商品的销量及占比,并绘制条形图显示销量前10商品的销量情况,如代码清单2所示。


代码清单2 分析热销商品

# 销量排行前10商品的销量及其占比

import pandas as pd

inputfile = '../data/GoodsOrder.csv'  # 输入的数据文件

data = pd.read_csv(inputfile,encoding='gbk')  # 读取数据

group = data.groupby(['Goods']).count().reset_index()  # 对商品进行分类汇总

sorted=group.sort_values('id',ascending=False)

print('销量排行前10商品的销量:\n', sorted[:10])  # 排序并查看前10位热销商品

 

# 画条形图展示出销量排行前10商品的销量

import matplotlib.pyplot as plt

x = sorted[:10]['Goods']

y = sorted[:10]['id']

plt.figure(figsize=(8, 4))  # 设置画布大小

plt.barh(x,y)

plt.rcParams['font.sans-serif'] = 'SimHei'

plt.xlabel('销量')  # 设置x轴标题

plt.ylabel('商品类别')  # 设置y轴标题

plt.title('商品的销量TOP10')  # 设置标题

plt.savefig('../tmp/top10.png')  # 把图片以.png格式保存

plt.show()  # 展示图片

 

# 销量排行10商品的销量占比

data_nums = data.shape[0]

for idnex, row in sorted[:10].iterrows():

    print(row['Goods'],row['id'],row['id']/data_nums)

*代码详见:demo/code/data_explore.py


根据代码清单2可得到销量排行10商品的销量及其占比情况,如表 2和图 2所示。

2 销量排行前10商品的销量及其占比


 图 2 销量排行前10的商品销量情况


通过分析热销商品的结果可知,全脂牛奶销售量最高,销量为2513件,占比5.795%;其次是其他蔬菜、面包卷和苏打,占比分别为4.388%4.171%3.955%

3. 分析商品结构

对每一商品的热销程度进行分析,有利于商家制定商品在货架的摆放策略和位置,若是某类商品较为热销,商场可以把此类商品摆放到商场的中心位置,方便顾客选购或者放在商场深处位置,使顾客在购买热销商品前经过非热销商品,增加非热销商品处的停留时间,促进非热销产品的销量。


原始数据中的商品本身已经过归类处理,但是部分商品还是存在一定的重叠,故再次对其进行归类处理。分析归类后各类别商品的销量及其占比,并绘制饼图显示各类商品的销量占比情况,如代码清单3所示。


代码清单3 各类别商品的销量及其占比

import pandas as pd

inputfile1 = '../data/GoodsOrder.csv'

inputfile2 = '../data/GoodsTypes.csv'

data = pd.read_csv(inputfile1,encoding='gbk')

types = pd.read_csv(inputfile2,encoding='gbk')  # 读入数据

 

group = data.groupby(['Goods']).count().reset_index()

sort = group.sort_values('id',ascending=False).reset_index()

data_nums = data.shape[0]  # 总量

del sort['index']

 

sort_links = pd.merge(sort,types)  # 合并两个datafreame 根据type

# 根据类别求和,每个商品类别的总量,并排序

sort_link = sort_links.groupby(['Types']).sum().reset_index()

sort_link = sort_link.sort_values('id',ascending=False).reset_index()

del sort_link['index']  # 删除“index”列

 

# 求百分比,然后更换列名,最后输出到文件

sort_link['count'] = sort_link.apply(lambda line: line['id']/data_nums,axis=1)

sort_link.rename(columns={'count':'percent'},inplace=True)

print('各类别商品的销量及其占比:\n',sort_link)

outfile1 = '../tmp/percent.csv'

sort_link.to_csv(outfile1,index=False,header=True,encoding='gbk')  # 保存结果

 

# 画饼图展示每类商品销量占比

import matplotlib.pyplot as plt

data = sort_link['percent']

labels = sort_link['Types']

plt.figure(figsize=(8, 6))  # 设置画布大小   

plt.pie(data,labels=labels,autopct='%1.2f%%')

plt.rcParams['font.sans-serif'] = 'SimHei'

plt.title('每类商品销量占比')  # 设置标题

plt.savefig('../tmp/persent.png')  # 把图片以.png格式保存

plt.show()

*代码详见:demo/code/data_explore.py


根据代码清单3可得各类别商品的销量及其占比情况,结果如表3、图3所示。


表3 各类别商品的销量及其占比



图 3 各类别商品的销量占比情况


通过分析各类别商品的销量及其占比情况可知,非酒精饮料、西点、果蔬三类商品销量差距不大,占总销量的50%左右,同时,根据大类划分发现和食品相关的类的销量总和接近90%,说明了顾客倾向于购买此类产品,而其余商品仅为商场满足顾客的其余需求而设定,并非销售的主力军。


进一步查看销量第一的非酒精饮料类商品的内部商品结构,并绘制饼图显示其销量占比情况,如代码清单4所示。


代码清单4 非酒精饮料内部商品的销量及其占比

# 先筛选“非酒精饮料”类型的商品,然后求百分比,然后输出结果到文件。

selected = sort_links.loc[sort_links['Types'] == '非酒精饮料']  # 挑选商品类别为“非酒精饮料”并排序

child_nums = selected['id'].sum()  # 对所有的“非酒精饮料”求和

selected['child_percent'] = selected.apply(lambda line: line['id']/child_nums,axis=1)  # 求百分比

selected.rename(columns={'id':'count'},inplace=True)

print('非酒精饮料内部商品的销量及其占比:\n',selected)

outfile2 = '../tmp/child_percent.csv'

sort_link.to_csv(outfile2,index=False,header=True,encoding='gbk')  # 输出结果

 

# 画饼图展示非酒精饮品内部各商品的销量占比

import matplotlib.pyplot as plt

data = selected['child_percent']

labels = selected['Goods']

plt.figure(figsize=(8,6))  # 设置画布大小

explode = (0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.08,0.3,0.1,0.3)  # 设置每一块分割出的间隙大小

plt.pie(data,explode=explode,labels=labels,autopct='%1.2f%%',

      pctdistance=1.1,labeldistance=1.2)

plt.rcParams['font.sans-serif'] = 'SimHei'

plt.title("非酒精饮料内部各商品的销量占比")  # 设置标题

plt.axis('equal')

plt.savefig('../tmp/child_persent.png')  # 保存图形

plt.show()  # 展示图形

*代码详见:demo/code/data_explore.py


根据代码清单4可得非酒精饮料内部商品的销量及其占比情况,如表4、图4所示。

表4 非酒精饮料内部商品的销量及其占比

 

图 4非酒精饮料内部商品的销量占比情况


通过分析非酒精饮料内部商品的销量及其占情况可知,全脂牛奶的销量在非酒精饮料的总销量中占比超过33%,前3种非酒精饮料的销量在非酒精饮料的总销量中占比接近70%,说明了大部分顾客到店购买的饮料为这三种,需要时常注意货物的库存,定期补货必不可少。


预告:

数据分析案例:商品零售购物篮分析(三)-数据预处理及模型构建,将于下周三推送



文章转载自泰迪教育,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论