面试宝典--完整数据挖掘与分析知识体系

全栈数据 2021-10-31

698

数据挖掘和数据分析的不同之处：

在应用工具上，数据挖掘一般要通过自己的编程来实现需要掌握编程语言；而数据分析更多的是借助现有的分析工具进行。

在行业知识方面，数据分析要求对所从事的行业有比较深的了解和理解，并且能够将数据与自身的业务紧密结合起来；而数据挖掘不需要有太多的行业的专业知识。

交叉学科方面，数据分析需要结合统计学、营销学、心理学以及金融、政治等方面进行综合分析；数据挖掘更多的是注重技术层面的结合以及数学和计算机的集合。

数据挖掘和数据分析的相似之处：

数据挖掘和数据分析都是对数据进行分析、处理等操作进而得到有价值的知识。

都需要懂统计学，懂数据处理一些常用的方法，对数据的敏感度比较好。

数据挖掘和数据分析的联系越来越紧密，很多数据分析人员开始使用编程工具进行数据分析，如SAS、R、SPSS等。而数据挖掘人员在结果表达及分析方面也会借助数据分析的手段。二者的关系的界限变得越来越模糊。

数据挖掘

1 数学预备知识

概率论：支撑整个数据挖掘算法和机器学习算法的数学基础，要熟悉常见的一些概率分布。

矩阵论：线性代数中对数据挖掘最有用的部分，还有一些线性空间相关知识也很重要。

信息论：将信息和数学紧密连接在一起并完美的表达的桥梁，需要掌握信息熵、信息增益等相关知识。

统计学：数据分析最早的依赖基础，通常和概率论一起应用，现在的机器学习和数据挖掘很多都是基于统计的，常见的均值、方差、协方差等都要熟练掌握。

2 编程基础

数据挖掘需要一定的编程基础，因为要实现模型以及数据的处理很多工作都是需要程序来进行的，数据挖掘常用的编程语言如下：

SQL：数据库的熟练使用是任何数据挖掘人员必不可少的技能。

C++ ：有很多的标准模板库以及机器学习模型库进行调用可以方便编程实现。

Python：对字符串处理有极大的优势，是解释型语言，实现简单，而且有很多开源的机器学习模型库的支持，可处理大规模数据。

Matlab：拥有强大的矩阵运算，也是解释型语言，有很多发展较成熟库可以直接调用，支持数据结果的可视化表示，但是处理数据量有限。

R：近年兴起的数据分析编程语言，数据可视化做的比较好，语法简单，学习成本很低，很多非程序设计人员都可以数量掌握。

Java：使用范围最广的编程语言，有很多社区进行交流，进行编程实现具有灵活高效的特点，不足之处就是实现功能的代码量较大（相对于其他数据挖掘编程语言）。

Scala: 一种具有面向对象风格、函数式风格、更高层的并发模型的编程语言。同时Scala是大数据处理平台Spark的实现语言。

3 数据挖掘的模型知识

数据挖掘其实是个“古老”的技术，已经有几十年历史了，近年来红火的人工智能又让这个古老技术有了更多关注。

那么，到底什么是数据挖掘呢？它又能做什么事呢？

傍晚小街路面上沁出微雨后的湿润，和煦的细风吹来，抬头看看天边的晚霞，嗯，明天又是一个好天气。走到水果摊旁，挑了个根蒂蜷缩、敲起来声音浊响的青绿西瓜，心里期待着享受这个好瓜。

由路面微湿、微风、晚霞得出明天是个好天气。根蒂蜷缩、敲声浊响、色泽青绿推断出这是个好瓜，显然，我们是根据以往的经验来对未来或未知的事物做出预测。

人可以根据经验对未来进行预测，那么机器能帮我们做这些吗？

能，这就是数据挖掘。

“经验”通常以“数据”的形式存在，数据挖掘的任务就是从历史数据（之前挑瓜的经历，注意是经历还不是经验）中挖掘出有用的“知识”，也就是所谓“模型”（现在就形成经验了），在面对新情况时（未抛开的瓜）模型就可以用来预测（是不是好瓜）。

用高中生能理解的数学语言来讲，数据挖掘建模任务的本质就是，根据一些历史已有的、从输入空间 X（如 {[色泽青绿；根蒂蜷缩；敲声浊响]，[色泽乌黑；根蒂蜷缩；敲声沉闷]，[色泽浅白；根蒂硬挺；敲声清脆]} ）到输出空间 Y（如 {好瓜，坏瓜，坏瓜}）的对应，找出一个函数 f：这个函数就是我们要的模型。有了模型之后再做预测就简单了，也就是拿一套新 x，用这个函数算一个 y 出来就完了。

那么，模型又是怎么建立出来，也就是这个函数是怎么找出来的呢？

想想如何让一个人拥有判断瓜好坏的能力呢？

需要用一批瓜来练习，获取剖开前的特征（色泽、根蒂、敲声等），然后再剖开它看好坏。久而久之，这个人就能学会用剖开前瓜的特征来判断瓜的好坏了。朴素地想，用来练习的瓜越多，能够获得的经验也就越丰富，以后的判断也就会越准确。

用机器做数据挖掘是一样的道理，我们需要使用历史数据（用来练习的瓜）来建立模型，而建模过程也被称为训练或学习，这些历史数据称为训练数据集。训练好了模型后，就好象发现了数据的某种规律，就可以拿来做预测了。

也就是说，数据挖掘是用来做预测的，而要做到这种预测，需要有足够多已经有结果的历史数据为基础。

那么，这种预测技术如何在我们的生产销售过程中应用呢？

以贷款业务为例，金融机构要做风险控制，防止坏帐，就要在放贷前知道这个贷款人将来不能按时还款的风险，从而决定是否放贷以及贷款利率。

要做到这件事，我们要有一定数量的历史数据，也就是以前贷款人及贷款业务的各种信息，比如贷款人的收入水平、受教育程度、居住地区、信用历史、负债率等等可能会影响违约率的因素，还有贷款本身的金额、期限、利率等等。需要注意的是历史数据中一定要同时包含好客户和坏客户（也是在发生违约不还款的客户），并且坏客户的数量不能过少。

通常可以截取近几个月或近一年的历史数据作为训练数据，定义好目标变量 Y（如坏客户为 1，好客户为 0），然后就可以使用数据挖掘技术建立模型来寻找用户及贷款的各种信息 X 和目标 Y 之间的关系。建好的模型可以用来预测，及时发现高风险用户。

需要说明的，数据挖掘模型的预测并不能保证 100% 准确（有很多种办法来评估它的准确率），所以如果只有一例目标（比如只有一笔贷款）需要预测时，那就没有意义了。但通常，我们会需要都会有很多例目标需要预测，这样即使不是每一例都能预测正确，但能保证一定的准确率，这仍然是很有意义的。对于贷款业务，模型找出来的高风险客户未必都是真地，但准确率只要足够高，仍然能够有效的防范风险。

数据挖掘技术可以广泛地应用于各行各业，工业领域中可以根据历史生产数据来预测良品情况，从而改进工艺参数降低不良率；畜牧业可以使用数据挖掘技术根据测量牲畜体温来预测牲畜是否生病，从而提前防治；医院也可以使用历史医疗记录基于数据挖掘技术找出关联规律，帮助医生更好地诊断疾病。

常用挖掘算法：

1.C4.5算法

2. k 均值聚类算法

3.支持向量机

4. Apriori 关联算法

5.EM 最大期望算法 Expectation Maximization

6、PageRank 算法

7、AdaBoost 迭代算法

8、kNN 算法

9、朴素贝叶斯算法

10、CART 分类算法。

补充：

11.随机森林

12.维度降低算法

13.渐变增强和AdaBoost

机器学习和数据挖掘是紧密相关的，要进行数据挖掘需要掌握一些机器学习所用的方法和模型知识，通过模型的训练可以得到处理数据的最优的模型。数据挖掘常用的模型如下：

3.1 监督学习模型

就是人们常说的分类，通过已有的训练样本（即已知数据以及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优则表示在某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的，也就具有了对未知数据进行分类的能力。

3.1.1决策树：

决策树是用于分类和预测的主要技术之一，决策树学习是以实例为基础的归纳学习算法，它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系，用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式，在决策树的内部节点进行属性的比较，并根据不同属性值判断从该节点向下的分支，在决策树的叶节点得到结论。

主要的决策树算法有ID3、C4.5（C5.0）、CART、PUBLIC、SLIQ和SPRINT算法等。它们在选择测试属性采用的技术、生成的决策树的结构、剪枝的方法以及时刻，能否处理大数据集等方面都有各自的不同之处。

3.1.2 贝叶斯方法：

贝叶斯（Bayes）分类算法是一类利用概率统计知识进行分类的算法，如朴素贝叶斯（Naive Bayes）算法。这些算法主要利用Bayes定理来预测一个未知类别的样本属于各个类别的可能性，选择其中可能性最大的一个类别作为该样本的最终类别。由于贝叶斯定理的成立本身需要一个很强的条件独立性假设前提，而此假设在实际情况中经常是不成立的，因而其分类准确性就会下降。为此就出现了许多降低独立性假设的贝叶斯分类算法，如TAN（Tree Augmented Native Bayes)算法，它是在贝叶斯网络结构的基础上增加属性对之间的关联来实现的。

3.1.3 神经网络

神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在这种模型中，大量的节点（称”神经元”）之间相互联接构成网络，即”神经网络”，以达到处理信息的目的。神经网络通常需要进行训练，训练的过程就是网络进行学习的过程。训练改变了网络节点的连接权的值使其具有分类的功能，经过训练的网络就可用于对象的识别。目前，神经网络已有上百种不同的模型，常见的有BP神经网络、径向基RBF网络、Hopfield网络、随机神经网络（Boltzmann机）、竞争神经网络（Hamming网络，自组织映射网络）等。但是当前的神经网络仍普遍存在收敛速度慢、计算量大、训练时间长和不可解释等缺点。

3.1.4 支持向量机（SVM）

支持向量机（SVM，Support Vector Machine）是根据统计学习理论提出的一种新的学习方法，它的最大特点是根据结构风险最小化准则，以最大化分类间隔构造最优分类超平面来提高学习机的泛化能力，较好地解决了非线性、高维数、局部极小点等问题。对于分类问题，支持向量机算法根据区域中的样本计算该区域的决策曲面，由此确定该区域中未知样本的类别。

3.1.5 集成学习分类模型

集成学习是一种机器学习范式，它试图通过连续调用单个的学习算法，获得不同的基学习器，然后根据规则组合这些学习器来解决同一个问题，可以显著的提高学习系统的泛化能力。主要采用（加权）投票的方法组合多个基学习器，常见的算法有装袋（Bagging）、提升/推进（Boosting）、随机森林等。集成学习由于采用了投票平均的方法组合多个分类器，所以有可能减少单个分类器的误差，获得对问题空间模型更加准确的表示，从而提高分类器的分类准确度。

3.1.6 其他分类学习模型

此外还有logistics回归模型、隐马尔科夫分类模型（HMM）、基于规则的分类模型等众多的分类模型，对于处理不同的数据、分析不同的问题，各种模型都有自己的特性和优势。

4 模型评价指标

4.1 模型评价概述

建模构建过程中会得出一系列的分析结果、模式或模型。同一个采样数据可以利用多种数据分析方法和模型进行分析，模型评价的目的之一就是从这些模型中自动找出一个最好的模型出来，另外就是要针对业务对模型进行解释和应用。

模型效果评价通常分两步，第一步是直接使用原来建立模型的样本数据来进行检验。假如这一步都通不过，那么所建立的决策支持信息价值就不太大了。一般来说，在这一步应得到较好的评价。这说明你确实从这批数据样本中挖掘出了符合实际的规律性。第一步通过后，第二步是另外找一批数据，已知这些数据是反映客观实际的、规律性的。这次的检验效果可能会比前一种差，差多少是要注意的，若是差到所不能容忍程度，那就要考虑第一步构建的样本数据是否具有充分的代表性，或是模型本身是否够完善。这时候可能要对前面的工作进行反思了。若这一步也得到了肯定的结果时，那所建立的数据挖掘模型应得到很好的评价了。

4.2 常用的模型评价方法

4.2.1 预测准确率

预测准确率又称作精度是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率。取值在0和1之间，数值越接近1，查准率就越高。

计算公式：正确率 = 提取出的正确信息条数 / 提取出的信息条数

4.2.2 召回率

召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率。取值在0和1之间，数值越接近1，查全率就越高。

计算公式：召回率 = 提取出的正确信息条数 / 样本中的信息条数

4.2.3 综合指标F值

F值为正确率和召回率的调和平均值，能够综合平衡的去表示模型的性能效果。

计算公式：F值 = 正确率召回率 2 / (正确率 + 召回率)

4.2.4 ROC曲线

受试者工作特性（Receiver Operating Characteristic，ROC）曲线是一种非常有效的模型评价方法，可为选定临界值给出定量提示。将灵敏度（Sensitivity）设在纵轴，1-特异性（1-Specificity）设在横轴，就可得出ROC曲线图。该曲线下的积分面积（Area）大小与每种方法优劣密切相关，反映分类器正确分类的统计概率，其值越接近1说明该算法效果越好。

4.2.5 数据相似度

聚类分群效果可以通过向量数据之间的相似度来衡量，向量数据之间的相似度定义为两个向量之间的距离（实时向量数据与聚类中心向量数据），距离越近则相似度越大，即该实时向量数据归为某个聚类。常用的相似度计算方法有：欧几里得距离法（Euclidean Distance）、皮尔逊相关系数法（Pearson Correlation Coefficient）、Cosine相似度和Tanimoto系数法。

4.2.6 其他的模型评价方法

除上述的模型评价方法外，还有一些较为详细的模型评价方法。如可以用相对绝对误差、平均绝对误差、根均方差、相对平方根误差等指标来衡量。此外模型的鲁棒性和容错性以及处理数据的速度、能够处理数据的规模等都是衡量一个模型的重要指标。

5 数据挖掘开发平台

5.1 单机模型开发平台

直接在单机上部署数据挖掘开发环境，比如说安装MySQL+python就可以搭建一个数据挖掘环境。

5.2分布式集群开发平台

5.2.1 Hadoop集群环境

Hadoop 是一个通过分布式集群技术，将多个物理机或虚拟机(VMware等厂商的虚拟化技术在一个物理机上运行多个虚拟机)当作一台机器运行。基于Hadoop的数据挖掘数据挖掘一旦完成，就会生成挖掘结果即模式。

5.4.2 Spark集群环境

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

6 数据挖掘的开发流程

6.1 数据获取

6.2 数据清洗

6.3 数据变换

6.4 特征工程

6.5 模型训练

6.6 模型优化

6.7 结果分析

三、数据分析

相比于数据挖掘，数据分析更多在于利用一定的工具和一定的专业知识分析数据。最初的数据分析来源于统计学家和经济学家的一些理论，进而结合一定的实际应用场景解决问题。数据分析更多的是偏重于业务层次的，对于大多数非计算机相关专业人士来说，掌握一般的数据分析方法是十分有用的，入门上手也相对简单。

1 数学和专业的预备知识

§ 概率论：数据分析的重要数学基础，要熟悉常见的一些概率分布。

§ 统计学：数据分析最早的依赖基础，通常和概率论一起应用，数据分析要掌握常见的均值、方差、协方差等。

§ 心理学：数据分析往往要结合不同的学科知识进行分析，在数据分析的过程中，分析人员往往要结合用户的心理进行结果的调整和分析。

§ 专业知识：一般来说，数据分析人员是对某一特定领域进行分析，这就要求分析人员具备一定的行业的专业知识。

2 使用数据分析软件

SPSS:功能非常强大非常专业的数据统计软件，界面友好，输出结果美观漂亮。SPSS软件具有信息的采集、处理、分析进行全面评估和预测等功能。包含广义线性混合模型、自动线性模型、一个统计网页入口portal和直复营销direct marketing功能。

SAS: 是一个模块化、集成化的大型应用软件系统，由数十个专用模块构成，功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。

Excel:办公套件中最能胜任数据分析的软件，简单实用。

Sql:非计算机专业的数据分析人员要操作数据必备的数据库语言。

R: 近年兴起的数据分析编程语言，数据可视化做的比较好，语法简单，学习成本很低，很多非程序设计人员都可以数量掌握。

3 数据分析模型选取

数据分析人员可以借助一些现场的分析软件进行分析，这些软件集成了一些良好的分析模型，分析人员可以根据自己的实际应用场景进行合适的模型选择。基本的分析方法有：对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。高级的分析方法有：相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。

4 分析结果展示

数据分析的结果通过一些可视化图形或者报表形式进行展示能够增强对分析结果的理解。

常用的的分析结果展示方法有：

图表展示：用一些柱状图、饼图、盒图等进行展示。

曲线展示：运用走势曲线或者ROC曲线进行展示。

文字展示：通过语言文字描述进行结果的分析展示，但是不够直观。

5 数据分析的流程

5.1 数据获取

5.2 数据清洗

5.3 分析工具选取

5.4 数据分析模型选择

5.5 数据处理

5.6 处理结果展示

5.7 结果数据分析

6 数据可视化工具

数据可视化是大数据技术得以展现价值的“最后一公里”，向用户呈现数据处理和分析的结果性数据，通过表和图的方式传递数据价值，并且支撑用户对结果性数据的灵活运用。

大数据的基础数据可以是结构化数据，也可能是非结构化数据，是质量好的、由计算机系统采集的数据，也可能是手工维护的文本、表格数据，在经过数据处理和分析的环节后，纷杂的大数据得以整理、整合、清洗、计算，形成易于元数据描述的结果性小数据，信息密度得以极大的提升。在完成信息密度由低到高的魔法变换后，结果性数据如何最大限度地传递价值，一直是业界不断研究和创新的课题。

从“传递价值”的核心意义分析，数据可视化需要考虑两方面的技术，第一是狭义的数据可视化呈现形式，包括各种图表工具和技术；第二是容易被忽视的人机交互，这也是评价数据可视化价值的关键因素。

数据的可视化呈现

可视化的数据呈现，首先体现在基于数据内容的可视化元素上，包括表格、图形和地图。表格作为最传统的可视化呈现元素，伴随了整个信息时代的发展，其技术最为成熟和稳定，按大类主要分为垂直表和交叉表。

图形和地图是近年来的热点技术，尤其大数据兴起后，以图形和地图为核心的数据可视化得到长足的发展。从数据可视化的应用角度，图形和地图可以梳理出如下四大类应用场景：比较、序列、构成、描述。其中“比较”场景细分为进度vs目标、项目vs项目、地域vs地域。

这些表格、图形和地图的元素，在数据可视化的具体应用中，可以单一使用（参考上图进行选择），也可以综合使用，这就是数据可视化的呈现方式，或者说可视化元素如何满足不同最终用户的需求。

数据可视化的交互

结果性数据无论通过表格、图形、地图的数据可视化形式，都依托于一个载体（浏览器等）与最终用户进行交互。从交互的程度来看，初级的交互操作主要是更改查询条件和点击触发事件，高级的交互操作主要是自行更改或者重新进行数据可视化探索。

初级的交互操作

具备更多类似能力，最终用户将大幅减少细节的需求，提高了“传递价值”的效果。

高级的数据探索

初级的交互操作不仅在预设的功能下进行，也在限定的小数据集范围内进行。而高级的数据探索允许最终用户突破限制，更自由的组合数据和调整可视化效果。

如果初级的交互操作覆盖了80%的用户需求，高级的数据探索就满足于真正依赖数据可视化的高级用户，他们渴望通过自助式的可视化分析功能，自行高效完成自身需求，改善了“传递价值”的效率。

集成到办公系统

数据可视化“传递价值”的目的在于辅助决策，如果没有决策需求，就不需要数据可视化技术。而决策需求全部发生在办公环境当中，比如在办公桌前思考、在会议室中讨论、在手机上组织协调、在报告中分析研究......那么数据可视化就必须考虑如何满足这些办公场景，从“传递价值”的效率和效果上不断进步。

常用的可视化工具

1、Microsoft Excel
对于这个软件大家应该并不陌生，对于一般的可视化这个软件完全足矣，但是对于一些数据量较大的数据则不太适合。

2、Google Spreadsheets
Google Spreadsheets是基于Web的应用程序，它允许使用者创建、更新和修改表格并在线实时分享数据。基于Ajax的程序和微软的Excel和CSV（逗号分隔值）文件是兼容的。表格也可以以超文本链接标记语言（HTML）的格式保存。

3、Tableau Software
Tableau Software现在比较受大家的欢迎，既可以超越Excel做一些稍微复杂的数据分析，又不用像R、Python那种编程语言进行可视化那么复杂。好多人都有推荐这款软件。

4、一些需要编程性语言的工具
R语言、JavaScript、HTML、SVG、CSS、Processing、Python等。

数据分析是指通过建立审计分析模型对数据进行核对、检查、复算、判断等操作，将被审计单位数据的现实状态与理想状态进行比较，从而发现审计线索，搜集审计证据的过程，在实用中，数据分析可帮助人们作出判断，以便采取适当行动。

7 数据分析方法

对比分析法

“无对比，不分析”，对比分析法也叫对比法，是数据分析中最常见也是最基础的分析方法，如果我们对数据的评估和汇报缺少了对比，就无法说明效果是好还是坏。

其中对比分析又包括：绝对对比和相对对比。

绝对对比：在数据分析中，绝对数对比一般是指正数之间的对比，如支付人数、DAU、GMV等；

相对对比：而相对数对比一般是相对数之间的对比，如转化率、增长率、完成率等。

如下图登录用户量的对比就属于绝对数对比，用户留存率的对比则属于相对数对比。

环比分析

环比，表示连续2个统计周期内的量级变化比，例如连续两日、两周、两月的量级变化比，都可以称为环比。环比分析一般体现该时间段对比上个连续时间段的数据变化情况。

计算公式：环比增长率=（本期数-上期数）/上期数 × 100%

举个环比分析简单例子：我们在9月第三周针对50%的随机用户A群进行了活动营销激励，整体GMV环比第二周上升50%。

这里就是将第二周看做基准，默认第三周自然GMV为100万。通过活动营销激励后，第三周实际GMV为150万，对比第二周增长了50万，环比增长率为50%。

这个例子来说，如果在正常情况下，环比分析给出的50%增长，可以证明活动带来了明显的GMV增长，效果好像不错，但是环比分析结果也会存在骗人的时候，我们继续往下看下面的例子：

看到活动效果良好，我们在9月第四周又取了剩下的随机用户群B进行了活动营销激励，GMV环比第三周反而下降了7%。同样的激励策略，不仅没有得到环比提升50%的数据效果重现，反而下降了7%。

在这里就体现出了一个环比分析法的弊端：无法消除周期波动变化的影响。

原因是我们的产品在节假日前期数据波动特别大，仅通过该环比数据没有办法客观的进行运营效果评估。如9月第四周是国庆前的最后一周，用户的交易数据会有明显的下降，营销动作是很难提升GMV超过上周（上期）的量级水平，如果通过仅仅通过环比给出的数据结果，一定是本期对比上期环比下降x%。

遇到这种周期波动特别大的分析场景，则需要加入同比分析法，与环比分析法共同进行分析。

同比分析

同比，表示本期与上年同期的量级变化比，例如本日、本周、本月内的量级变化对比去年同日、同周、同月的量级变比。

计算公式与环比增长率相同：

同比增长率=（本期数-上期数）/上期数 × 100%

同样国庆前做活动的例子，通过环比分析，因为节假日因素波动，没有办法得到真实的营销增长情况，那么通过环比+同比分析，就可以对比出9月第四周对比上年同期的增长情况：

18年环比：18年9月第四周环比第三周，GMV下降20%；
19年环比：而19年9月第四周环比第三周，GMV仅下降7%，下降幅度小于去年下降水平；
19年同比：且19年9月第四周同比 18年9月第四周，GMV上涨75%，而第三周的同比上涨仅为50%；

综上的环比与同比分析，我们可以对19年9月第四周的运营策略做出真实评估：有效的带来GMV增长。

A/Btest

A/Btest，是将Web或App界面或流程的两个或多个版本，在同一时间维度，分别让类似访客群组来访问，收集各群组的用户体验数据和业务数据，最后分析评估出最好版本正式采用。A/Btest的流程如下：

（1）现状分析并建立假设：分析业务数据，确定当前最关键的改进点，作出优化改进的假设，提出优化建议；比如说我们发现用户的转化率不高，我们假设是因为推广的着陆页面带来的转化率太低，下面就要想办法来进行改进了

（2）设定目标，制定方案：设置主要目标，用来衡量各优化版本的优劣；设置辅助目标，用来评估优化版本对其他方面的影响。

（3）设计与开发：制作2个或多个优化版本的设计原型并完成技术实现。

（4）分配流量：确定每个线上测试版本的分流比例，初始阶段，优化方案的流量设置可以较小，根据情况逐渐增加流量。

（5）采集并分析数据：收集实验数据，进行有效性和效果判断：统计显著性达到95%或以上并且维持一段时间，实验可以结束；如果在95%以下，则可能需要延长测试时间；如果很长时间统计显著性不能达到95%甚至90%，则需要决定是否中止试验。

（6）最后：根据试验结果确定发布新版本、调整分流比例继续测试或者在试验效果未达成的情况下继续优化迭代方案重新开发上线试验。
流程图如下：

象限分析

通过对两种及以上维度的划分，运用坐标的方式表达出想要的价值。由价值直接转变为策略，从而进行一些落地的推动。象限法是一种策略驱动的思维，常与产品分析、市场分析、客户管理、商品管理等。比如，下图是一个广告点击的四象限分布，X轴从左到右表示从低到高，Y轴从下到上表示从低到高。

象限法的优势：
（1）找到问题的共性原因

通过象限分析法，将有相同特征的事件进行归因分析，总结其中的共性原因。例如上面广告的案例中，第一象限的事件可以提炼出有效的推广渠道与推广策略，第三和第四象限可以排除一些无效的推广渠道；

（2）建立分组优化策略
针对投放的象限分析法可以针对不同象限建立优化策略，例如RFM客户管理模型中按照象限将客户分为重点发展客户、重点保持客户、一般发展客户、一般保持客户等不同类型。给重点发展客户倾斜更多的资源，比如VIP服务、个性化服务、附加销售等。给潜力客户销售价值更高的产品，或一些优惠措施来吸引他们回归。

帕累托分析

帕累托法则，源于经典的二八法则。比如在个人财富上可以说世界上20%的人掌握着80%的财富。而在数据分析中，则可以理解为20%的数据产生了80%的效果需要围绕这20%的数据进行挖掘。往往在使用二八法则的时候和排名有关系，排在前20%的才算是有效数据。二八法是抓重点分析，适用于任何行业。找到重点，发现其特征，然后可以思考如何让其余的80%向这20%转化，提高效果。

一般地，会用在产品分类上，去测量并构建ABC模型。比如某零售企业有500个SKU以及这些SKU对应的销售额，那么哪些SKU是重要的呢，这就是在业务运营中分清主次的问题。

常见的做法是将产品SKU作为维度，并将对应的销售额作为基础度量指标，将这些销售额指标从大到小排列，并计算截止当前产品SKU的销售额累计合计占总销售额的百分比。

百分比在 70%（含）以内，划分为 A 类。百分比在 70~90%（含）以内，划分为 B 类。百分比在 90~100%（含）以内，划分为 C 类。以上百分比也可以根据自己的实际情况调整。

ABC分析模型，不光可以用来划分产品和销售额，还可以划分客户及客户交易额等。比如给企业贡献80%利润的客户是哪些，占比多少。假设有20%，那么在资源有限的情况下，就知道要重点维护这20%类客户。

漏斗分析

漏斗分析是一套流程式数据分析，它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。漏斗分析模型已经广泛应用于网站用户行为分析和APP用户行为分析的流量监控、产品目标转化等日常数据运营与数据分析的工作中。

更多数据科学知识，扫码关注：全栈数据

面试

文章转载自全栈数据，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。