大数据用例简单来说就是使用大数据来服务我们的日常工作,解决实质性的问题。一个完整的大数据用例分析流程,应该包括以下几个方面:
1.界定用例问题。2.将问题界定成议题。3.去除不重要的议题。4.制定详细的工作计划。5.数据特征工程与建模。6.数据分析与展现。7.持续验证与跟踪。
大数据用例能否取得良好的效果,界定用例问题是前提。只有从最开始抓住用例的核心问题,才能通过用例分析与建模,产生良好的效果。良好的问题界定应该具备明确性,可衡量性,可实现性,相关性和时限性。例如在手机银行促活用例中,明确性可表述为为什么手机银行月活度在过去一年中一直徘徊在23%?可衡量性可表述为如何在未来一年将手机银行月活度提升到30%?可实现性表述为如何将手机银行月活度在同类手机银行中做到第一位?相关性可表述为我们是否需要开通新渠道来提升手机银行的月活度?时限性可以表述为如何在未来三个月将手机银行月活度提升到25%?
在问题分解成议题到过程中,可以使用议题树来分解议题。议题树在解决复杂问题的结构时是很有帮助的,而且议题树各部分应该要与解决的主要问题相互关联,各个议题之间必须相互独立,完整统一于主要问题之下。在手机银行促活用例中,为了增加手机银行的月活度,我们首先分为新客促增长和老客防流失。新客促增长根据促活渠道分为线下开通促增长和线上线索下发促增长。老客防流失根据最近半年用户登录手机银行的次数的维度分为成长用户、高粘用户、忠诚用户、睡眠用户。
去除不重要的议题,可以使用二八原则,将主要精力集中在最重要的议题上。去除不重要的议题帮助你节省大量的时间,尤其是在一些繁忙的项目上。在手机银行促活用例分解成议题后,我们把主要精力集中在新客线上线索下发促增长、成长-高粘用户防流失、睡眠用户促活跃这几个议题上。
制定详细的工作计划要求从议题树中的议题开始,对议题的一种可能解决方案进行陈述,为证明假设所做的工作,分析工作所需要的数据来源,最终的分析结果应该是什么样子。在手机银行促活用例中,如何提高睡眠用户的月活度?首先分析睡眠用户画像的独特性,确定睡眠用户的资产负债要素、消费-生活习惯要素。数据来源包括行内大数据平台、线上电话问卷调查、概念规划等渠道。最终将睡眠用户划分为潜在可提升睡眠用户与不可提升睡眠用户,对潜在可提升睡眠用户根据用户行为信息细化为高AUM理财用户、低AUM理财用户、信用卡用户、城市青年用户和惠农用户,对每一个细化客群用户制定相关的激活策略。
数据特征工程包括数据的提取、清洗、去重、加工、结构化等一系列的数据处理过程。根据特征工程构建的特征,使用相应的算法来训练模型,通过算法参数的调优操作,得到满足需要的模型。在手机银行促活高粘用户防流失模型中,我们选择的数据特征包括用户三个月内的手机银行登录信息、AUM资产信息、信用卡-借记卡消费信息、客户基本信息等,通过对这些特征进行加工组合,得到480个左右的特征,标签以三个月登录0-1个月为流失客户,采用GBM算法进行建模,调整正负样本的权重,根据评估分数得到满足需要的模型。在特征加工与数据建模阶段,数据分析师要掌握数据挖掘相关能力。一是数据挖掘、统计学、数学基本原理和常识;二是熟练使用一门数据挖掘工具;三是需要了解常用的数据挖掘算法以及每种算法的应用场景和优劣差异点。
数据分析相对于数据挖掘更多的是偏向业务应用和解读,当数据挖掘算法得出结论后,如何将挖掘结果反馈到业务操作过程中便于业务理解和实施是关键。在结果反馈阶段需要数据建模师与业务人员进行沟通,数据建模师要尽可能详细的向业务人员解释整个分析流程以及结果,便于业务人员对结论策略的实施。数据展现即数据可视化的部分,我行的数据可视化展现依托一站式分析平台取得了快速的发展,通过各种报表展现给业务人员。
持续验证与跟踪的目的是随着用例的不断推进,根据数据的反馈结果进展不断优化模型,得到更优的结果。大数据用例分析过程是一个持续迭代的过程,我们要以敏捷思维来对待大数据用例分析,在基本架构下随着数据的反馈与业务的需求改变不断完善我们的大数据用例,保证我们的大数据用例能够迭代、完善与实时。