一.数据分析和数据挖掘
1.数据分析:是指采用恰当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当的描述,提取出有用的信息的过程
数据分析一般具有比较明确地目标,可以根据数据分析得出的结果做出适当的判断,为以后的决策提供依据
数据分析的结果可以通过列表和作图等显示
将数据按照一定的规律显示出来,通过横向和纵向的对比,得出数据之间的关系,作图法可以明确地显示出数据的变化关系,常见的图有:排列图,因果图,散布图,直方图,控制图等
2数据挖掘:“资料勘探”,“数据采矿”,是指从海量的数据中通过相关的算法来发现隐藏在数据中的规律和知识的过程
进行数据挖掘的原因:
1.数据的爆炸式增长,丰富的数据来源
2.数据量大,数据结构复杂
3.通常将数据挖掘视为数据中“知识发现”的同义词,也可以认为数据挖掘是知识发现中的一个步骤
知识发现的过程:
数据处理包括:数据清理和数据集成,数据清理:消除数据中的噪声和错误数据等,数据集成:是将不同来源的数据集合在一起
4.数据分析和数据挖掘的区别:
内容 | 数据分析 | 数据挖掘 |
数据量 | 不一定很大 | 海量 |
目标 | 比较明确 | 不明确 |
侧重点 | 展现数据之间的关系 | 对未知的情况进行预测和估计 |
数据分析和数据挖掘的联系:数据分析的结果需要进一步的挖掘才能得到更清晰的结果数据挖掘发现知识的过程也需要对数据进行一定的调整而再次进行数据分析
数据分析可以将数据变成信息,而数据挖掘将信息变成知识,如果需要从数据中发现知识,往往需要数据分析和数据挖掘相互配合,共同完成任务
5.数据分析和数据挖掘可以应用与不同的数据类型,主要的数据类型有:
数据库数据:数据录系统由一组内部相关的数据和用于管理这些数据的程序组成,通过软件程序对数据进行高效的存储和管理
较成熟的数据库:关系数据库:基于关系数据库模型,是数据库的集合,其中每个表都有一个唯一的名字,每个表格包含一个或多个用列表示的属性,每行包含一个数据实体,被唯一的关键字标识,并被一组属性描述,关系数据库中的数据可以通过数据库进行查询和访问
当对关系数据库进行挖掘时可以通过数据分析和挖掘得到更多的信息
二.分析和挖掘的数据类型
1.数据仓库数据:常用于有单独管理的数据源,数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者决策过程,数据仓库使用特有的数据存储架构,对数据进行系统的分析整理,数据仓库通过数据清理、数据变换、数据集成、数据装入、数据刷新来构造
通常,数据仓库使用数据立方体的多维数据结构进行建模,其中每个维度包含模式中的一个或一组属性,而每个单元保存对应的属性值,数据立方体可以从多个维度观察,得到整体信息
2.数据库系统(DataBase System,DBS):由一组内部相关的数据(称作数据库)和用于管理这些数据的程序组成,通过软件程序对数据进行高效的存储和管理
联机分析处理:是数据仓库系统的主要应用,用于支持复杂的分析操作,允许在不同的汇总级别对数据进行汇总
数据库系统是为了解决数据处理方面的问题而建立起来的数据处理系统,注重于为用户创建、维护和使用数据库。
数据仓库汇集了来自多个不同数据源的数据,通过数据仓库,可以在不同的维度合并数据,形成数据立方体,便于从不同的角度对数据进行分析和挖掘
3.事务数据:事务数据库的每个记录代表一个事务,一个事务由唯一的标识号和一组表述事务的项组成
4.数据矩阵:数据矩阵中的数据对象的所有属性都是具有相同性质的数值型数据,通过将每个数据对象映射到多维空间中的点或向量,可以根据数据对象的空间位置关系来进行分类和聚类操作,空间上距离相近的两个数据对象被认为是同一类型
5.图和网状数据:通常用来表达不同节点之间的联系,但结构复杂,对数据分析和数据挖掘有较高要求
6.其他类型数据:如与时间相关的序列数据,数据流数据,多媒体数据等
三.数据分析和数据挖掘的方法:
1.频繁模式:在数据中频繁出现的模式,如信用卡分析,购物车分析等
频繁项集:频繁在数据事务集中一起出现的商品集合
关联与相关性
2.分类与回归:分类与标签预测是找出描述和区分数据类或概念的模型或函数,以便能够使用模型预测类标号未知的对象的类标号
分类是预测离散的、无序的类别标号
回归建立连续值函数类型,用来预测缺失的或难以获得的数值
常见分类算法:决策树、朴素贝叶斯分类、支持向量机、神经网络、基于模式的分类、逻辑回归等
3.聚类分析:聚类就是把一些对象划分为多个组或“聚簇”,使同组内的对象比较相似而不同组的对象差异较大,聚类过程的输入对象没有与之关联的目标信息,即不知道类标号,是无监督学习
4.离群点分析:离群点是指全局或局部范围内偏离一般水平的观测对象,一般情况下离群点会被当做噪声而丢弃,但在特殊情况下离群点有特殊意义
四.数据分析和数据挖掘使用的技术:
1.数据挖掘是一门交叉学科,吸取了统计学、线性代数、概率论、数据库、数据仓库、信息检索、模式识别、高性能计算、云计算、机器学习等很多领域的大量技术,与各学科的联系促进了数据分析和数据挖掘的发展和应用
2.统计学方法:统计学是通过对数据进行收集、整理、分析和描述来达到对研究对象本质的理解和表示的目的的学科,广泛应用与数据建模,来处理噪声和数据丢失的情况
在实际生活中,通常有一些过程无法通过理论分析直接获得模型,但可以通过直接或间接测量的方法获得描述目标对象的相关变量的具体数据,用来刻画这些变量之间关系的数学函数称为统计模型
3.机器学习:研究机器如何像人类一样自主学习知识、分析和判断数据,做出智能判断,学习方法有:
监督学习:在有标记的数据集上进行学习,是一个分类的过程
无监督学习:在没有标记的数据集上进行学习,是一个聚类的过程
半监督学习:使用少量有标记和大量无标记的数据集进行学习,其中标记的数据用来学习模型,未标记的数据用来进一步改进类的边界
4.模式识别:本质是抽象出不同事物中的模式,并根据这些模式对事物进行分类和聚类的过程。研究内容:文字识别、语音识别、图像识别、指纹识别等
5.高性能计算:突破单个计算机资源不足的限制,使用多个处理器或多台计算机共同完成同一项任务的计算环境
五.数据挖掘的应用场景:
商务智能:通过数据挖掘等技术可以获得隐藏在各种数据中的有利信息,从而帮助商家进一步调整营销策略。
信息识别:信息识别是指信息接受者从一定的目的出发,运用已有的知识和经验,对信息的真伪性、有用性进行辨识和甄别。
搜索引擎:根据用户提供的关键词,在互联网上搜索用户最需要的内容
辅助医疗:对大量历史诊断数据进行分析和挖掘,有助于医生对病人的病情进行有效的判断
存在的问题:
数据类型的多样性
高维度数据
噪声数据
分析与挖掘结果的可视化
隐私数据的保护