Table of Contents
- 一. 信念贝叶斯概述
- 二. 聚类
- 2.1 聚类的应用场景:寻找优质客户
- 2.2 聚类应用场景:推荐系统
- 2.3 聚类应用场景:社区发现
- 2.4 聚类应用场景:生物进化树
- 2.5 聚类应用场景:孤立点的特殊意义
- 2.6 R的dist函数
- 2.7 数据中心化与标准化转换
- 三.层次聚类法
- 四. 动态聚类: K-means方法
- 五. 基于有代表性的点的技术: K中心聚类法
- 六. 基于密度的方法: DBSCAN
- 七. CLARA(大数据处理)
- 参考:
一. 信念贝叶斯概述
二. 聚类
你可以把每一个变量都进行标记,有多少个不同的值,就有多少的维度,在空间内如果距离更近,则他们可以认为是同类,可以通过聚类算法标记出来。
2.1 聚类的应用场景:寻找优质客户
2.2 聚类应用场景:推荐系统
2.3 聚类应用场景:社区发现
2.4 聚类应用场景:生物进化树
2.5 聚类应用场景:孤立点的特殊意义
2.6 R的dist函数
2.7 数据中心化与标准化转换
三.层次聚类法
3.1 类与类之间距离计算的方法
- 最短距离法
- 最长距离法
- 中间距离法
- 类平均法
- 重心法
- 离差平方和法
R中的hclust()函数:
3.2 类的个数的确定
四. 动态聚类: K-means方法
K-means 比较容易搬到Hadoop 的MR上
4.1 R中的kmeans()函数
4.2 K-means算法优缺点
K均值对于球形的簇效果比较好,如果是下图所示的平面的,效果就不太理想
五. 基于有代表性的点的技术: K中心聚类法
K中心法的实现:PAM
六. 基于密度的方法: DBSCAN
若干概念
七. CLARA(大数据处理)
参考:
- http://www.dataguru.cn/article-4063-1.html
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。